Semantic Analysis and Computational Modeling of Legal Documents
Total Page:16
File Type:pdf, Size:1020Kb
TECHNISCHE UNIVERSITÄT MÜNCHEN Lehrstuhl für Informatik XIX Semantic Analysis and Computational Modeling of Legal Documents Bernhard Ernst Waltl Vollständiger Abdruck der von der Fakultät für Informatik der Technischen Universität München zur Erlangung des akademischen Grades eines Doktors der Naturwissenschaften (Dr. rer. nat.) genehmigten Dissertation. Vorsitzender: Prof. Dr. Martin Bichler Prüfer der Dissertation: 1. Prof. Dr. Florian Matthes 2. Prof. Kevin D. Ashley, PhD, University of Pittsburgh Die Dissertation wurde am 16.04.2018 bei der Technischen Universität München eingereicht und durch die Fakultät für Informatik am 19.06.2018 angenommen. II Zusammenfassung Die Arbeit mit Rechtstexten folgt dem Paradigma der Wissensarbeit und kann als daten-, wissens-, und zeitintensiv beschrieben werden. Die Analyse von Information in Hinblick auf rechtliche Relevanz wird unzureichend von Technologie unterstützt. Dies ist kontraintuitiv, da relevante Information digital vorliegt, Algorithmen zur Verarbeitung von natürlich- sprachlichem Text immer präziser und Infrastrukturen zunehmend leistungsfähiger werden. Das Ziel dieser Arbeit ist die Identifikation der Potentiale von Technologie, die bei der inhaltlichen Analyse, Strukturierung und Formalisierung von rechtlich relevanter Informa- tion unterstützen kann. Obwohl es bereits mehrere, in der wissenschaftlichen Literatur auch beschriebenen Ansätze in diesem Bereich gibt, mangelt es diesen oftmals an Generalisier- barkeit, Wiederverwendbarkeit und der Anwendbarkeit für die deutsche Rechtsordnung. Die Arbeit stellt ein methodisches und konzeptuelles Framework vor, das auf etablierten Methoden der Rechtstheorie aufbaut und Softwareunterstützung zur Analyse von Rechts- texten bietet. Dabei werden zwei interdisziplinäre Referenzprozesse vorgestellt: i) softwa- regestützte semantische Analyse von rechtlichen Dokumenten und ii) softwaregestützte Analyse und Interpretation von Gesetzen. Das Framework basiert auf einer leistungsfä- higen Softwarearchitektur, u.a. Apache UIMA und Apache Spark, und interagiert mit einem meta-model-basierten Informationssystem. Die Verfahren zur Erkennung und Ex- traktion von semantischen Entitäten wurden unter Einbeziehung von regelbasiertem und aktivem maschinellem Lernen (active machine learning) entwickelt. Das System verfügt über Komponenten zur Formalisierung von rechtlichen Entscheidungsstrukturen in aus- führbaren model-basierten Repräsentationen in denen die Ergebnisse der Interpretation modelliert und analysiert werden können. Die Anwendbarkeit und Performanz des Prototyps wird im Rahmen eines Industriepro- jekts gezeigt, in dem automatisch Information aus einem Korpus von ca. 130.000 Doku- menten aus dem deutschen Steuerrecht, etwa Gesetze, Urteile, und Aufsätze, extrahiert wird (F1 = 0:92). Die Klassifizierung von Rechtsnormen wird mit einem regel-basierten Verfahren (F1 = 0:78) und mit maschinellem Lernen durchgeführt (F1 = 0:73). Es wird außerdem nachgewiesen, dass aktives maschinelles Lernen dem herkömmlichen (supervised) maschinellen Lernen beim Klassifizieren von rechtlichen Normen in Gesetzen überlegen ist. Zusätzlich zeigen zwei Machbarkeitsstudien die Anwendbarkeit der Formalisierung zur Be- rechnung des Kindergelds und der Fristen der ordentlichen Kündigung in Mietwohnungen nach deutschem Recht. III IV Abstract The work of legal scientists and legal practitioners follows the paradigm of knowledge work that is intensive in data, knowledge, and time. The analysis of information with regard to its legal relevancy still lacks the support of technological innovation. This is counter- intuitive, since the data is digitally available, algorithms for natural language processing are becoming increasingly accurate, and the available infrastructure is powerful. The main research goal of this thesis is the identification of potentials for technology to sup- port the semantic analysis, structuring, and formalization of legally relevant information. Although several attempts have already been made and described in scientific literature, most of the proposed solutions lack of generalizability, re-usability, and applicability — at least for the German domain. This thesis introduces a methodological and conceptual framework, incorporating estab- lished theories from legal theory, to provide software-support for legal scientists and practi- tioners. It describes two interdisciplinary reference processes: i) for the software supported semantic analysis of legal documents and ii) for software support during the analysis and interpretation of statutory texts, e.g., German laws. The framework incorporates state- of-the-art software architecture, i.e., Apache UIMA and Apache Spark, and interacts with a meta model-based information system. Rule-based and active machine learning-based components were implemented to classify and extract semantic types of norms from statu- tory documents. This was the foundation to develop a formal calculus, i.e., model-based reasoning, and software components for decision support functionality, representing the interpretation of legal norms and enabling the computational reasoning. The applicability and performance of the prototype is shown within an industry project with the objective to automatically extract information from a corpus of approximately 130,000 documents from the German tax law (F1 = 0:92), e.g., statutes, judgments, and ar- ticles. The classification of legal norms is executed using rule-based information extraction (F1 = 0:78) and using machine learning (F1 = 0:73). We also show that active machine learning is superior to classical supervised machine learning in classifying legal norms in statutory texts. In addition, we performed two proof-of-concepts in formalizing the child benefit claim according to the German tax income act and the termination periodofthe German tenancy law. V VI Acknowledgment I would like to express my special appreciation and thanks to my supervisor Prof. Dr. Florian Matthes for taking the risk of guiding me in this exciting field of research. I want to thank him for showing me research opportunities, paths, and challenges; and for allowing me to grow as an academic researcher. I further want to express my sincere gratitude to Prof. Kevin D. Ashley for joining the doctoral committee and helping me to orientate myself in this complex field. Just like Kevin inspired so many generations of young researchers, he inspired me. This interdisciplinary research would not have been possible without the great support from Prof. Dr. Hans Christoph Grigoleit and Konrad Heßler. Prof. Grigoleit’s continuous enthusiasm for the legal science fascinated me from the first day on. It was a great pleasure and I am morethan grateful to have a remarkable mentor like him. In numerous discussions, Konrad’s acumen and ability to understand ideas, find weaknesses, and constructively provide feedback significantly influenced my perspective on the legal science. The sebis chair has been an excellent environment for my research. Some special thanks go to every colleague who directly or indirectly contributed to this thesis, especially Dr. Thomas Reschenhofer, Dr. Alexander Schneider, Ingo Glaser, Ulrich Gallersdörfer, Jörg Landthaler, Elena Scepankova, and Marin Zec. I would also like to thank the students who made this research possible and forced me to formulate and rethink my too complex ideas. Special thanks go to Georg Bonczek, Johannes Muhr, Thomas Grass, Dominik Oppmann, Philipp Pickel, Patrick Ruoff, Tobias Waltl, Sirma Gjorgievska, and Daniel Jorde. Finally, I want to thank my family for their support. I am most grateful to my parents, Michaela and Ernst, who always motivated, supported, and encouraged me to develop and continuously pursue my manifold passions. The same holds for my sister, Magdalena, and my brother, Michael, who have influenced my character in a most positive way since the earliest years ofmy life. I cannot express how much I owe to my patient and loving partner Isabel. Last, but not least I want to thank Daniel and Ursula for unconditionally being there whenever I got stuck — I wish I could be the son, brother, partner, and friend you all deserve. Garching bei München, September 3, 2018 Bernhard Waltl VII VIII Table of Contents 1 Introduction 1 1.1 Problem Description.................................. 3 1.2 Research Questions................................... 4 1.3 Epistemological Position and Research Design.................... 6 1.4 Outline of the Thesis.................................. 8 2 Foundations and Related Work 11 2.1 Legal Text Analytics and Software Engineering ................... 12 2.1.1 Foundations of Text Analytics......................... 12 2.1.2 Text Mining to Extract Concepts from Legal Documents.......... 13 2.1.3 Text Mining to Classify Legal Norms..................... 15 2.1.4 Software Architectures for Legal Text Analytics............... 17 2.2 Representing the Structure of Legal Documents................... 18 2.3 Computational Models of Legal Reasoning...................... 19 2.3.1 A Short Introduction to Legal Expert and Decision Support Systems . 19 2.3.2 Rule-based Reasoning on Laws and Statutes................. 20 2.3.3 User-oriented Decision and Reasoning Systems ............... 21 2.4 Summary ........................................ 22 3 Semantic Analysis and Annotation of Legal Documents 25 3.1 Process Model for Software-supported Semantic Analysis.............. 26 3.1.1 Reference Process................................ 27 3.1.2 Activities ...................................