Aspects of Coherence for Entity Analysis
Total Page:16
File Type:pdf, Size:1020Kb
Aspects of Coherence for Entity Analysis Dissertation zur Erlangung der Doktorwürde der Neuphilologischen Fakultät der Ruprecht-Karls-Universität Heidelberg Vorgelegt von: Benjamin Heinzerling Referent: Prof. Dr. Michael Strube Korreferentin: Prof. Dr. Anette Frank Einreichung: 8. November 2018 Disputation: 22. Januar 2019 iii Abstract Natural language understanding is an important topic in natural language proces- sing. Given a text, a computer program should, at the very least, be able to under- stand what the text is about, and ideally also situate it in its extra-textual context and understand what purpose it serves. What exactly it means to understand what a text is about is an open question, but it is generally accepted that, at a minimum, un- derstanding involves being able to answer questions like “Who did what to whom? Where? When? How? And Why?”. Entity analysis, the computational analysis of entities mentioned in a text, aims to support answering the questions “Who?” and “Whom?” by identifying entities mentioned in a text. If the answers to “Where?” and “When?” are specific, named locations and events, entity analysis can also pro- vide these answers. Entity analysis aims to answer these questions by performing entity linking, that is, linking mentions of entities to their corresponding entry in a knowledge base, coreference resolution, that is, identifying all mentions in a text that refer to the same entity, and entity typing, that is, assigning a label such as Person to mentions of entities. In this thesis, we study how different aspects of coherence can be exploited to improve entity analysis. Our main contribution is a method that allows exploiting knowledge-rich, specific aspects of coherence, namely geographic, temporal, and entity type coherence. Geographic coherence expresses the intuition that entities mentioned in a text tend to be geographically close. Similarly, temporal coherence captures the intuition that entities mentioned in a text tend to be close in the tem- poral dimension. Entity type coherence is based in the observation that in a text about a certain topic, such as sports, the entities mentioned in it tend to have the same or related entity types, such as sports team or athlete. We show how to integrate features modeling these aspects of coherence into entity linking systems and esta- blish their utility in extensive experiments covering different datasets and systems. Since entity linking often requires computationally expensive joint, global optimi- zation, we propose a simple, but effective rule-based approach that enjoys some of the benefits of joint, global approaches, while avoiding some of their drawbacks. To enable convenient error analysis for system developers, we introduce a tool for iv visual analysis of entity linking system output. Investigating another aspect of co- herence, namely the coherence between a predicate and its arguments, we devise a distributed model of selectional preferences and assess its impact on a neural core- ference resolution system. Our final contribution examines how multilingual entity typing can be improved by incorporating subword information. We train and make publicly available subword embeddings in 275 languages and show their utility in a multilingual entity typing task. v Zusammenfassung Automatisches Sprachverstehen ist ein wichtiger Teilbereich der natürlichen Sprach- verarbeitung. Gegeben einen Eingabetext, sollte ein Computerpgrogramm verste- hen, worum es in diesem Text geht und idealerweise darüberhinaus sogar warum und in welchem außertextlichen Zusammenhang er verfasst wurde. Auch wenn die Frage, was genau es heißt einen Text zu verstehen bisher nicht beantwortet ist, scheint es allgemein als Mindestvoraussetzung akzeptiert, in der Lage zu sein, Fra- gen wie “Wer hat was mit wem gemacht? Wo? Wann? Wie? Warum?” zu beant- worten. Entity analysis hat zum Ziel, unter diesen Fragen auf das “Wer?” und das “Wem?” Antworten zu geben. Darüber hinaus kann entity analysis auch die Fra- ge “Wo?” und “Wann?” beantworten, wenn es sich hierbei um konkret benennbare Orte und Ereignisse handelt, wie zum Beispiel Städte oder die erste Mondlandung. Entity analysis beinhaltet drei Unteraufgaben: Entity linking, Koreferenzresolution und entity typing. Ziel im entity linking ist es, Ausdrücke in einem Text, die Enti- täten referenzieren zu finden und diese mit dem entsprechenden Eintrag in einer Wissensbasis zu verlinken. Auch die Koreferenzresolution findet solche Ausdrücke und gruppiert alle Ausdrücke, die dieselbe Entität referenzieren. Im entity typing wird jedem Ausdruck, der eine Entität referenziert, eine Klasse, wie zum Beispiel Person, zugewiesen. In der vorliegenden Arbeit untersuchen wir, wie verschiedene Aspekte der Ko- härenz verwendet werden können, um entity analysis zu verbessern. Unser Haupt- beitrag ist eine Methode, die es erlaubt mehrere spezifische Aspekte der Kohärenz zu verwenden, obwohl diese rechnerisch sehr aufwändig sind. Konkret führen wir hierfür geographische Kohärenz, temporale Kohärenz, und Entitätsklassenkohä- renz ein. Geographische Kohärenz spiegelt die Intuition wieder, nach der Entitäten, die in einem Text erwähnt werden, tendenziell geographisch nahe beieinander lie- gen. In ähnlicher Weise basiert temporale Kohärenz auf der Beobachtung, dass Enti- täten, die ein eimen Text erwähnt werden oft zeitlich nahe beieinander liegen. Enti- tätsklassenkohärenz drückt aus, dass Entitäten die einem Text über ein bestimmtes Thema wie zum Beispiel Sport erwähnt werden, oft denselben oder verwandten En- titätsklassen zugehören, wie zum Beispiel Verein oder Sportler. Wir demonstrieren, vi wie man diese Aspekte der Kohärenz als Features in ein Entity-Linking-System in- tegrieren kann, und dass diese Features zu besseren Ergebnissen in einer ausführli- chen Evaluierung führen. Da entity linking oft rechnerisch aufwändige, sogennante joint und globale Optimierung benötigt, schlagen wir eine Methode vor, die einige, aber nicht alle Vorteile dieser Art von Optimierung genießt und einige ihrer Nach- teile vermeidet. In der Koreferenzresolution untersuchen wir die semantische Über- einstimmung zwischem einem Prädikat und seinen Argumenten als einen weiteren Aspekt der Kohärenz. Hierzu entwicklen wir ein distributionelles Modell von Se- lektionspräferenzen und messen dessen Auswirkung auf die Qualität eines neuro- nales Koreferenzresolutionssystems. Schließlich untersuchen wir, wie entity typing durch sogenannte subword-Ansätze verbessert werden kann. Hierfür trainieren wir subword embeddings in 275 Sprachen und zeigen, dass diese entity typing in mehre- ren Sprachen verbessern. vii Contents 1 Introduction 1 1.1 Thesis Overview . .1 1.2 Research Questions . .2 1.3 Contributions . .3 1.4 Published Work . .4 2 Background 5 2.1 Coherence . .5 2.2 Entity Analysis . 10 2.2.1 Terminology . 12 2.3 Entity Linking . 16 2.3.1 Entity Disambiguation by Local Inference . 19 2.3.2 Entity Disambiguation by Global Inference . 20 3 Aspects of Coherence in Entity Linking 23 3.1 Interleaved Multitasking for Entity Linking . 23 3.1.1 Interleaved Multitasking . 25 3.1.2 Sieves for Entity Linking . 28 3.1.3 Evaluation at the TAC 2015 Entity Discovery and Linking Shared Task ................................. 34 Task specification . 34 Data . 35 Evaluation . 35 Implementation . 37 Results . 38 3.1.4 Limitations . 41 3.1.5 Summary . 43 3.2 Global Coherence in Entity Linking . 43 3.2.1 Exploiting Global Coherence without Global Inference . 43 3.2.2 Aspects of Global Coherence . 48 Geographic Coherence . 48 viii Temporal Coherence . 49 Entity Type Coherence . 51 Generic Semantic Relatedness . 52 3.2.3 Pairwise Coherence Features . 53 3.2.4 Local Features . 53 3.2.5 Experiments . 54 Data . 54 Systems . 55 3.2.6 Implementation and Experimental Setup . 56 3.2.7 Results and Discussion . 57 3.2.8 Candidate Reranking . 59 3.2.9 Ablation Study . 59 3.2.10 Automatic Verification on Noisy Text . 60 3.2.11 Comparison of Automatic Verification to Related Methods . 61 3.2.12 Summary . 62 3.3 Visual Entity Explorer: A Tool for Analysis of Entity Linking Errors . 63 3.3.1 Motivation . 63 3.3.2 The Visual Entity Explorer . 64 3.3.3 Visualizing Entity Linking Errors . 66 Partial Mention Detection Errors . 66 Full Mention Detection Errors . 66 Linking/Clustering Errors . 66 3.3.4 Usage examples . 67 3.3.5 Insights Gained from Error Analysis . 69 3.3.6 Implementation . 69 3.3.7 Design Decisions . 70 3.3.8 Summary . 72 4 Selectional Preferences for Coreference Resolution 73 4.1 Preference and Affordance . 73 4.2 Selectional Preferences for Coreference Resolution . 75 4.3 Modeling Selectional Preferences . 78 4.3.1 Distributed Representation of Selectional Preferences . 79 4.3.2 Enhanced++ Universal Dependencies . 81 4.3.3 Fine-grained Entity Types. 83 4.4 Implementation . 84 4.4.1 Qualitative Evaluation . 87 4.5 Do Selectional Preferences Improve Coreference Resolution? . 92 ix 4.5.1 Limitations . 96 4.6 Summary . 96 5 Multilingual Entity Typing with Subword Units 99 5.1 Introduction . 99 5.1.1 Type Inventory . 100 5.1.2 Feature-based Entity Typing . 102 5.1.3 Neural Entity Typing . 104 5.1.4 The Unknown Word Problem in Entity Typing . 105 5.1.5 The Rare Word Problem in Entity Typing . 107 5.2 Subwords as a solution to the unknown and rare word problems . 107 5.2.1 Subword units . 110 Morphemes . 110 Characters . 110 Character n-grams . 111 FastText . 111 Byte Pair Encoding (BPE) . 112 5.3 BPEmb : Byte Pair Embeddings in 275 Languages . 116 5.3.1 Qualitative Evaluation . 117 5.4 Multilingual Entity Typing with Subword Units . 121 5.4.1 Evaluation: Comparison to FastText and Character Embed- dings . 121 5.4.2 Experimental Setup . 121 Fine-grained Entity Typing . 121 Data . 121 Method . 124 Subword Units . 125 Composition Functions . 126 Hyper-parameter Search . 127 Evaluation . 127 5.4.3 Results and Discussion . 130 Comparison of Subword Units . 130 Comparison of Composition Functions . 130 Multilingual Results . 131 Limitations . 133 5.4.4 Summary . 134 x 6 Conclusions 135 6.1 Outlook . ..