Joint Discourse-Aware Concept Disambiguation and Clustering
Total Page:16
File Type:pdf, Size:1020Kb
Joint Discourse-aware Concept Disambiguation and Clustering Dissertation zur Erlangung der Doktorwurde¨ der Neuphilologischen Fakultat¨ der Ruprecht-Karls-Universitat¨ Heidelberg vorgelegt von Angela Petra Fahrni Referent: Prof. Dr. Michael Strube Korreferent: Prof. Dr. Anette Frank Einreichung: 31.10.2014 Disputation: 21.12.2015 Abstract This thesis addresses the tasks of concept disambiguation and clustering. Con- cept disambiguation is the task of linking common nouns and proper names in a text – henceforth called mentions – to their corresponding concepts in a prede- fined inventory. Concept clustering is the task of clustering mentions, so that all mentions in one cluster denote the same concept. In this thesis, we investigate concept disambiguation and clustering from a discourse perspective and propose a discourse-aware approach for joint concept disambiguation and clustering in the framework of Markov logic. The contributions of this thesis are fourfold: Joint Concept Disambiguation and Clustering. In previous approaches, con- cept disambiguation and concept clustering have been considered as two separate tasks (Schutze,¨ 1998; Ji & Grishman, 2011). We analyze the relationship between concept disambiguation and concept clustering and argue that these two tasks can mutually support each other. We propose the – to our knowledge – first joint approach for concept disambiguation and clustering. Discourse-Aware Concept Disambiguation. One of the determining factors for concept disambiguation and clustering is the context definition. Most previous approaches use the same context definition for all mentions (Milne & Witten, 2008b; Kulkarni et al., 2009; Ratinov et al., 2011, inter alia). We approach the question which context is relevant to disambiguate a mention from a discourse perspective and state that different mentions require different notions of contexts. We state that the context that is relevant to disambiguate a mention depends on its embedding into discourse. However, how a mention is embedded into discourse depends on its denoted concept. Hence, the identification of the denoted concept and the relevant concept mutually depend on each other. We propose a binwise approach with three different context definitions and model the selection of the context definition and the disambiguation jointly. Modeling Interdependencies with Markov Logic. To model the interdepen- dencies between concept disambiguation and concept clustering as well as the iv interdependencies between the context definition and the disambiguation, we use Markov logic (Domingos & Lowd, 2009). Markov logic combines first order logic with probabilities and allows us to concisely formalize these interdependen- cies. We investigate how we can balance between linguistic appropriateness and time efficiency and propose a hybrid approach that combines joint inference with aggregation techniques. Concept Disambiguation and Clustering beyond English: Multi- and Cross- linguality. Given the vast amount of texts written in different languages, the capability to extend an approach to cope with other languages than English is essential. We thus analyze how our approach copes with other languages than English and show that our approach largely scales across languages, even without retraining. Our approach is evaluated on multiple data sets originating from different sour- ces (e.g. news, web) and across multiple languages. As an inventory, we use Wikipedia. We compare our approach to other approaches and show that it achieves state-of-the-art results. Furthermore, we show that joint concept disambiguating and clustering as well as joint context selection and disambiguation leads to sig- nificant improvements ceteris paribus. Zusammenfassung Diese Dissertation beschaftigt¨ sich mit Konzeptdisambiguierung und Konzept- clustering. Unter Konzeptdisambiguierung verstehen wir die Aufgabe, Gattungs- und Eigennamen in Texten – im Folgenden Erwahnungen¨ genannt – zu ihren ent- sprechenden Konzepten in einem vorab definierten Inventar zu verlinken. Kon- zeptclustering ist die Aufgabe, Erwahnungen¨ so zu gruppieren, dass alle Erwah-¨ nungen in einem Cluster das gleiche Konzept denotieren. In dieser Dissertation untersuchen wir Konzeptdisambiguierung und -clustering von einer Diskursper- spektive und schlagen einen diskursbezogenen Ansatz fur¨ ein vereintes Disambi- guieren und Clustern von Konzepten in Markov Logik vor. Die Forschungsbei- trage¨ dieser Dissertation umfassen vier Bereiche. Vereintes Disambiguieren und Clustern von Konzepten. Vorherige Ansatze¨ modellieren Konzeptdisambiguierung und Konzeptclustering als zwei separate Aufgaben (Schutze,¨ 1998; Ji & Grishman, 2011). Wir analysieren die Bezie- hung zwischen Konzeptdisambiguierung und Konzeptclustering und argumentie- ren, dass diese zwei Aufgaben sich wechselseitig unterstutzen¨ konnen.¨ Wir schla- gen den – unseres Wissens – ersten Ansatz fur¨ vereintes Disambiguieren und Clus- tern von Konzepten vor. Diskursbezogene Konzeptdisambiguierung. Ein bestimmender Faktor fur¨ das Disambiguieren und Clustern von Konzepten ist die Kontextdefinition. Die meis- ten vorherigen Ansatze¨ verwenden die gleiche Kontextdefinition fur¨ alle Erwah-¨ nungen (Milne & Witten, 2008b; Kulkarni et al., 2009; Ratinov et al., 2011, inter alia). Wir nahern¨ uns der Frage, welcher Kontext relevant fur¨ die Disambiguie- rung von Erwahnungen¨ ist, von einer Diskursperspektive und argumentieren, dass verschiedene Erwahnungen¨ unterschiedliche Kontextdefinitionen erfordern. Wir legen dar, dass der fur¨ die Disambiguierung relevante Kontext davon abhangt,¨ wie diese Erwahnung¨ in den Diskurs eingebettet ist. Die Einbettung einer Erwahnung¨ in den Diskurs hangt¨ jedoch vom Konzept ab, das die Erwahnung¨ denotiert. Dies fuhrt¨ dazu, dass die Identifikation des denotierten Konzeptes und die Bestimmung des relevanten Kontextes voneinander abhangen.¨ In dieser Dissertation schlagen vi wir einen Ansatz mit drei Kontextdefinitionen vor und modellieren die Identifika- tion des Kontextes fur¨ eine Erwahnung¨ und deren Disambiguierung wechselseitig. Modellieren von Interdependenzen mit Markov Logik. Um die Interdepen- denzen zwischen Konzeptdisambiguierung und Konzeptclustering sowie zwischen Kontextdefinition und Disambiguierung zu modellieren, verwenden wir Markov Logik (Domingos & Lowd, 2009). Markov Logik vereinigt Pradikatenlogik¨ mit Wahrscheinlichkeiten und ermoglicht¨ es, Interdependenzen prazise¨ und pragnant¨ zu formalisieren. Wir untersuchen, wie wir Konzeptdisambiguierung und Kon- zeptclustering einerseits linguistisch motiviert, andererseits zeiteffizient imple- mentieren konnen,¨ und schlagen einen hybriden Ansatz vor, der vereinte und ag- gregative Techniken kombiniert. Multi- und crosslinguales Disambiguieren und Clustern von Konzepten. Viele Texte sind nicht in Englisch verfugbar.¨ Es ist daher zentral, dass ein Ansatz nicht nur fur¨ das Englische verwendbar ist, sondern auch andere Sprachen ab- deckt. Wir analysieren, wie unser Ansatz auf andere Sprachen anwendbar ist, und zeigen, dass unser System erfolgreich andere Sprachen verarbeiten kann, selbst ohne sprachspezifisches Abstimmen der gelernten Parameter. Wir evaluieren unseren Ansatz anhand von verschiedenen Datensatzen¨ und berucksichtigen¨ nicht nur unterschiedliche Textquellen (beispielsweise Zeitun- gen, Web), sondern auch verschiedene Sprachen. Als Inventar verwenden wir Wi- kipedia. Wir vergleichen unseren Ansatz mit verschiedenen anderen Ansatze¨ und zeigen, dass die Ergebnisse unseres Ansatzes dem aktuellen Stand der Forschung entsprechen. Zudem zeigen wir, dass unser vereinter Konzeptdisambiguierungs- und -clusteringansatz sowie unsere vereinte Kontextmodellierung und Disambi- guierung zu signifikant besseren Resultaten fuhren¨ ceteris paribus. vii Acknowledgments I am sitting in front of my thesis surrounded by a few boxes. Tomorrow, I will hand in my thesis and move out of my flat. So it is about time to add another two – I promise last – pages to my not too short thesis. First of all, I would like to thank my supervisor Prof. Dr. Michael Strube. He managed to give me enough freedom to develop my own ideas, while being sup- portive at the same time. He always took a lot of time for discussions and I could count on his honest feedback. I am very glad that Prof. Dr. Anette Frank is my co-referent. She was always encouraging and helped me to move on by asking relevant questions during my colloquium talks and providing valuable comments afterwards. While at the beginning of writing this thesis, I was glad about each new page, at some point of time, I was glad about each sentence I could cut. Fortunately, Sebastian Martschat did a fantastic job in carefully reading my thesis and helping me to streamline it, similar to Nafise Moosavi, Jie Cai, Yufang Hou, Alex Judea, Mohsen Mesgar, Daraksha Parveen and Michael Roth who all read parts of it with great care. I did not only obtain great support from all my colleagues while writing my thesis, but during the whole time as a PhD student. Dr. Vivi Nastase helped me a lot with her broad knowledge in my first years at HITS, introduced me in the project world and was always there for me as a friend. I really appreciate all the discussions I had with Jie Cai, Sebastian Martschart and Yufang Hou, which were very useful when I did not know how to solve a problem. In particular, I will not forget all the interesting conversations I had with Sebastian Martschat about evaluation metrics. In addition to all the support I received in Heidelberg, I also learned a