Hy-NLI: a Hybrid System for State-Of-The-Art Natural Language Inference
Total Page:16
File Type:pdf, Size:1020Kb
Hy-NLI: a Hybrid system for state-of-the-art Natural Language Inference Doctoral thesis submitted for the degree of Doctor of Philosophy (Dr.phil.) presented by Aikaterini-Lida Kalouli at the Faculty of Humanities Department of Linguistics Konstanz, 2021 Konstanzer Online-Publikations-System (KOPS) URL: http://nbn-resolving.de/urn:nbn:de:bsz:352-2-1cwr6rmbvoqxv2 Date of the oral examination: March 18th, 2021 First referee: Prof. Dr. Miriam Butt Second referee: Prof. Dr. Maribel Romero Third referee: Prof. Dr. Lauri Karttunen The human spirit must prevail over technology. Albert Einstein Abstract A main characteristic of human language and understanding is our ability to reason about things, i.e., to infer conclusions from given facts. Within the field of Natural Language Processing and Natural Language Understanding, the task of inferring such conclusions has come to be known as Natural Language Inference (NLI) and is currently a popular field of research. NLI is most often formulated as the task of determining where a sentence entails (i.e., implies) or contradicts (i.e., implies the opposite) or is neutral (i.e., does not have any relation) with respect to another sentence (MacCartney and Manning, 2007). Although such a task sounds trivial for humans, it is less so for machines: the processes behind human inference require even more than understanding linguistic input; they presuppose our understanding about the world and everyday life and require the complex combination and interaction of this information. In this thesis, I implement a hybrid NLI system, Hy-NLI, which is able to deter- mine the inference relation between a pair of sentences. Hy-NLI consists of a symbolic and a deep-learning component, combining the best of both worlds: it exploits the strengths that each approach exhibits and mitigates their weaknesses. The imple- mented system relies on the finding that each of the two very different approaches is particularly suitable for a specific kind of phenomena. Deep-learning methods are good in dealing with graded and more fluid aspects of meaning, while symbolic approaches can efficiently deal with contextual phenomena of natural language, e.g., modals, negations, implicatives, etc. Hy-NLI learns to distinguish between the cases and respectively employ the component that is known to work best for each of them. Thus, this thesis contributes to the state-of-the-art in NLI. It also contributes to the general debate whether symbolic or deep-learning approaches are most efficient by showing that systems can benefit from both of them in different ways. Hence, the thesis at hand motivates research that does not choose one of the two, but marries them up into a successful combination. To reach the ultimate goal of closing the gap between these two approaches, this thesis makes four major contributions. First, it sheds light on the available NLI datasets, their issues and the insights they can offer us about the NLI task in gen- eral. Precisely, I investigate one of the well-known mainstream NLI datasets, SICK (Marelli et al., 2014b), and observe how certain corpus construction practices have vii viii influenced the quality of the data itself and of its annotations. I also show how the quality of annotations is not only affected by the corpus construction process but also from inherent human disagreements and fine-grained nuances of human in- ference. The issues found in the datasets are addressed in a variety of ways, from manually correcting subsets of the corpus to performing experiments that quantify and identify these aspects of the NLI task. The second major contribution of the thesis at hand is the development of the Graphical Knowledge Representation (GKR, Kalouli and Crouch (2018)), a semantic representation suitable for semantic tasks such as NLI, and the implementation of an efficient GKR parser. The representation stands out from other similar representations for its separation of the sentence infor- mation in different layers/graphs. Particularly, there is a strict separation between the conceptual, predicate-argument structure and the contextual, boolean structure. This modularity and projection architecture gives rise to a concept-based, intensional Description Logic (Baader et al., 2003) semantics. The efficiency and suitability of GKR for NLI is revealed through the implementation of the symbolic inference engine GKR4NLI, a further major goal of this thesis. GKR4NLI is developed as an infer- ence mechanism relying on Natural Logic (Van Benthem, 1986, Sánchez-Valencia, 1991) and on the semantics imposed by GKR. Its performance on different datasets confirms previous findings that symbolic engines are good in dealing with semanti- cally complex phenomena, but struggle with more robust aspects of meaning. Thus, these results motivate the need for a hybrid system, where each aspect of mean- ing is treated by the most suitable component. This need is addressed with the implementation of Hy-NLI, the final major goal of this thesis. The hybrid system uses GKR4NLI as its symbolic component and the state-of-the-art language repre- sentation model BERT (Devlin et al., 2019) as its deep-learning component. Their successful combination leads Hy-NLI to outperform other state-of-the-art methods across datasets of different nature and complexity. With such performance across the board, Hy-NLI confirms the need for hybrid systems and paves the way for more work in this research direction. Zusammenfassung Ein zentrales Merkmal der menschlichen Sprache und Kommunikation ist das logische Denkvermögen, d.h., die Fähigkeit auf Basis von gegebenen Fakten Schlussfolgerun- gen zu ziehen. Diese Fähigkeit wurde auf dem Gebiet der maschinellen Sprachverar- beitung und des maschinellen Sprachverständnis unter dem Namen Natural Lan- guage Inference (NLI – maschinelle Sprachinferenz) bekannt und ist derzeit ein beliebtes Forschungsgebiet. Das Ziel von NLI ist die Bestimmung der Beziehung zweier Sätze: ein Satz kann den anderen implizieren (entailment), er kann dem anderen widersprechen (contradiction) oder es kann keine Beziehung zwischen den beiden Sätzen geben (neutrality) (MacCartney and Manning, 2007). Solch eine Auf- gabestellung klingt zunächst trivial für den Menschen, aber nicht jedoch für Maschi- nen. Zusätzlich zum Verständnis linguistischer Strukturen, erfordern die Prozesse, die sich hinter menschlicher Inferenz verbergen, ein Verständnis unserer Welt und des alltäglichen Lebens, ebenso wie die komplexe Kombination und Interaktion dieser Informationen. In der vorliegenden Dissertation wird ein hybrides NLI System – im Folgen- den Hy-NLI genannt – implementiert, welches die Inferenzbeziehung zwischen zwei Sätzen bestimmen kann. Hy-NLI besteht aus einer symbolischen und einer Deep- Learning Komponente, sodass die Vorteile beider Ansätze vereint und gegebene Schwäche ausgeglichen werden können. Das hybribe System basiert auf der Erken- ntnis, dass jeweils einer der beiden Ansätze besonders gut geeignet ist bestimmte Fälle von Sprachphänomenen zu verarbeiten. So sind die Deep-Learning Metho- den hervorragend dafür geeignet abgestufte und vage Aspekte der Bedeutung zu er- fassen. Auf der anderen Seite können symbolische Ansätze kontextuelle Phänomene der Sprache, wie z.B. Modalverben, Negation und implikative Verben, zuverlässig behandeln. Das hybride System lernt zwischen den verschiedenen Fällen zu unter- scheiden und die Komponente zu nutzen, die für den vorliegenden Fall am besten geeignet ist. Dadurch leistet Hy-NLI einen relevanten Beitrag zum aktuellen Stand der Forschung. Außerdem trägt diese Dissertation zur Debatte bei ob symbolische oder Deep-Learning Systeme effektiver sind, indem sie zeigt, dass beide Ansätze eine Daseinsberechtigung haben. Systeme können von beiden Ansätzen auf verschiedene Arten profitieren. Auf diese Weise regt die vorliegende Dissertation die Forschung an, nicht eine der beiden Ansätze auszuwählen, sondern diese in einer erfolgver- ix x sprechenden Kombination zusammenzufügen. Aus diesem Grund wurde Hy-NLI mit dem Ziel entwickelt, die Kluft zwischen den beiden Ansätzen zu schließen. Um dies zu erreichen, leistet diese Arbeit vier Beiträge. Als Erstes werden die verfügbaren NLI Datensätze, deren Probleme und die Erkenntnisse, die diese über NLI im Allgemeinen geben können, erläutert. Ins- besondere wird einer der bekanntesten und weit verbreiteten Datensätze, das SICK (Marelli et al., 2014b) Korpus, untersucht und es wird aufgezeigt, wie einige der Tech- niken zur Korpuserstellung die Qualität der Daten und deren Annotation beeinflusst haben. Außerdem wird aufgezeigt wie die Annotationsqualität nicht nur vom Kor- puserstellungsprozess beeinflusst wird, sondern auch von inhärenten menschlichen Diskrepanzen und feinen Nuancen der menschlichen Inferenz. Die in den Daten- sätzen gefundenen Probleme werden auf unterschiedliche Art und Weise adressiert, z.B. durch die manuelle Korrektur eines Teiles des Korpus oder durch Experimente, die diese Aspekte von NLI identifizieren und quantifizieren. Der zweite Beitrag dieser Dissertation ist die Entwicklung einer semantischen Repräsentation – im Folgenden GKR (Graphical Knowledge Representation) genannt – die für semantische Anwen- dungen, wie z.B. NLI, geeignet ist, sowie die Implementierung eines effizienten GKR Parsers. Die entwickelte Repräsentation unterscheidet sich von ähnlichen Repräsen- tationen darin, dass die Satzinformation in verschiedenen Ebenen/Graphen getrennt wird. Es gibt eine strikte Trennung zwischen der konzeptuellen, Predikat-Argument Struktur und der kontextuellen,