Modeling Textual Entailment with Role-Semantic Information

Modeling Textual Entailment with Role-Semantic Information Aljoscha Burchardt Saarbrücken, 2008 Dissertation zur Erlangung des akademischen Grades eines Doktors der Philosophie der Philosophischen Fakultäten der Universität des Saarlandes “In creating a system which accepts text, answers questions, or enters into a dialogue, we have not created a theory of semantics, we have created another class of objects for which such a theory is needed.” Terry Winograd (Winograd, 1978) Die Dekanin: Prof. Dr. Susanne Kleinert Berichterstatter/innen: Prof. Dr. Manfred Pinkal Prof. Dr. Anette Frank Tag der letzten Prüfungsleistung: Abstract In this thesis, we present a novel approach for modeling textual entailment using lexical- semantic information on the level of predicate-argument structure. To this end, we adopt information provided by the Berkeley FrameNet repository and embed it into an implemented end-to-end system. The two main goals of this thesis are the following: (i) to provide an analysis of the potential contribution of frame semantic information to the recognition textual entailment and (ii) to present a robust system architecture that can serve as basis for future experiments, research, and improvement. Our work was carried out in the context of the textual entailment initiative, which since 2005 has set the stage for the broad investigation of inference in natural-language processing tasks, including empirical evaluation of its coverage and reliability. In short, textual entailment describes inferential relations between (entailing) texts and (entailed) hypotheses as interpreted by typical language users. This pre-theoretic notion captures a natural range of inferences as compared to logical entailment, which has traditionally been used within theoretical approaches to natural language semantics. Various methods for modeling textual entailment have been proposed in the litera- ture, ranging from shallow techniques like lexical overlap to shallow syntactic parsing and the exploitation of WordNet relations. Recently, there has been a move towards more structured meaning representations. In particular, the level of predicate-argument structure has gained much attention, which seems to be a natural and straightforward choice. Predicate-argument structure allows annotating sentences or texts with nuclear meaning representations (“who did what to whom”), which are of obvious relevance for this task. For example, it can account for paraphrases like “Ghosts scare John” vs. “John is scared by ghosts”. In this thesis, we present an approach to textual entailment that is centered around the analysis of predicate-argument structure. It combines LFG grammatical analysis, predicate-argument structure in the FrameNet paradigm, and taxonomic information from WordNet into tripartite graph structures. By way of a declarative graph matching algorithm, the “structural and semantic” similarity of hypotheses and texts is com- puted and the result is represented as feature vectors. A supervised machine learning architecture trained on entailment corpora is used to check textual entailment for new text/hypothesis pairs. The approach is implemented in the SALSA RTE system, which successfully participated in the second and third RTE challenge. While system performance is on a par with that of comparable systems, the intu- itively expected strong positive effect of using FrameNet information has not yet been confirmed. In order to evaluate different system components and to assess the potential contribution of FrameNet information for checking textual entailment, we conducted a number of experiments. For example, with the help of a gold-standard corpus, we iii experimentally analyzed different factors that can limit the applicability of frame semantics in checking textual entailment, ranging from issues related to resource coverage to knowledge modeling problems. iv Ausf ührliche Zusammenfassung Die vorliegende Arbeit beschäftigt sich mit einem neuen Ansatz zur Modellierung na- türlichsprachlicher Folgerungsbeziehungen (“Textual Entailment”) mithilfe lexikalisch- semantischer Information auf Ebene der Prädikat-Argument-Struktur. Zu diesem Zwecke verwenden wir Information aus der Berkeley FrameNet-Datenbank und betten diese in ein von uns implementiertes “end-to-end” System ein. Die zwei Hauptbeiträge dieser Dissertation sind (i) die Untersuchung des potentiellen Beitrages von Framesemantik zur Modellierung von Textual Entailment und (ii) die Präsentation einer robusten Systemar- chitektur als Basis für zukünftige Untersuchungen, Experimente und Weiterentwicklun- gen. Eine Motivation dieser Arbeit die Erkenntnis, dass derzeitige, “flache” Verfahren des automatischen Informationszugriffes, wie stichwortbasierte Suche im WWW, den menschlichen Benutzer nicht optimal beim Zugriff auf die vorhandene Flut von na- türlichsprachlicher Information unterstützen. Wir zeigen, dass Textual Entailment ein geeignete Grundlage ist, in einer Vielzahl von Anwendungen intelligentere, semantische Verfahren zu implementieren, die typische Fehler flacher Verfahren vermeiden. Textual Entailment ist ein unlängst eingeführtes, prä-theoretisches Konzept, das – kurz gesagt – gerade die Arten von Folgerungsbeziehungen zwischen Sätzen (dem “en- tailenden” Text und der “entailten” Hypothese) beschreibt, die typische Sprecher für gewöhnlich herstellen. Es versteht sich als Erweiterung des logisches Entailmentbe- griffes, welcher über viele Jahre der vorherrschende Folgerungsbegriff in Ansätzen zur Formalisierung natürlichsprachlicher Bedeutung war, dabei jedoch nur einen kleinen, eher uninteressanten Teil dessen, was Menschen zu folgern in der Lage sind, abbildet. Die seit 2005 jährlich stattfindenden “Recognizing Textual Entailment” (RTE)-Wettbewerbe bieten die Möglichkeit, formale Modelle von Textual Entailment auf Grundlage von Ko- rpusdaten zu entwickeln und zu evaluieren. In der Literatur werden verschiedenste Verfahren zur Modellierung von Textual En- tailment vorgeschlagen, die zum Beispiel von Maßen der Wort-Ubereinstimmung,¨ syn- taktischem Parsing und WordNet Relationen Gebrauch machen. Hierbei geht der Trend in letzter Zeit hin zu stärker strukturierter, semantischer Information und weg von irrel- evanten Oberflächenmerkmalen. Die Ebene der Prädikat-Argument-Struktur hat dabei eine gewisse Aufmerksamkeit erlangt, da sie eine natürliche und folgerichtige Wahl zu sein scheint. Prädikat-Argument-Strukturen beschränken sich auf die Modellierung von Kernbedeutungen (“wer tut wem was”) und können zum Beispiel Paraphrasen wie “Peter hat Angst vor Gespenstern” und “Gespenster ängstigen Peter” erklären. Verschiedene Studien haben gezeigt, dass Variationen auf dieser Ebene einen nennswerten Teil der Inferenzen in den vorhandenen RTE-Korpora ausmachen. Ein zentraler Beitrag dieser Arbeit ist das von uns entworfene und implementierte v SALSA RTE-System, welches erfolgreich am zweiten und dritten RTE-Wettbewerb teil- genommen hat. Es ist das erste System, welches als semantische Hauptinformation Beschreibungen der Prädikat-Argument-Struktur von Text und Hypothese verwendet. Im System werden grammatische Informationen einer LFG-Grammatik, Prädikat-Ar- gument-Struktur im framesemantischen Paradigma und taxonomische Information aus WordNet in dreigeteilte Graphstrukturen zusammengeführt. Wir folgen dabei der LFG- Projektions-Architektur, indem die Information der einzelnen Analysebenen getrennt repräsentiert und durch Projektionen verlinkt wird. Nach verschiedenen Schritten, bei denen die Bedeuntungsinformation weiter verdichtet und normalisiert wird, werden die Graphen von Hypothese und Text unter verschiedenen Gesichtspunten miteinander ver- glichen und das Ergebnis als Merkmalsvektoren repräsentiert. Für den Vergleich der Analysen von Hypothese und Text haben wir ein Graph-Matching-Verfahren konzip- iert und implementiert, welches die “strukturelle und semantische” Uberlappung¨ beider auf eine deklarative Art und Weise beschreibt. Die Merkmalsvektoren dienen einer maschinellen Lernarchitektur als Eingabe, die auf RTE-Korpora trainiert wird, um Tex- tual Entailment auf unbekannten Korpora zu bestimmen. Die gesamte Systemarchitek- tur ist offen angelegt und für Erweiterungen vorbereitet. Wir illustrieren zum Beispiel, wie Hintergrundwissen aus der SUMO-Ontologie integriert werden kann und zeigen, wie Negation und Modalität approximativ behandelt werden können. Forschung im Bereich Frame-Semantik hat sich in den letzten Jahren vorwiegend mit der automatischen Annotation von Text beschäftigt. Ein Resultat dieser Forschung ist Shalmaneser, der semantische Parser, den wir in unserer Arbeit verwenden. In Anwendungs-Szenarien ist Frame-Semantik nur in geringem Umfang eingesetzt worden. In dieser Arbeit zeigen wir zunächst anhand einer Handannotation eines RTE-Korpus’, dass die Abdeckung von FrameNet auf den RTE-Korpora gut ist. 92% der relevanten Prädikate werden durch vorhandene Frames beschrieben. Um mit automatischen Sys- tem bestmögliche Abdeckung zu erreichen, haben wir unter Ausnutzung der sehr guten Abdeckung von WordNet das Detour System entwickelt, welches Lücken im FrameNet- Lexikon ausgleicht und in Kombination mit Shalmaneser im SALSA RTE-System Ein- satz findet. In einer ausführlichen Evaluation untersuchen wir die Performanz des SALSA RTE- Systems, mit besonderem Hinblick auf die Frage, was der derzeitige und potentielle Beitrag von Frame-Semantik zum Erkennen von Textual Entailment ist. Ein Resul- tat ist, dass die automatische frame-semantische

Load more