
Modeling Textual Entailment with Role-Semantic Information Aljoscha Burchardt Saarbr¨ucken, 2008 Dissertation zur Erlangung des akademischen Grades eines Doktors der Philosophie der Philosophischen Fakult¨aten der Universit¨at des Saarlandes “In creating a system which accepts text, answers questions, or enters into a dialogue, we have not created a theory of semantics, we have created another class of objects for which such a theory is needed.” Terry Winograd (Winograd, 1978) Die Dekanin: Prof. Dr. Susanne Kleinert Berichterstatter/innen: Prof. Dr. Manfred Pinkal Prof. Dr. Anette Frank Tag der letzten Pr¨ufungsleistung: Abstract In this thesis, we present a novel approach for modeling textual entailment using lexical- semantic information on the level of predicate-argument structure. To this end, we adopt information provided by the Berkeley FrameNet repository and embed it into an implemented end-to-end system. The two main goals of this thesis are the following: (i) to provide an analysis of the potential contribution of frame semantic information to the recognition textual entailment and (ii) to present a robust system architecture that can serve as basis for future experiments, research, and improvement. Our work was carried out in the context of the textual entailment initiative, which since 2005 has set the stage for the broad investigation of inference in natural-language processing tasks, including empirical evaluation of its coverage and reliability. In short, textual entailment describes inferential relations between (entailing) texts and (entailed) hypotheses as interpreted by typical language users. This pre-theoretic notion captures a natural range of inferences as compared to logical entailment, which has traditionally been used within theoretical approaches to natural language semantics. Various methods for modeling textual entailment have been proposed in the litera- ture, ranging from shallow techniques like lexical overlap to shallow syntactic parsing and the exploitation of WordNet relations. Recently, there has been a move towards more structured meaning representations. In particular, the level of predicate-argument structure has gained much attention, which seems to be a natural and straightforward choice. Predicate-argument structure allows annotating sentences or texts with nuclear meaning representations (“who did what to whom”), which are of obvious relevance for this task. For example, it can account for paraphrases like “Ghosts scare John” vs. “John is scared by ghosts”. In this thesis, we present an approach to textual entailment that is centered around the analysis of predicate-argument structure. It combines LFG grammatical analysis, predicate-argument structure in the FrameNet paradigm, and taxonomic information from WordNet into tripartite graph structures. By way of a declarative graph matching algorithm, the “structural and semantic” similarity of hypotheses and texts is com- puted and the result is represented as feature vectors. A supervised machine learning architecture trained on entailment corpora is used to check textual entailment for new text/hypothesis pairs. The approach is implemented in the SALSA RTE system, which successfully participated in the second and third RTE challenge. While system performance is on a par with that of comparable systems, the intu- itively expected strong positive effect of using FrameNet information has not yet been confirmed. In order to evaluate different system components and to assess the potential contribution of FrameNet information for checking textual entailment, we conducted a number of experiments. For example, with the help of a gold-standard corpus, we iii experimentally analyzed different factors that can limit the applicability of frame se- mantics in checking textual entailment, ranging from issues related to resource coverage to knowledge modeling problems. iv Ausf ¨uhrliche Zusammenfassung Die vorliegende Arbeit besch¨aftigt sich mit einem neuen Ansatz zur Modellierung na- t¨urlichsprachlicher Folgerungsbeziehungen (“Textual Entailment”) mithilfe lexikalisch- semantischer Information auf Ebene der Pr¨adikat-Argument-Struktur. Zu diesem Zwecke verwenden wir Information aus der Berkeley FrameNet-Datenbank und betten diese in ein von uns implementiertes “end-to-end” System ein. Die zwei Hauptbeitr¨age dieser Dissertation sind (i) die Untersuchung des potentiellen Beitrages von Framesemantik zur Modellierung von Textual Entailment und (ii) die Pr¨asentation einer robusten Systemar- chitektur als Basis f¨ur zuk¨unftige Untersuchungen, Experimente und Weiterentwicklun- gen. Eine Motivation dieser Arbeit die Erkenntnis, dass derzeitige, “flache” Verfahren des automatischen Informationszugriffes, wie stichwortbasierte Suche im WWW, den menschlichen Benutzer nicht optimal beim Zugriff auf die vorhandene Flut von na- t¨urlichsprachlicher Information unterst¨utzen. Wir zeigen, dass Textual Entailment ein geeignete Grundlage ist, in einer Vielzahl von Anwendungen intelligentere, semantische Verfahren zu implementieren, die typische Fehler flacher Verfahren vermeiden. Textual Entailment ist ein unl¨angst eingef¨uhrtes, pr¨a-theoretisches Konzept, das – kurz gesagt – gerade die Arten von Folgerungsbeziehungen zwischen S¨atzen (dem “en- tailenden” Text und der “entailten” Hypothese) beschreibt, die typische Sprecher f¨ur gew¨ohnlich herstellen. Es versteht sich als Erweiterung des logisches Entailmentbe- griffes, welcher ¨uber viele Jahre der vorherrschende Folgerungsbegriff in Ans¨atzen zur Formalisierung nat¨urlichsprachlicher Bedeutung war, dabei jedoch nur einen kleinen, eher uninteressanten Teil dessen, was Menschen zu folgern in der Lage sind, abbildet. Die seit 2005 j¨ahrlich stattfindenden “Recognizing Textual Entailment” (RTE)-Wettbewerbe bieten die M¨oglichkeit, formale Modelle von Textual Entailment auf Grundlage von Ko- rpusdaten zu entwickeln und zu evaluieren. In der Literatur werden verschiedenste Verfahren zur Modellierung von Textual En- tailment vorgeschlagen, die zum Beispiel von Maßen der Wort-Ubereinstimmung,¨ syn- taktischem Parsing und WordNet Relationen Gebrauch machen. Hierbei geht der Trend in letzter Zeit hin zu st¨arker strukturierter, semantischer Information und weg von irrel- evanten Oberfl¨achenmerkmalen. Die Ebene der Pr¨adikat-Argument-Struktur hat dabei eine gewisse Aufmerksamkeit erlangt, da sie eine nat¨urliche und folgerichtige Wahl zu sein scheint. Pr¨adikat-Argument-Strukturen beschr¨anken sich auf die Modellierung von Kernbedeutungen (“wer tut wem was”) und k¨onnen zum Beispiel Paraphrasen wie “Peter hat Angst vor Gespenstern” und “Gespenster ¨angstigen Peter” erkl¨aren. Verschiedene Studien haben gezeigt, dass Variationen auf dieser Ebene einen nennswerten Teil der Inferenzen in den vorhandenen RTE-Korpora ausmachen. Ein zentraler Beitrag dieser Arbeit ist das von uns entworfene und implementierte v SALSA RTE-System, welches erfolgreich am zweiten und dritten RTE-Wettbewerb teil- genommen hat. Es ist das erste System, welches als semantische Hauptinformation Beschreibungen der Pr¨adikat-Argument-Struktur von Text und Hypothese verwendet. Im System werden grammatische Informationen einer LFG-Grammatik, Pr¨adikat-Ar- gument-Struktur im framesemantischen Paradigma und taxonomische Information aus WordNet in dreigeteilte Graphstrukturen zusammengef¨uhrt. Wir folgen dabei der LFG- Projektions-Architektur, indem die Information der einzelnen Analysebenen getrennt repr¨asentiert und durch Projektionen verlinkt wird. Nach verschiedenen Schritten, bei denen die Bedeuntungsinformation weiter verdichtet und normalisiert wird, werden die Graphen von Hypothese und Text unter verschiedenen Gesichtspunten miteinander ver- glichen und das Ergebnis als Merkmalsvektoren repr¨asentiert. F¨ur den Vergleich der Analysen von Hypothese und Text haben wir ein Graph-Matching-Verfahren konzip- iert und implementiert, welches die “strukturelle und semantische” Uberlappung¨ beider auf eine deklarative Art und Weise beschreibt. Die Merkmalsvektoren dienen einer maschinellen Lernarchitektur als Eingabe, die auf RTE-Korpora trainiert wird, um Tex- tual Entailment auf unbekannten Korpora zu bestimmen. Die gesamte Systemarchitek- tur ist offen angelegt und f¨ur Erweiterungen vorbereitet. Wir illustrieren zum Beispiel, wie Hintergrundwissen aus der SUMO-Ontologie integriert werden kann und zeigen, wie Negation und Modalit¨at approximativ behandelt werden k¨onnen. Forschung im Bereich Frame-Semantik hat sich in den letzten Jahren vorwiegend mit der automatischen Annotation von Text besch¨aftigt. Ein Resultat dieser Forschung ist Shalmaneser, der semantische Parser, den wir in unserer Arbeit verwenden. In Anwendungs-Szenarien ist Frame-Semantik nur in geringem Umfang eingesetzt worden. In dieser Arbeit zeigen wir zun¨achst anhand einer Handannotation eines RTE-Korpus’, dass die Abdeckung von FrameNet auf den RTE-Korpora gut ist. 92% der relevanten Pr¨adikate werden durch vorhandene Frames beschrieben. Um mit automatischen Sys- tem bestm¨ogliche Abdeckung zu erreichen, haben wir unter Ausnutzung der sehr guten Abdeckung von WordNet das Detour System entwickelt, welches L¨ucken im FrameNet- Lexikon ausgleicht und in Kombination mit Shalmaneser im SALSA RTE-System Ein- satz findet. In einer ausf¨uhrlichen Evaluation untersuchen wir die Performanz des SALSA RTE- Systems, mit besonderem Hinblick auf die Frage, was der derzeitige und potentielle Beitrag von Frame-Semantik zum Erkennen von Textual Entailment ist. Ein Resul- tat ist, dass die automatische frame-semantische
Details
-
File Typepdf
-
Upload Time-
-
Content LanguagesEnglish
-
Upload UserAnonymous/Not logged-in
-
File Pages221 Page
-
File Size-