Definitionen in Wörterbuch Und Text Definitionen in W¨orterbuch und Text: Zur manuellen Annotation, korpusgestutzten¨ Analyse und automatischen Extraktion definitorischer Textsegmente im Kontext der computergestutzten¨ Lexikographie Inauguraldissertation zur Erlangung des Grades eines Doktors der Philosophie an der kulturwissenschaftlichen Fakult¨at der Technischen Universit¨at Dortmund vorgelegt im Mai 2010 von Irene Magdalena Cramer geboren in Frankfurt am Main Stand Februar 2011 Inhaltsverzeichnis 1 Einleitung3 2 Zum Wort Definition, seiner Bedeutung und Verwendung9 2.1 Zum Einstieg in die Definitionstheorie................ 12 2.2 Ursprunge¨ der Definition oder: Wozu?................ 14 2.2.1 Zur Etymologie........................ 14 2.2.2 Platon............................. 14 2.2.3 Aristoteles........................... 16 2.3 Definitionen als Werkzeug des Erkenntnisgewinns.......... 17 2.4 Mehr zum Wozu: Blaise Pascal und John Locke........... 19 2.4.1 Blaise Pascal.......................... 20 2.4.2 John Locke.......................... 21 2.4.3 Zusammenfassung....................... 22 2.5 Vom Wozu und Wann: Ludwig Wittgenstein, Definitionen und Spracherwerb........ 23 2.5.1 Ludwig Wittgenstein und die verweisende Definition..... 23 2.5.2 Definitionen und Spracherwerb................ 25 2.5.3 Zusammenfassung....................... 27 2.6 Wozu und Wann in Lexikographie, Terminographie, den Wissenschaften und im Alltag. 29 2.6.1 Die Funktion der terminologischen Definition........ 29 2.6.2 Die Funktion der wissenschaftlichen Definition........ 31 2.6.3 Die Funktion der lexikographischen Definition........ 36 2.6.4 Die Funktion der Alltagsdefinition.............. 44 i ii 2.6.5 Zusammenfassung....................... 48 2.7 Die Pragmatik des Definierens.................... 49 2.8 Was definieren Definitionen?..................... 55 2.9 Bestandteile.............................. 57 2.9.1 Der Definitor: grundlegende Annahmen........... 57 2.9.2 Definiendum und Definiens: grundlegende Annahmen.... 63 2.10 Definitionstypen von Isidor de Sevilla bis heute............ 69 2.10.1 Voruberlegungen¨ ........................ 70 2.10.2 Klassifikationsvorstufen.................... 75 2.10.3 Kurz vorgestellt: bekannte Definitionstypen......... 78 2.11 Wie misst man die Qualit¨at einer Definition?............................... 83 2.12 Verwandte der Definition....................... 87 2.12.1 Erkl¨arung........................... 88 2.12.2 Enzyklop¨adischer Eintrag................... 88 2.12.3 Vollformen von Abkurzung¨ und Akronym sowie Ubersetzung¨ als Definitionsersatz........... 90 2.12.4 Lexikographisches Beispiel.................. 90 2.13 Zur automatischen Extraktion von Definitionen........... 94 2.13.1 Im Question-Answering.................... 95 2.13.2 Fur¨ Glossare und lexikalisch-semantische Relationen..... 96 2.13.3 Zusammenfassung....................... 99 2.14 Zusammenfassender Uberblick¨ zur Definition............. 101 3 Zur Annotation, korpusgestutzen¨ Analyse und Extraktion von Definitionen 105 3.1 Das Spektrum der Anwendungsszenarien............... 105 3.2 Methodenspektrum und experimenteller Aufbau........... 112 3.2.1 Methodenspektrum...................... 113 3.2.2 Experimenteller Aufbau.................... 132 3.3 Annotationsexperimente 1 und 2................... 134 3.3.1 Arbeitsaufwand und Zeitbedarf der manuellen Annotation.. 137 iii 3.3.2 Auswahl eines geeigneten Korpus............... 141 3.4 Rezipienten- und Produzentenstudien................. 147 3.4.1 Rezipientensicht........................ 148 3.4.2 Produzentensicht....................... 153 3.5 Annotationsexperimente 3 und 4................... 163 3.5.1 Annotationsrichtlinien..................... 164 3.5.2 Weitere Beobachtungen.................... 174 3.6 Inter-Annotator Agreement...................... 177 3.7 Modelle zur Produktion und Annotation von Definitionen...... 180 3.8 Statistische Korpusanalyse und Extraktionsexperimente....... 183 3.8.1 Position und Kontext..................... 185 3.8.2 Booster, Downtoner, Pronomen und Satzzeichen...... 188 3.8.3 Lexikalisch-semantische Relationen.............. 190 3.8.4 Formulierungsmuster..................... 192 4 Zusammenfassung und Ausblick 199 Literaturverzeichnis 205 Anhang 221 A Anmerkungen zur vorliegenden Fassung der Dissertation...... 221 B Annotationsexperimente 1 und 2................... 226 C Annotationsexperimente 3 und 4................... 236 D Produzenten und Rezipientenstudien................. 267 E Formulierungsmuster, Booster, Hecken etc.............. 278 Zusammenfassung Obwohl gute Suchmaschinen heute bereits den Zugang zu Dokumenten erleichtern, bleibt das Bedurfnis¨ nach intelligenten, zielgerichteten Suchfunktionen innerhalb von Dokumenten. Die große Zahl der Dokumente und vor allem die rasche Zunahme und geringe Halbwertszeit der Daten verbietet die rein manuelle Auszeichnung. Alterna- tiv entwickeln Computerlinguisten Methoden, die auf der Grundlage eines kleinen Ausschnitts manuell aufbereiteter Daten Verfahren zur automatischen Extraktion implementieren. Gegenstand der vorliegenden Dissertation ist es, den Begriff der Definition im Sinn von Annotationsrichtlinien zu operationalisieren sowie Ressourcen und Methoden zur automatischen Extraktion definitorischer Textsegmenten zu untersuchen. Auf der Basis eines mit diesen Annotationsrichtlinien manuell aufbereiteten Korpus wurden Merkmale zum Aufspuren¨ und Auszeichnen von definitorischen Textseg- menten abgeleitet. Diese Merkmale wurden in einem System implementiert, das zur automatischen Extraktion von Definitionen eingesetzt werden und z. B. als Hilfs- mittel fur¨ die lexikographische Arbeit dienen kann. Im Zusammenhang mit den verschiedenen Extraktionsexperimenten wurde zudem eine Sammlung von mehr als 3.000 Textsegmenten zusammengetragen, die entspre- chend der in den Annotationsrichtlinien erarbeiteten Operationalisierung als Defini- tionen interpretiert und als eigenst¨andiges Korpus verwendet werden k¨onnen. Die verschiedenen Experimente des Dissertationsprojekts zeigen allerdings, dass es sich bei Definitionen h¨aufig um syntaktisch, semantisch und pragmatisch ¨außerst komplexe Textsegmente handelt, die nicht nur schwer zu extrahieren, sondern vor allem schwer zu annotieren sind. Ob also ein Textsegment von einem bestimmten Rezipienten als Definition interpretiert und genutzt wird, h¨angt teilweise stark von individuellen Faktoren ab. Wenn ich ihr in der Mensa, im Caf´eoder am Telefon meine Gedanken uber¨ Definitionen erz¨ahlt habe, sind mir die besten Ideen gekommen. • meiner Mutter, Dorothea Cramer, meinem Mann, Stefan Schacht, und meiner Schwester, Dr. Sibylle Sch¨ops, weil sie mich getr¨ostet, beruhigt und gest¨arkt haben. 2 Kapitel 1 Einleitung Definition: Das Einfrieden der Wildnis einer Idee mit einem Wall von Worten. Samuel Butler (1835-1902) In verschiedenen Bereichen der Linguistik und Sprachtechnologie spielen definitori- sche Textsegmente eine zentrale Rolle. Denn Definitionen benennen, in aller Regel explizit, metasprachliches Wissen { Wissen also uber¨ die Bedeutung oder Verwen- dung sprachlicher Einheiten. In ganz unterschiedlichen Anwendungsszenarien k¨onnen diese interessant sein: Bekannte Beispiele sind die korpus- bzw. computergestutzte¨ Konstruktion von gedruckten und maschinenlesbaren W¨orterbuchern,¨ aber auch au- tomatisierte Autorensysteme fur¨ E-Learning-Anwendungen oder fur¨ die technische Kommunikation. Ziel der vorliegenden Arbeit ist es, Voraussetzungen und Metho- den fur¨ die automatische Extraktion definitorischer Textsegmente aus Korpora zu untersuchen. Dabei setzen die hier beschriebenen Uberlegungen¨ und Experimente den Akzent auf ein bestimmtes Spektrum von Anwendungsszenarien. Diese sehen ein online verfugbares¨ Wortinformationssystem fur¨ Laien vor (z. B. DWDS1), das sich einerseits aus einem W¨orterbuch und andererseits aus einer Sammlung von Tex- ten, einem Korpus, zusammensetzt. Die Anwendungsszenarien dienen in erster Linie dazu, die Vorgehensweise im empirischen Teil dieser Arbeit zu fokussieren; Details dazu sind Abschnitt 3.1 zu entnehmen. Wie die Forschung der letzten zwei Jahrzehnte gezeigt hat, schlummern in den von Linguisten und Sprachtechnologen im Hinblick auf ganz unterschiedliche Fragen zusammengestellten Korpora viele, bisher ungenutzte und m¨oglicherweise wertvolle Informationen (vgl. u. a. [Leech (2005), 20]). Eine dieser noch brachliegenden, fur¨ einen potenziellen Nutzer des oben angedeuteten Systems interessanten Informatio- nen stellt das metasprachliche Wissen uber¨ W¨orter und Wortgruppen dar, wie es in Form von Definitionen in Texten enthalten sein kann. Der Fokus dieser Arbeit liegt dementsprechend auf allgemeinsprachlichen, fur¨ Laien verst¨andlichen Definitionen (so genannten Alltagsdefinitionen, vgl. auch Abschnitt 2.6.4) und unterscheidet sich (Stand 2010-03-22). 3 4 in dieser Hinsicht von den Arbeiten zur Extraktion definitorischer Textsegmente in Fachtextkorpora. Zwar w¨are die vollst¨andig manuelle Auszeichnung relevanter
