Definitionen in Wörterbuch Und Text

Definitionen in Wörterbuch und Text: Zur manuellen Annotation, korpusgestutzten¨ Analyse und automatischen Extraktion definitorischer Textsegmente im Kontext der computergestutzten¨ Lexikographie Inauguraldissertation zur Erlangung des Grades eines Doktors der Philosophie an der kulturwissenschaftlichen Fakultät der Technischen Universität Dortmund vorgelegt im Mai 2010 von Irene Magdalena Cramer geboren in Frankfurt am Main Stand Februar 2011 Inhaltsverzeichnis 1 Einleitung3 2 Zum Wort Definition, seiner Bedeutung und Verwendung9 2.1 Zum Einstieg in die Definitionstheorie................ 12 2.2 Ursprunge¨ der Definition oder: Wozu?................ 14 2.2.1 Zur Etymologie........................ 14 2.2.2 Platon............................. 14 2.2.3 Aristoteles........................... 16 2.3 Definitionen als Werkzeug des Erkenntnisgewinns.......... 17 2.4 Mehr zum Wozu: Blaise Pascal und John Locke........... 19 2.4.1 Blaise Pascal.......................... 20 2.4.2 John Locke.......................... 21 2.4.3 Zusammenfassung....................... 22 2.5 Vom Wozu und Wann: Ludwig Wittgenstein, Definitionen und Spracherwerb........ 23 2.5.1 Ludwig Wittgenstein und die verweisende Definition..... 23 2.5.2 Definitionen und Spracherwerb................ 25 2.5.3 Zusammenfassung....................... 27 2.6 Wozu und Wann in Lexikographie, Terminographie, den Wissenschaften und im Alltag. 29 2.6.1 Die Funktion der terminologischen Definition........ 29 2.6.2 Die Funktion der wissenschaftlichen Definition........ 31 2.6.3 Die Funktion der lexikographischen Definition........ 36 2.6.4 Die Funktion der Alltagsdefinition.............. 44 i ii 2.6.5 Zusammenfassung....................... 48 2.7 Die Pragmatik des Definierens.................... 49 2.8 Was definieren Definitionen?..................... 55 2.9 Bestandteile.............................. 57 2.9.1 Der Definitor: grundlegende Annahmen........... 57 2.9.2 Definiendum und Definiens: grundlegende Annahmen.... 63 2.10 Definitionstypen von Isidor de Sevilla bis heute............ 69 2.10.1 Voruberlegungen¨ ........................ 70 2.10.2 Klassifikationsvorstufen.................... 75 2.10.3 Kurz vorgestellt: bekannte Definitionstypen......... 78 2.11 Wie misst man die Qualität einer Definition?............................... 83 2.12 Verwandte der Definition....................... 87 2.12.1 Erklärung........................... 88 2.12.2 Enzyklopädischer Eintrag................... 88 2.12.3 Vollformen von Abkurzung¨ und Akronym sowie Ubersetzung¨ als Definitionsersatz........... 90 2.12.4 Lexikographisches Beispiel.................. 90 2.13 Zur automatischen Extraktion von Definitionen........... 94 2.13.1 Im Question-Answering.................... 95 2.13.2 Fur¨ Glossare und lexikalisch-semantische Relationen..... 96 2.13.3 Zusammenfassung....................... 99 2.14 Zusammenfassender Uberblick¨ zur Definition............. 101 3 Zur Annotation, korpusgestutzen¨ Analyse und Extraktion von Definitionen 105 3.1 Das Spektrum der Anwendungsszenarien............... 105 3.2 Methodenspektrum und experimenteller Aufbau........... 112 3.2.1 Methodenspektrum...................... 113 3.2.2 Experimenteller Aufbau.................... 132 3.3 Annotationsexperimente 1 und 2................... 134 3.3.1 Arbeitsaufwand und Zeitbedarf der manuellen Annotation.. 137 iii 3.3.2 Auswahl eines geeigneten Korpus............... 141 3.4 Rezipienten- und Produzentenstudien................. 147 3.4.1 Rezipientensicht........................ 148 3.4.2 Produzentensicht....................... 153 3.5 Annotationsexperimente 3 und 4................... 163 3.5.1 Annotationsrichtlinien..................... 164 3.5.2 Weitere Beobachtungen.................... 174 3.6 Inter-Annotator Agreement...................... 177 3.7 Modelle zur Produktion und Annotation von Definitionen...... 180 3.8 Statistische Korpusanalyse und Extraktionsexperimente....... 183 3.8.1 Position und Kontext..................... 185 3.8.2 Booster, Downtoner, Pronomen und Satzzeichen...... 188 3.8.3 Lexikalisch-semantische Relationen.............. 190 3.8.4 Formulierungsmuster..................... 192 4 Zusammenfassung und Ausblick 199 Literaturverzeichnis 205 Anhang 221 A Anmerkungen zur vorliegenden Fassung der Dissertation...... 221 B Annotationsexperimente 1 und 2................... 226 C Annotationsexperimente 3 und 4................... 236 D Produzenten und Rezipientenstudien................. 267 E Formulierungsmuster, Booster, Hecken etc.............. 278 Zusammenfassung Obwohl gute Suchmaschinen heute bereits den Zugang zu Dokumenten erleichtern, bleibt das Bedurfnis¨ nach intelligenten, zielgerichteten Suchfunktionen innerhalb von Dokumenten. Die große Zahl der Dokumente und vor allem die rasche Zunahme und geringe Halbwertszeit der Daten verbietet die rein manuelle Auszeichnung. Alterna- tiv entwickeln Computerlinguisten Methoden, die auf der Grundlage eines kleinen Ausschnitts manuell aufbereiteter Daten Verfahren zur automatischen Extraktion implementieren. Gegenstand der vorliegenden Dissertation ist es, den Begriff der Definition im Sinn von Annotationsrichtlinien zu operationalisieren sowie Ressourcen und Methoden zur automatischen Extraktion definitorischer Textsegmenten zu untersuchen. Auf der Basis eines mit diesen Annotationsrichtlinien manuell aufbereiteten Korpus wurden Merkmale zum Aufspuren¨ und Auszeichnen von definitorischen Textseg- menten abgeleitet. Diese Merkmale wurden in einem System implementiert, das zur automatischen Extraktion von Definitionen eingesetzt werden und z. B. als Hilfs- mittel fur¨ die lexikographische Arbeit dienen kann. Im Zusammenhang mit den verschiedenen Extraktionsexperimenten wurde zudem eine Sammlung von mehr als 3.000 Textsegmenten zusammengetragen, die entspre- chend der in den Annotationsrichtlinien erarbeiteten Operationalisierung als Defini- tionen interpretiert und als eigenständiges Korpus verwendet werden können. Die verschiedenen Experimente des Dissertationsprojekts zeigen allerdings, dass es sich bei Definitionen häufig um syntaktisch, semantisch und pragmatisch äußerst komplexe Textsegmente handelt, die nicht nur schwer zu extrahieren, sondern vor allem schwer zu annotieren sind. Ob also ein Textsegment von einem bestimmten Rezipienten als Definition interpretiert und genutzt wird, hängt teilweise stark von individuellen Faktoren ab. Danksagung Ich danke den vielen Menschen, die mich während meiner Arbeit an dieser Disserta- tion auf ihre jeweils spezielle Weise unterstutzt¨ haben, vor allem meinen Gutachtern und Prufern¨ fur¨ ihre interessanten Anmerkungen und hilfreichen Hinweise. Ganz besonders danke ich • meinem Vater, Dr. Jurgen¨ Cramer, weil er mein treuster Leser ist, der { obwohl die Chemie sein Fach ist und nicht die Computerlinguistik { alles genau verstehen will, und weil er sich aufopferungsvoll mit mir in den Kampf gegen LaTex geworfen hat. • meiner Freundin, Alla Krasnokutskaya, weil sie eine wundervolle Zuhörerin ist. Wenn ich ihr in der Mensa, im Caféoder am Telefon meine Gedanken uber¨ Definitionen erzählt habe, sind mir die besten Ideen gekommen. • meiner Mutter, Dorothea Cramer, meinem Mann, Stefan Schacht, und meiner Schwester, Dr. Sibylle Schöps, weil sie mich getröstet, beruhigt und gestärkt haben. 2 Kapitel 1 Einleitung Definition: Das Einfrieden der Wildnis einer Idee mit einem Wall von Worten. Samuel Butler (1835-1902) In verschiedenen Bereichen der Linguistik und Sprachtechnologie spielen definitori- sche Textsegmente eine zentrale Rolle. Denn Definitionen benennen, in aller Regel explizit, metasprachliches Wissen { Wissen also uber¨ die Bedeutung oder Verwen- dung sprachlicher Einheiten. In ganz unterschiedlichen Anwendungsszenarien können diese interessant sein: Bekannte Beispiele sind die korpus- bzw. computergestutzte¨ Konstruktion von gedruckten und maschinenlesbaren Wörterbuchern,¨ aber auch au- tomatisierte Autorensysteme fur¨ E-Learning-Anwendungen oder fur¨ die technische Kommunikation. Ziel der vorliegenden Arbeit ist es, Voraussetzungen und Metho- den fur¨ die automatische Extraktion definitorischer Textsegmente aus Korpora zu untersuchen. Dabei setzen die hier beschriebenen Uberlegungen¨ und Experimente den Akzent auf ein bestimmtes Spektrum von Anwendungsszenarien. Diese sehen ein online verfugbares¨ Wortinformationssystem fur¨ Laien vor (z. B. DWDS1), das sich einerseits aus einem Wörterbuch und andererseits aus einer Sammlung von Tex- ten, einem Korpus, zusammensetzt. Die Anwendungsszenarien dienen in erster Linie dazu, die Vorgehensweise im empirischen Teil dieser Arbeit zu fokussieren; Details dazu sind Abschnitt 3.1 zu entnehmen. Wie die Forschung der letzten zwei Jahrzehnte gezeigt hat, schlummern in den von Linguisten und Sprachtechnologen im Hinblick auf ganz unterschiedliche Fragen zusammengestellten Korpora viele, bisher ungenutzte und möglicherweise wertvolle Informationen (vgl. u. a. [Leech (2005), 20]). Eine dieser noch brachliegenden, fur¨ einen potenziellen Nutzer des oben angedeuteten Systems interessanten Informatio- nen stellt das metasprachliche Wissen uber¨ Wörter und Wortgruppen dar, wie es in Form von Definitionen in Texten enthalten sein kann. Der Fokus dieser Arbeit liegt dementsprechend auf allgemeinsprachlichen, fur¨ Laien verständlichen Definitionen (so genannten Alltagsdefinitionen, vgl. auch Abschnitt 2.6.4) und unterscheidet sich 1www.dwds.de (Stand 2010-03-22). 3 4 in dieser Hinsicht von den Arbeiten zur Extraktion definitorischer Textsegmente in Fachtextkorpora. Zwar wäre die vollständig manuelle Auszeichnung relevanter

Definitionen in Wörterbuch Und Text

ALEMANA GERMAN, ALEMÁN, ALLEMAND Language

Indo-European, Germanic, West, High German, German, Middle German, East Middle German

The High German of Russian Mennonites in Ontario by Nikolai

National Minorities, Minority and Regional Languages in Germany

New World Mennonite Low German an Investigating of Changes in Progress

Anabaptist to Zwieback: Textual Access and Exclusion In

The Cambridge Handbook of Germanic Linguistics Edited by Michael T

Sound Change

Linguistic Change in Mennonite Sociolect Masterarbeit

Low German-Speaking Mennonite Identity, Language, and Literacy Constructions

Via Latgalica Humanitāro Zinātņu Žurnāls Journal of Humanities

A Case of Runyambo in Karagwe District