Inhaltsverzeichnis
Total Page:16
File Type:pdf, Size:1020Kb
vii Inhaltsverzeichnis Gerhard Heyer & Christian Wolff Einleitung........................................................................................................................ 1 I Electronic Publishing, Multimedia und Informationsdienstleistungen Rainer Kuhlen Organisationsformen und Mehrwertleistungen elektronischer Märkte.......................... 5 Gerhard Heyer & Christian Wolff Zur Relevanz linguistischer Pragmatik bei der Entwicklung von Multimediaanwendungen.............................................................................................. 15 Tibor Kiss RECALL – Demonstrating a System Architecture for Repairing Errors in Computer Aided Language Learning...................................................................................23 Angelika Storrer Vom Grammatikbuch zur Hypertext-Grammatik......................................................... 33 Friedrich Wenzel, Thomas Bahn, Luise Regier & Lydia Winschel Visualisierung russischer fachsprachlicher Grammatik in einem interaktiven multimedialen System................................................................................................... 51 II Computerlexikographie & Terminologiesysteme Gregor Thurmair Ein multifunktionales Lexikon ..................................................................................... 71 Lothar Lemnitzer Komplexe lexikalische Einheiten in Text und Lexikon ............................................... 85 Uwe Quasthoff Projekt Der Deutsche Wortschatz................................................................................. 93 Jürgen Oesterle Semi-automatische Extraktion lexikalischer Information aus Korpora (SELIK) ...... 101 Jan Lass Terminologiedatenbank T42....................................................................................... 113 Katja Krüger Mehrsprachige computergestützte Texterschließung für Übersetzer und Terminologen.............................................................................................................. 121 viii III Morphologie, Syntax & Parsing Markus Schulze Morphologie, Syntax und Semantik im Rahmen der linksassoziativen Grammatik...133 Petra Maier Defaultzuweisung morpho-syntaktischer Kategorien .................................................151 Anke Kölzer Lexana – Ein System zur Lexikon- und Grammatikanalyse für kategoriale Unifikationsgrammatiken ............................................................................................163 Sebastian Göser High Speed Parsing of Extraction Grammars: The ExGram Approach......................175 Andreas Mertens Robustes Parsing mit Wortagenten .............................................................................177 Jean-Yves Lalande VisualGBX: Ein objektorientiertes CAD-System zur Repräsentation und Evaluation linguistischer Theorien..............................................................................189 IV Information Retrieval & statistische Ansätze in der Linguistik Bernhard Schröder Pro-SGML: Ein Prolog-basiertes System zum Textretrieval ......................................205 Christa Womser-Hacker & Walter Zettel Experimentelle Ergebnisse zur Verwendung struktureller Texteigenschaften für eine gewichtete Indexierung ..................................................................................217 Greor Büchel Generierung von semantischen Netzen für Schlagwörter des Katalogbestandes einer Hochschulbibliothek...........................................................................................225 Michael Malburg Einsatz von Tagging-Verfahren zur Verbesserung der Texterkennung......................235 Literaturverzeichnis.....................................................................................................251 Gerhard Heyer & Christian Wolff, Universität Leipzig Einleitung In diesem Band sind Vorträge versammelt, die auf der 10. Jahrestagung der Gesellschaft für Linguistische Datenverarbeitung gehalten wurden. Sie fand vom 17.- 19. März 1997 am Institut für Informatik der Universität Leipzig statt, die erste Jah- restagung der GLDV in den neuen Bundesländern. Unter dem Titel Linguistik und neue Medien decken die Beiträge ein breitgefächertes Spektrum ab: Neben klassischen Themen der linguistischen Datenverarbeitung wie Computerlexikographie und Parsing fanden insbesondere aktuelle Problembereiche wie Multimediatechnologie und An- wendungen im WorldWideWeb Berücksichtigung. Diese breite Themenabdeckung steht in Einklang mit der inhaltlichen Ausrichtung der GLDV, die bewußt ein Fach- verband sowohl für Computerlinguistik im engeren Sinn als auch für alle Anwendun- gen der Sprachtechnologie sein will. Die Aufsätze sind insofern für einen breit ge- streuten Leserkreis von Interesse. Sie lassen sich in die folgenden Schwerpunkte auf- gliedern: I. Electronic Publishing, Multimedia und Informationsdienstleistungen II. Computerlexikographie & Terminologiesysteme III. Morphologie, Syntax & Parsing IV. Information Retrieval & statistische Ansätze in der Linguistik Nachfolgend wollen wir einführend eine knappe Übersicht zu den einzelnen Beiträgen geben. 1 Electronic Publishing, Multimedia und Informationsdienstleistungen Der erste Themenbereich umfaßt ein heterogenes Spektrum von Aufsätzen, die den Bezug zwischen (Computer-)Linguistik und neuen Medien – daher auch das Motto der Tagung – herstellen. Rainer KUHLEN stellt in seinem Beitrag, der auf einen eingelade- nen Vortrag zurückgeht, die Organisationsformen und Mehrwertleistungen elektroni- scher Märkte vor; dabei zeigt er insbesondere auf, welche Rolle linguistische Techno- logien (z. B. automatic abstracting) für solche Dienstleistungen haben können. Gerhard HEYER & Christian WOLFF erörtern, welchen Beitrag klassische Theorie- ansätze aus der linguistischen Pragmatik und der künstlichen Intelligenz für die Ent- wicklung und Strukturierung von Multimediaanwendungen leisten können und spielen eine Operationalisierung der Sprechakttheorie an einem praktischen Beispiel durch. Mit RECALL präsentiert Tibor KISS ein System, das intelligente Unterstützung im Bereich computer aided language learning (call) gibt und mit Standard- Webtechnologien realisiert wurde. Die Stärke des Systems liegt in seinem dynamisch anwendbarem linguistischen Wissen, das anders als typische call-Programme nicht nur vorgefertigte starre Übungsmuster, sondern in gewissem Umfang auch frei formulier- ten Text analysieren und dem Lerner Hilfestellungen geben kann. 2 Gerhard Heyer & Christian Wolff Angelika STORRER geht auf textlinguistische Probleme bei der Erstellung komplexer Hypertexte ein. Sie erarbeitet dabei eine Methodologie für die verschiedenen Varian- ten eines solchen Konvertierungsvorgangs. Wie textsortenspezifische Merkmale den Umwandlungsprozeß beeinflussen, zeigt sie am Beispiel von GRAMMIS, der elektroni- schen Fassung einer am Institut für Deutsche Sprache entwickelten Grammatik des Deutschen. Abschließend diskutieren Friedrich WENZEL et al. den Einsatz von Multimedia- technologien im Spachlehrunterricht und stellen ein System vor, mit dem sich unter Zusammenwirken verschiedener Multimediatechnologien sprachliche Strukturen vi- sualisieren und manipulieren lassen. Am Beispiel der Fachsprache technisches Rus- sisch wird gezeigt, wie interaktive Satzbauanalyse als Multimediaanwendung realisiert werden kann. 2 Computerlexikographie & Terminologiesysteme Der zweite Themenschwerpunkt enthält Beiträge zur Computerlexikographie und der Verwaltung terminologischer Information. Dabei läßt sich ein guter Überblick zum Entwicklungsstand elektronischer Lexika des Deutschen gewinnen, wobei der Trend zur automatischen Verarbeitung großer Textkorpora beim Aufbau von Lexika offen- sichtlich ist. Gregor THURMAIR stellt ein im Rahmen des Projektes AVENTINUS entwickeltes multilinguales Lexikon vor. Er konzentriert sich dabei auf die Wiederverwendbarkeit lexikalischer Ressourcen für Anwendungen wie die maschinelle Übersetzung oder das Information Retrieval. Neben der Erläuterung der Lexikonstruktur wird auch das zu- grundegelegte XML-basierte Kodierungsformat vorgestellt. Lothar LEMNITZER geht auf das Problem der automatischen Wissensextraktion aus großen Textcorpora ein und untersucht statistische Verfahren für die Gewinnung kom- plexer lexikalischer Einheiten. Im Zentrum seines Beitrags steht der Vergleich von Kollkationsmaßen, die anhand von Beispielen aus einem umfangreichen Textkorpus des Deutschen evaluiert werden. Das Projekt Der Deutsche Wortschatz, vorgestellt von Uwe QUASTHOFF, stellt das Unterfangen dar, aus heterogenen maschinenlesbaren Quellen ein sehr umfangreiches Vollformenlexikon des Deutschen aufzubauen und für Anwendungen wie Recht- schreibprüfung oder maschinelle Übersetzung zu nutzen. Neben dem verteilten Sammlungsprozeß beim Aufbau des Wortschatzkorpus werden Optimierung und Ver- waltung des Datenbestands diskutiert. Ähnlich wie Lothar LEMNITZER und Uwe QUASTHOFF geht auch Jürgen OESTERLE auf das Problem der (semi-)automatischen Extraktion linguistischen Wis- sens (SELIK) aus großen Textkorpora ein und erörtert dies am Beispiel des CISLEX, eines umfangreichen und hochstrukturierten elektronischen Lexikons. Sein Ansatz verwendet dabei eine definite clause grammar für Nominalphrasen, wobei verschiende Anlaysestrategien ausführlich dargelegt werden. Einleitung 3 Die beiden letzten Beiträge dieses Themenbereichs behandeln das Problem der Termi- nologiearbeit. Jan LASS stellt die Terminologiedatenbank T42 vor, die Terminologen bei allen wesentlichen Arbeitsschritten im Umgang mit terminologischem Wissen un- terstützt und