Textimager-VSD
Total Page:16
File Type:pdf, Size:1020Kb
Wahed Hemati 3007 80 822 147 Computer science Text Technology Lab [email protected] Dissertation TextImager-VSD Large Scale Verb Sense Disambiguation and Named Entity Recognition in the Context of TextImager Abdul Wahed Hemati Frankfurt, 12.2019 Goethe University Frankfurt am Main Prof. Alexander Mehler Prof. Visvanathan Ramesh 1. Danksagung An dieser Stelle möchte ich mich bei all denjenigen bedanken, die mich während der Anfertigung dieser Dissertation unterstützt und motiviert haben. Die Arbeit wäre ohne Unterstützung einer Vielzahl von Leuten nicht möglich gewesen. Ganz besonders gilt dieser Dank Herrn Prof. Dr. Alexander Mehler, der meine Arbeit und somit auch mich betreut hat. Durch stetig kritisches Hinterfragen und konstruktive Kritik gab er mir wertvolle Hinweise mit auf den Weg. Er stand nicht nur mit wissenschaftlichem Rat und fachlichen Diskussionen zur Seite, sondern auch mit moralischer Unterstützung und Motivation. Die zahlreichen Gespräche auf intellektueller und persönlicher Ebene werden mir immer als bereichernder und konstruktiver Austausch in Erinnerung bleiben. Ich bin dankbar dafür, dass er mich stets sehr gut betreut und dazu gebracht hat, über meine Grenzen hinaus zu denken. Vielen Dank für die Geduld und Mühen. Ich danke Herrn Prof. Dr. Visvanathan Ramesh für die hilfsbereite und wis- senschaftliche Betreuung als Zweitgutachter. Ich bedanke mich für die Möglichkeit, diese Arbeit im Text-Technology-Lab der Goethe-Universität Frankfurt anfertigen zu können. Ich hatte die Möglichkeit, von fachlich kompetenten Kollegen und Kolleginnen beraten und betreut zu werden. Dadurch bin ich fachlich und zwischenmenschlich mit ihnen gewach- sen. Nicht zuletzt gebührt meinen Eltern der höchste Dank, die während des Lebens und vor allem während des Studiums immer an meiner Seite standen. Sie haben mich in jeglicher Hinsicht unterstützt und motiviert. Danken möchte ich außer- dem meiner Familie und meinen Freunden, die mich während der Zeit begleitet haben. 3 Acknowledgement I would like to take this opportunity to thank all those who supported and moti- vated me during the writing of this dissertation. The work would not have been possible without the support and advice of many people. I would especially like to thank Prof. Dr. Alexander Mehler, who supervised my work and thus also me. By constantly critical questioning and constructive criticism he gave me valuable hints on the way. He was not only there with scientific advice and technical discussions, but also with moral encouragement and motivation. The numerous discussions on an intellectual and personal level will always remain in my memory as an enriching and constructive exchange. I am grateful that he has always supported me and pushed me to go beyond my borders. Thank you very much for your patience and efforts. I would like to thank Prof. Dr. Visvanathan Ramesh for his helpful and scientific support as second supervisor. I am grateful for the opportunity of having done this work at the Text Technology Lab at the Goethe University in Frankfurt. I had the opportunity to be advised and supervised by competent colleagues. This has enabled me to grow both professionally and interpersonally with them. Last but not least, I would like to thank my parents, who have always been by my side throughout my life and especially during my studies. They supported and motivated me in every respect. I would also like to thank my family and friends who accompanied me during this time. 4 2. Abstract Durch das World Wide Web steigt die Zahl der frei zugänglichen Textdaten, was zu einem zunehmenden Interesse an der Forschung im Bereich der Comput- erlinguistik (CL) geführt hat. Dieser Bereich beschäftigt sich mit theoretisch orientierter Forschung zur Beantwortung der Frage, auf welche Art Sprache und Wissen repräsentiert werden muss, um Sprache verstehen und produzieren zu können. Dafür werden mathematische Modelle entwickelt, um die Phänomene in den verschiedenen Ebenen in menschlichen Sprachen zu erfassen. Ein weit- eres Forschungsgebiet erfährt einen Interessenzuwachs, das eng mit CL zusam- menhängt, nämlich das Natural Language Processing (NLP), bei dem es primär darum geht, effektive und effiziente Datenstrukturen und Algorithmen zuen- twickeln, welche die mathematischen Modelle der CL implementieren. Mit zunehmendem Interesse an diesen Bereichen werden in kürzeren Veröffentli- chungszyklen NLP-Werkzeuge entwickelt und durch den Open Source Trend frei zur Verfügung gestellt, die verschiedene CL-Modelle implementieren, mit denen unterschiedliche Ebenen der Sprache verarbeitet werden können. Aufgrund des noch nicht definierten I/O-Standards für NLP führt das schnelle Wachstum je- doch zu einer heterogenen NLP-Landschaft, in der die Spezialisierungen der Tools wegen der Schnittstelleninkompatibilität nicht voneinander profitieren können. Daneben erfordert die ständig wachsende Menge an frei zugänglichen Textdaten eine performante Verarbeitungslösung. Diese Performanz kann durch horizontale und vertikale Skalierung von Hard- und Software Komponenten erreicht wer- den. Aus diesen Gründen beschäftigt sich die vorliegende Arbeit im ersten Teil mit der Homogenisierung der NLP-Toollandschaft, welche durch ein standardisiertes Framework erzielt wird, das - TextImager - benannt wurde. Es stellt ein Cloud 5 Computing basiertes Multi-Service, -Server, -Pipeline, -Database, -User, -Re- präsentations und -Visualisierungs Framework dar, das bereits eine Vielzahl an Werkzeugen für verschiedene Sprachen zur Verfügung stellt, mit denen verschie- dene Ebenen der Sprache verarbeitet werden können. Damit ist es möglich, Forschungsfragen zu beantworten, die es erfordern, eine große Anzahl an Daten auf mehreren linguistischen Ebenen zu verarbeiten. Durch die integrierten Werkzeuge und die homogenisierten I/O-Datenströme des TextImagers ist es nun möglich, die eingebauten Werkzeuge auf zwei Dimensionen zu kombinieren: (1) die horizontale Dimension, um eine NLP aufgabenspezifis- che Verbesserung zu erreichen (2) die orthogonale Dimension, um CL Modelle implementieren zu können, die auf mehrere Ebenen der Sprache aufbauen und somit auf eine Kombination aus unterschiedlichen NLP Werkzeugen angewiesen sind. Der zweite Teil dieser Arbeit beschäftigt sich mit der Erstellung von Modellen für die horizontale Kombination von Werkzeugen, um damit am Beispiel der NLP- Aufgabe der Named Entity Recognition (NER) die Verbesserungsmöglichkeiten zu zeigen. Der TextImager bietet für jede NLP-Aufgabe mehrere Werkzeuge an, die auf der selben Datengrundlage trainiert worden sind, allerdings unter- schiedliche Ergebnisse liefern können. Das heißt, dass jedes der Werkzeuge eine Teilmenge der Daten richtig verarbeitet und gleichzeitig bei einer anderen Teil- menge Fehler macht. Um eine möglichst große Teilmenge der Daten richtig zu ve- rarbeiten, bedarf es daher einer horizontalen Kombination der Werkzeuge. Dafür wurden Machine-Learning-basierte Voting-Mechanismen, namens LSTMVoter und CRFVoter, entwickelt, die eine Kombination der Ausgaben einzelner NLP-Werk- zeuge ermöglichen, so dass bessere Datenteilergebnisse erzielt werden können. In dieser Arbeit wird der Mehrwert der Voter am Beispiel der NER Aufgabe gezeigt, deren Ergebnisse wieder in die TextImager Toollandschaft einfließen. Der dritte und letzte Teil dieser Arbeit beschäftigt sich mit der orthogonalen Kombination von TextImager Werkzeugen, um die Verb Sense Disambiguation (VSD) zu bewerkstelligen. Verben verbinden Handlungsträger und sind somit der organisatorische Kern der Aussagen in Texten. In dieser Arbeit wird der CL Frage 6 nachgegangen, wie Verbsinne zu modellieren sind, um diese computational dis- ambiguieren zu können. Verbsinne haben einen syntagmatisch-paradigmatischen Zusammenhang mit umgebenden Wörtern. Daher bedarf es einer Vorverar- beitung auf mehreren linguistischen Ebenen und somit einer orthogonalen Kom- bination von NLP Werkzeugen, um eine Disambiguierung der Verben auf com- putationaler Ebene bewerkstelligen zu können. Durch die abgebildete NLP- Landschaft von TextImager ist es nun möglich, diese Vorverarbeitungsschritte durchzuführen, um die Informationen zu induzieren, die für das VSD benötigt werden. Das neu entwickelte NLP Werkzeug für das VSD wurde in die TextImager- Toollandschaft integriert, was die Analyse einer weiteren linguistischen Ebene ermöglicht. In der vorliegenden Arbeit wird ein Framework vorgestellt, das die NLP-Toolland- schaft homogenisiert und dabei cluster-basiert arbeitet. Es werden Methoden zur Kombination der integrierten Werkzeuge implementiert, um die Analyse einer speziellen Sprachebene zu verbessern oder Werkzeuge zu entwickeln, die neue Sprachebenen erschließen. 7 Abstract The World Wide Web is increasing the number of freely accessible textual data, which has led to an increasing interest in research in the field of computational linguistics (CL). This area of research addresses theoretical research to answer the question of how language and knowledge must be represented in order to understand and produce language. For this purpose, mathematical models are being developed to capture the phenomena at various levels in human languages. Another field of research experiencing an increase in interest that is closely related to CL is Natural Language Processing (NLP), which is primarily concerned with developing effective and efficient data structures and algorithms that implement the mathematical models of CL. With increasing interest in these areas, NLP tools are rapidly and frequently being developed