Generating Italian from Italian Sign Language Glosses with GENLIS
Total Page:16
File Type:pdf, Size:1020Kb
Master’s Degree in Scienze del Linguaggio Final Thesis Generating Italian from Italian Sign Language glosses with GENLIS Supervisor Ch. Prof. Marina Buzzoni Assistant supervisor Ch. Prof. Rodolfo Delmonte Graduand Serena Trolvi Matricolation number 841996 Academic Year 2018 / 2019 Alla mia famiglia Abstract in deutscher Sprache Gebärdensprachen sind die natürlichen Sprachen tauber Menschen. Im Gegensatz zur allgemeinen Überzeugung sind sie eigenständige und vollwertige Sprachen, die sich von Lautsprachen unterscheiden. Außerdem sind sie keine bloße Gestensysteme und keine Pantomime. Sie sind auch nicht international: Jedes Land hat seine eigene Gebärdensprache und manche Ländern haben mehr als eine (Caselli et al. 2006). Dies gilt auch für die italienische Gebärdensprache (LIS), die die in Italien benutzte Gebärdensprache ist, die aber auf nationaler Ebene noch nicht anerkannt ist. Wie die anderen Gebärdensprachen ist sie eine visuell-manuelle Sprache, die eigene Grammatik, Phonologie, Morphologie, Syntax und Wortschatz hat (vgl. u.a. Volterra 1987 [2004]; Caselli et al. 2006; Geraci 2006; Geraci et al. 2008; Cecchetto et al. 2009; Branchini und Geraci 2010). Gebärdensprachen haben daher spezifische Eigenschaften und bedienen sich ihrer eigenen Komponenten, die manuell oder non-manuell sind, um Informationen gleichzeitig zu übertragen. Manuelle Komponenten sind Gebärden und bestehen aus vier Parametern: i. Handform, die die äußere Gestalt der Hand ist; ii. Handstellung, d.h. die Ausrichtung der Hand; iii. Ausführungsstelle, die die Stelle am Körper oder im Gebärdenraum1 ist, wo die Gebärde vollzogen wird; iv. Bewegung, die die Bewegung der Hand beschreibt, d.h. wie und wohin die Hand bewegt wird. (vgl. zur amerikanischen Gebärdensprache, Stokoe 1960 und Battison 1978; zu LIS, Volterra [1987] 2004). Non-manuelle Komponenten umfassen hingegen den Gesichtsausdruck, die Bewegung des Oberkörpers, des Kopfes, der Augenbrauen, der Wangen, des Mundes und der Schultern und die Blickrichtung. Außerdem können sie linguistische und non- linguistische Funktionen haben (vgl. u.a. Corina et al. 1999; McCullough et al. 2005; Pfau und Quer 2010; Herrmann 2013) und einigen Experten zufolge zählen sie zu dem fünften der oben genannten Parameter (Valli und Lucas 2000). 1 Der Gebärdenraum ist der Raum vor dem Körper, in dem Gebärden ausgeführt werden. In Anbetracht dieser Vorbemerkung, ist es nicht schwierig zu begreifen, dass die Simultaneität eine Kerneigenschaft der Gebärdensprachen ist. Diese taucht auch bei der Verwendung des Gebärdenraums, des sogenannten Role Shift2 und bestimmter Gebärden wie Klassifikatoren3 auf. Besonders interessant wäre es deshalb herauszufinden, ob und inwiefern einem Computer, der Informationen nur sequentiell verarbeiten kann, es irgendwie gelingt, eine Gebärdensprache zu verarbeiten. Diese Überlegungen haben mich dazu geführt, die automatische Generierung eines italienischen Textes aus Glossen von einer Fabel auf Italienische Gebärdensprache zum Gegenstand der vorliegenden Arbeit zu machen. Bevor die dabei verwendeten Methoden beleuchtet werden, ist es wichtig in diesem Zusammenhang den Begriff „Generierung“ zu definieren. Mit „natürlicher Sprachgenerierung“ (NLG – Natural Language Generation) bezeichnet man die automatische Produktion von Texten in natürlicher Sprache (Output) aus nicht- sprachlicher Information (Input) durch eine maschinelle Verarbeitung bzw. einen Generator Algorithmus. Die Kernaufgabe eines solchen NLG-Systems ist es, Wahlen zu treffen (Hovy 1988; Reiter 2010). Es muss nämlich entscheiden, was es generieren soll und wie es dies tun kann. Hierfür muss es bestimmte Aufgaben ausführen, die in dieser Arbeit erklärt werden. Zahlreich sind natürlich die Anwendungsgebiete für automatische Sprachgenerierung, wie zum Beispiel die Generierung von Wetterberichten (Goldberg et al. 1994) und von geschriebenen oder mündlichen Texten, die Behinderten helfen, bestimmte Aufgaben zu erfüllen (Ferres et al. 2006; Reiter et al. 2009). Diese Arbeit befasst sich mit der Generierung der Fabel „Die Schildkröte und der Hase“, die in bestimmten Schritten ausgeführt wurde. Hierbei wurde zunächst die Fabel durch Glossentranskription verschriftlicht. Diese ist ein sehr subjektives Notationssystem, das es ermöglicht, die Sprache schriftlich abzubilden. Sätze auf LIS wurden nämlich mit italienischen Worten so notiert, dass die 2 Role Shift ist eine Narrationsstrategie, die dem Gebärdenden es ermöglicht, etwas aus der Perspektive einer anderen Person oder eines Gegenstandes zu erzählen. 3 Klassifikatoren sind im Wesentlichen grammatische Einheiten, die in einigen Sprachen verwendet werden, um Substantive zu klassifizieren. von ihnen vermittelten Informationen auf acht parallel laufende Schichten (AFF, ADV, SYN, AGR, NMS, MS, ARS, QRS) verteilt wurden. In der AFF Schicht werden beispielsweise non-manuelle Komponenten transkribiert, die Emotionen ausdrücken; SYN enthält non- manuelle Komponenten, die eine syntaktische Funktion haben; in MS werden manuelle Komponenten bzw. Gebärden notiert, usw. Des Weiteren wurden die acht Schichten in Strings konvertiert, damit Glossen als Input für unseren Generator fungieren konnten. Darüber hinaus wurden Glossen in semantische Formen umgewandelt. Dies ist der Ausgangspunkt, von dem aus unserer Generator GENLIS seine Aufgabe erledigen kann. In dieser Arbeit wird außerdem GENLIS vorgestellt, der auf bestimmten Algorithmen basiert. Der Kernalgorithmus ist ein Grammatik-Algorithmus, der Nebenregeln verwendet, die notwendig sind, um stilistisch markierte Strukturen zu generieren. Eingeführt werden auch weitere Algorithmen, die dem Generator es ermöglichen, den Output zu generieren. Wie schon erwähnt, ist der von uns gewählte Text eine Fabel. Fabeln sind Erzählungen mit belehrender Absicht und sind normalerweise an Kinder gerichtet. Auf Italienisch werden sie grundsätzlich in der Vergangenheit erzählt. Dies gilt für LIS allerdings nicht: Gebärdender erzählen eher eine Geschichte in ihrem Hier und Jetzt, indem sie in der Geschichte ihre Raum-Zeit-Koordinaten verwenden, d.h. sie erzählen, als ob das Ereignis in ihrer Gegenwart passieren würde. Als Kennzeichen des LIS-Erzählens gelten zudem bestimmte linguistische Strategien und Elemente, wie die oben genannten Klassifikatoren und Role Shift, die in italienischen Fabeln nicht zu finden sind. Solche Faktoren haben wir natürlich berücksichtigt. Weiterhin wird der generierte Text in dieser Arbeit vorgestellt und analysiert. Insbesondere wird er mit dem von uns verfassten Zieltext verglichen. Dieser diente als Muster, um den Output zu bewerten und beurteilen. Wir haben ihn abgefasst, indem wir versucht haben, uns nicht zu weit von dem Ausgangstext zu entfernen. Wir haben auch in Betracht gezogen, was der Generator eigentlich generieren könnte. Infolgedessen haben wir einen Text geschrieben, der auch Verben in passato remoto und imperfetto (Präteritum) enthält und alles in allem korrekt und wohlgeformt ist, obwohl einige Sätze scheinen, die Grenzen der Akzeptabilität ein wenig zu überschreiten. Im Großen und Ganzen sind wir mit dem von GENLIS generierten Text zufrieden. Er ist leserlich, Informationen sind in logischer Reihenfolge geordnet und er ist ziemlich ausführlich im Vergleich zu Glossen. Im Text tauchen jedoch Probleme auf und die vorliegende Arbeit setzt sich auch damit auseinander, diese Schwierigkeiten zu erkennen. Es wird erläutert, dass der generierte Text an einigen Stellen starr, monoton und redundant ist. Es gibt auch verschiedene Fehler, die beispielsweise mit Kongruenz, direkter Rede und anaphorischen Verbindungen verbunden sind. Darüber hinaus wurden Tempora oft falsch generiert. Im Laufe dieser Masterarbeit wurde bemerkt, dass einige von den oben genannten Problemen durch die Weise verursacht sind, in der Glossen transkribiert wurden. Dies ist darauf zurückzuführen, dass eine manuelle Gebärde alleine mehrere Informationen gleichzeitig weitergeben kann, die oft kontextabhängig sind. Eine solche Gebärde würde (und wurde) auf Italienisch mit einer Periphrase übersetzt. Daraus folgt, dass die annotierte MS Schicht manchmal zu informativ ist, indem sie Signifikate enthält, die eine andere mögliche Schichte enthalten könnte (z.B. manuelle adverbiale Informationen). Die Generierung aus solchen Gebärdenglossen musste deshalb ad hoc vollzogen werden. Aus diesem Grund werden am Ende dieser Arbeit einige Änderungen an Glossen vorgeschlagen. Wie oben betont, kann eine Gebärde in vier Parameter zerlegt werden, die unterschiedliche Informationen übertragen. Veranschaulicht wird deshalb die Untergliederung der MS Schicht in vier untergeordnete Schichten, jede von denen einem Parameter entspricht und ein Stück Information überträgt. Wenn auch diese als Input verarbeitet würden, sollte es einfacherer sein, einen korrekten Output zu generieren. Es muss auf jeden Fall geprüft werden, ob diese Untergliederung eine für die Generierung geeignete Strategie ist. Abschließend wird in dieser Masterarbeit nachgewiesen, dass LIS eine echte Sprache ist und dass es notwendig ist, weitere Forschung in diesem Gebiet durchzuführen. Nebenher hat es sich deutlich ergeben, dass es möglich ist, einen italienischen Text aus LIS Glossen zu genieren, obwohl vielerlei Probleme während des Generierungsprozesses auftauchen können. In unserem Fall sollen die Glossentranskriptionsmethode und GENLIS selbst in der Zukunft optimiert werden. Contents Annotation Conventions .......................... 14 Introduction ............................. 15 Chapter 1. The Italian Sign