A Hybrid Machine Translation Framework for an Improved Translation Workflow
Total Page:16
File Type:pdf, Size:1020Kb
A Hybrid Machine Translation Framework for an Improved Translation Workflow Dissertation zur Erlangung des akademischen Grades eines Doktors der Philosophie der Philosophischen Fakultäten der Universität des Saarlandes vorgelegt von Santanu Pal aus Sonamukhi, West Bengal, Indien Saarbrücken, 2018 Der Dekan: Prof. Dr. Roland Marti Erstberichterstatter: Prof. Dr. Josef van Genabith Zweitberichterstatter: Prof. Dr. Dietrich Klakow Tag der letzten Prüfungsleistung: 27.11.2017 “A scientist in his laboratory is not a mere technician: he is also a child confronting natural phenomena that impress him as though they were fairy tales ....” Marie Curie Abstract A Hybrid Machine Translation Framework for an Improved Translation Workflow by Santanu Pal Doctor of Philosophy Computerlinguistik, Sprachwissenschaft und Sprachtechnologie Universität des Saarlandes Over the past few decades, due to a continuing surge in the amount of content being translated and ever increasing pressure to deliver high quality and high throughput trans- lation, translation industries are focusing their interest on adopting advanced technologies such as machine translation (MT), and automatic post-editing (APE) in their translation workflows. Despite the progress of the technology, the roles of humans and machines essentially remain intact as MT/APE are moving from the peripheries of the translation field closer towards collaborative human-machine based MT/APE in modern transla- tion workflows. Professional translators increasingly become post-editors correcting raw MT/APE output instead of translating from scratch which in turn increases productivity in terms of translation speed. The last decade has seen substantial growth in research and development activities on improving MT; usually concentrating on selected aspects of workflows starting from training data pre-processing techniques to core MT processes to post-editing methods. To date, however, complete MT workflows are less investigated than the core MT processes. In the research presented in this thesis, we investigate av- enues towards achieving improved MT workflows. We study how different MT paradigms can be utilized and integrated to best effect. We also investigate how different upstream and downstream component technologies can be hybridized to achieve overall improved MT. Finally we include an investigation into human-machine collaborative MT by taking humans in the loop. In many of (but not all) the experiments presented in this thesis we focus on data scenarios provided by low resource language settings. German Summary (Zusammenfassung) Aufgrund des stetig ansteigenden Übersetzungsvolumens in den letzten Jahrzehnten und gleichzeitig wachsendem Druck hohe Qualität innerhalb von kürzester Zeit liefern zu müssen sind Übersetzungsdienstleister darauf angewiesen, moderne Technologien wie Maschinelle Übersetzung (MT) und automatisches Post-Editing (APE) in den Überset- zungsworkflow einzubinden. Trotz erheblicher Fortschritte dieser Technologien haben sich die Rollen von Mensch und Maschine kaum verändert. MT/APE ist jedoch nunmehr nicht mehr nur eine Randerscheinung, sondern wird im modernen Übersetzungsworkflow zunehmend in Zusammenarbeit von Mensch und Maschine eingesetzt. Fachübersetzer werden immer mehr zu Post-Editoren und korrigieren den MT/APE-Output, statt wie bisher Übersetzungen komplett neu anzufertigen. So kann die Produktivität bezüglich der Übersetzungsgeschwindigkeit gesteigert werden. Im letzten Jahrzehnt hat sich in den Bereichen Forschung und Entwicklung zur Verbesserung von MT sehr viel getan: Ein- bindung des vollständigen Übersetzungsworkflows von der Vorbereitung der Trainings- daten über den eigentlichen MT-Prozess bis hin zu Post-Editing-Methoden. Der voll- ständige Übersetzungsworkflow wird jedoch aus Datenperspektive weit weniger berück- sichtigt als der eigentliche MT-Prozess. In dieser Dissertation werden Wege hin zum idealen oder zumindest verbesserten MT-Workflow untersucht. In den Experimenten wird dabei besondere Aufmertsamfit auf die speziellen Belange von sprachen mit gerin- gen ressourcen gelegt. Es wird untersucht wie unterschiedliche MT-Paradigmen verwendet und optimal integriert werden können. Des Weiteren wird dargestellt wie unterschiedliche vor- und nachgelagerte Technologiekomponenten angepasst werden können, um insgesamt einen besseren MT-Output zu generieren. Abschließend wird gezeigt wie der Mensch in den MT-Workflow intergriert werden kann. Das Ziel dieser Arbeit ist es verschiedene Technologiekomponenten in den MT-Workflow zu integrieren um so einen verbesserten Gesamtworkflow zu schaffen. Hierfür werden hauptsächlich Hybridisierungsansätze ver- wendet. In dieser Arbeit werden außerdem Möglichkeiten untersucht, Menschen effek- tiv als Post-Editoren einzubinden. Die hierbei gewonnenen Übersetzungsprozessdaten German Summary werden automatisch gesammelt und stehen für künftige Forschung zur Verfügung (z.B. zur Unterstützung von inkrementellen Updates einzelner Workflow- und Post-Editing- Komponenten). Das Hauptziel dieser Dissertation ist es, die echten Bedürfnisse und Probleme der Anwender von Übersetzungstechnologie - einschließlich von professionellen übersetzern - zu erfassen. Es soll ein kollaborativer Rahmen für hybride maschinelle Übersetzung geschaffen werden, der den Übersetzungsworkflow verbessert und den Post- Editing-Effort für den Übersetzer reduziert. Auf dieser Grundlage soll die Funktionalität von Übersetzungssystemen in Hinblick auf die Anforderungen der Anwender optimiert werden, statt die Anwender dazu zu zwingen, ihre Arbeitsweise an die Technologie anzu- passen. Des Weiteren untersucht diese Arbeit ob und wie bestehende Technologien wie neuronale MT (NMT), statistische MT (SMT), beispielbasierte MT (Example Based MT, EBMT) und Translation- Memory-Systeme (TM) die Anforderungen der Anwender un- terstützen können. Hierfür wird der in der arbeit verfolgte Ansatz auf zwei Arten beschrieben. Normalerweise werden verschiedene Technologiekomponenten im Übersetzungsworkflow kombiniert; im ersten Teil dieser Arbeit liegt der Schwerpunkt auf den (i) Komponenten, im zweiten Teil auf den (ii) Workflows. Im ersten Teil dieser Arbeit liegt der Schwerpunkt insbesondere auf Design und Implementierung von leistungsstarken und benutzerfreundlichen Tech- nologiekomponenten (beschrieben in Kapitel 3, Kapitel 4 und Kapitel 5). In diesem Teil werden diverse Hybridisierungsansätze angewandt. Im zweiten Teil der Arbeit liegt der Schwerpunkt auf der Identifizierung optimierter Workflows durch die Kombination ver- schiedener Technologiekomponenten. Hier wird eine Plug&Play-Methodologie angewen- det, bei der der Optimierungsgrad in Bezug auf besseren Übersetzungsoutput gemessen wird. Des Weiteren wird in diesem Teil der Arbeit auch der Mensch in den Über- setzungsprozess zur Bewertung der Übersetzungsqualität sowie zur langfristigen schrit- tweisen Verbesserung der Technologiekomponenten durch Feedback eingebunden. Zusät- zlich werden gleichzeitig wertvolle Ressourcen für Übersetzungsprozessforschung geschaf- fen (vgl. Kapitel 6). In Kapitel 6 liegt der Fokus auf Technologien der die Sammlung von Ressourcen für den vorgeschlagenen Rahmen zur schrittweisen Verbesserung von MT/APE-Komponenten für der Workflow sowie für die Übersetzungsprozessforschung viii German Summary unterstützen. Nachdem Ressourcen in beträchtlichem Umfang durch den kollabora- tiven Rahmen für hybride human-maschinelle Übersetzung geschaffen wurden, soll diese Forschungsarbeit künftig durch die Einbeziehung weiterer Komponenten fortgeführt wer- den. APE stellt jedoch auch eine beträchtliche Verbesserung unseres übersetzungsrahmen dar. MT ist per Definition ein computergestützter Prozess, der Text einer menschlichen Sprache in eine andere umwandelt. Dies geschieht entweder voll- oder halbautomatisch (dies ist der Fall bei von Menschen unterstützen MT, bei der der Mensch in den Überset- zungsprozess eingebunden wird). In den letzten Jahren wurden verschiedene Ansätze zur MT untersucht, z.B. regelbasierte, beispielbasierte, wissensbasierte, statistische und neu- ronale Ansätze. Hinsichtlich weitreichender Entwicklungen und Anwendungen war SMT und insbesondere phrasenbasierte SMT (phrase-based SMT, PB-SMT) aus all diesen An- sätzen bis vor kurzem weitgehende dominierend1. Die Qualität von PB-SMT hängt sehr stark von vorgelagerten Prozessen wie Wordalignment und Bewertung von Phrasenpaaren ab. Beides kann durch die Verwendung großer satzalignierter Parallelkorpora erreicht wer- den. Jedoch kann die Verfügbarkeit von Daten eine Herausforderung sein. PB-SMT für Sprachpaare mit knappen Datenressourcen liefert schlechtere Übersetzungsqualität, da nicht genügend Trainingsdaten aus Parallelkorpora verfübar sind. Hieraus resultiert die erste Forschungsfrage (RQ). RQ1: Wie kann MT für Sprachen mit geringen Ressourcen verbessert werden? In Kapitel 3 wird eine mögliche Lösung für das Problem der Datenknappheit dargestellt. In diesem Kapitel wird eine Methodologie zur Extraktion paralleler Textfragmente aus vergleichbaren Korpora beschrieben, die als zusätzliche Trainingsdaten in der SMT für das Sprachenpaar Englisch-Bengali genutzt werden können. Für dieses Sprachenpaar stehen nur geringe Ressourcen zur Verfügung. Zur Extraktion von Paralleltexten aus vergleichbaren Korpora wird im Rahmen dieser Arbeit Textual Entailment Techniken (TE) angewendet. Der wichtigste Teil dieser Forschung, der in diesem Kapitel vorgestellt wird, wurde auch in (Pal et al., 2014b, 2015b) veröffentlicht. 1WMT 2016 war die erste