A System for Simultaneous Translation of Lectures and Speeches
Total Page:16
File Type:pdf, Size:1020Kb
A System for Simultaneous Translation of Lectures and Speeches zur Erlangung des akademischen Grades eines Doktors der Ingenieurwissenschaften der Fakultät für Informatik der Universität Fridericiana zu Karlsruhe (TH) genehmigte Dissertation von Christian Fügen aus Mannheim Tag der mündlichen Prüfung: 07. November 2008 Erster Gutachter: Prof. Dr. Alexander Waibel Zweiter Gutachter: Prof. Dr. Tanja Schultz ii Abstract This thesis realizes the first existing automatic system for simultaneous speech-to-speech translation. The focus of this system is the automatic translation of (technical oriented) lectures and speeches from English to Spanish, but the different aspects described in this thesis will also be help- ful for developing simultaneous translation systems for other domains or languages. With growing globalization, information exchange between people from different points of origin increases in importance. In the case of the Euro- pean Union or the United Nations often Arabic, Chinese, English, Russian, Spanish or French is used as common communication language, but not all people are able to speak fluently in these languages. Therefore, often simultaneous or consecutive interpretations are necessary to overcome this language barrier. But the costs for such interpretation services are increas- ing continuously — about 1 billion Euros are spent per year within the European Union. Hence, it is not surprisingly that the governmental funding of research in the domain of spoken language translation is increasing. Large research projects have been launched like TC-STAR in the EU and GALE in the USA. In contrast to the system proposed in this thesis, the main focus is to achieve high quality translation of text and speech wherefore systems are required which run at multiples of real-time. This thesis deals with the question on how a simultaneous translation system can be built and determines whether satisfactory quality can be achieved with state-of-the-art components. A main focus is to increase the performance of the speech recognizer and the interface between the speech recognition and machine translation components. It will be shown how the performance can be increased by using speaker adaptation techniques. With an amount of 15 minutes of speech, the error rate was increased by 5.6% relative using supervised adaptation techniques and by 2.1% using unsupervised adaptation techniques. Furthermore, the importance of online adaptation during decoding was shown. Since topics between lectures and speeches may greatly vary, a domain adaptation framework is proposed, which is able to automatically adapt the system towards a new domain by using language model adaptation. iii iv The adaptation level and expected performance improvement from 3-4% relative in WER and 12-22% relative in BLEU depends on the information available prior to the presentation. Solutions are proposed for information ranging from the speakers name to past publications of the speaker through to the presentation slides. Relevant data for language model adaptation was collected by querying a search engine and retrieving the web pages which were returned as the result of the query. A tf − idf based heuristic was developed for generating suitable queries. Besides recognition and translation quality, high speed and short latency are important for a simultaneous translation system. Therefore, speed-up techniques like search-space pruning and Gaussian selection are explored. To reduce the latency, a streaming approach was implemented, in which the recognizer returns steadily partial hypotheses for a continuous input stream of speech. A resegmentation component was introduced to chunk the continuous stream of partial hypotheses in semantic segments; short enough to keep the latency low, but long enough to not degrade translation quality. By using the proposed techniques, decoding speed could be reduced by 27% to a real-time factor of 0.78 and latency could be reduced to 2-3 seconds, both with only minor decrease in translation quality. For delivering the output of the simultaneous translation system to the audience several promising technologies such as targeted audio loudspeakers will be explored. Compared to a human interpreter, the automatic system was judged in a human end-to-end evaluation in the category of fluency to 2.3, and the interpreter to 3 on a scale ranging from 1 (bad) to 6 (very good). Further- more, with the help of an questionnaire, it could be shown that about 50% of the questions could be answered by the judges in case of the automatic system and about 75% in case of the human-interpreter. Kurzzusammenfassung Die vorliegende Arbeit realisiert das erste existierende automatische Über- setzungssystem, das für die Simultanübersetzung von (technischen) Vorträ- gen oder Reden von Englisch nach Spanisch geeignet ist. Die zunehmende Globalisierung erfordert den Fluss von Information zwi- schen Personen unterschiedlicher Herkunft und Muttersprache. Beispielswei- se besteht die Europäische Union aus 27 verschiedenen Staaten und die Ver- einten Nationen ist ein Zusammenschluss von sogar 192 Staaten. Zwar dient oft Arabisch, Chinesisch, Englisch, Russisch, Spanisch oder Französisch als Kommunikations- bzw. Amtssprache, jedoch werden diese Sprachen nicht von allen gleichermaßen gut gesprochen. Gerade jedoch in wichtigen Gesprä- chen, Debatten, oder Verhandlungen möchte kaum jemand darauf verzichten diese in der eigenen Muttersprache zu führen, in der er sich am sichersten fühlt. Insofern werden z.B. im Europäischen Parlament alle Debatten simul- tan in zur Zeit 23 Amtssprachen interpretiert – ein erheblicher Kostenfaktor. Für kleinere Veranstaltungen wie z.B. Forschungskonferenzen sind solche Kosten nicht tragbar, weshalb man davon ausgehen kann, dass manche Vor- träge aufgrund dieser Kommunikationsbarriere einfach nicht stattfinden. In den USA ist Sprachübersetzung vor allem bei der Prävention von Terror- anschlägen und aufgrund der Konflikte mit anderen Ländern wie dem Irak immens wichtig geworden. Da jedoch die Datenmengen, die über Fernseh- stationen oder im Internet in fremden Sprachen verfügbar gemacht werden, riesig sind, sind diese nur noch durch automatische Methoden analysierbar. Insofern ist es nicht überraschend, dass gerade in letzter Zeit zunehmend Forschungsgelder in Sprachübersetzungsprojekte in der EU (TC-STAR) und in den USA (GALE) investiert wurden. Das Ziel solcher Projekte, ist es auf großen Domänen eine höchstmögliche Sprachübersetzungsqualität zu erlan- gen. Deshalb besitzen solche Systeme Verarbeitungsgeschwindigkeiten von mehreren zig Echtzeitfaktoren. Es gibt jedoch auch Systeme, die sehr viel kürzere Antwortzeiten haben und sogar schon auf mobilen Plattformen funk- tionieren, sich jedoch aber meist nur auf kleine Domänen, wie z.B. Termin- absprachen oder touristische Phrasen beschränken. Mit dem in dieser Arbeit vorgestelltem Simultanübersetzers lässt sich nun erstmals die Kommunikationsbarriere auch in kleineren Veranstaltungen wie z.B. Vorlesungen an Universitäten überwinden. Da die Performance, v vi d.h. die Übersetzungsqualität und die Latenz zwischen Vortragendem und Übersetzung von größter Bedeutung sind, beschäftigt sich diese Arbeit mit den Problemen beim Aufbau eines solchen Systems und deren Lösungen. Sprecheradaption Es wird gezeigt, wie stark sich die Performance des Systems durch ver- schiedene Ansätze zur überwachten und unüberwachten Sprecheradaption verbessern lässt. Bei einer verfügbaren Datenmenge von etwa 15 Minuten, konnte die Fehlerrate um 5.6% durch überwachte und immerhin noch um 2.1% durch unüberwachte Sprecheradaption reduziert werden. Es konnte auch die Wichtigkeit einer fortlaufenden Adaption während des Vortrags gezeigt werden. Domänenadaption Es werden verschiedene Ansätze zur Domänenadaption in Abhängigkeit der zur Verfügung stehenden Adaptionsdaten untersucht. Angefangen mit dem Namen des Vortragenden, über mehr oder weniger verwandte Publikationen bis hin zu den Vortragsfolien wird gezeigt wie solche Informationen effek- tiv genutzt werden können. Hierzu wurde ein Framework entwickelt, in dem in Abhängigkeit der zur Verfügung stehenden Information ähnliche Daten aus dem Internet geladen werden, um damit automatisch die Sprachmodelle von Spracherkennung und Sprachübersetzung zu adaptieren. Um relevante Webseiten mit Hilfe von Suchmaschinen wie Google zu finden, wurde ei- ne tf − idf basierte Heuristik zur Generierung der Anfragen entwickelt. Es konnte gezeigt werden, dass die Webseiten, die mit Hilfe dieser Heuristik ge- sammelt wurden, themenverwandte Informationen enthalten. In Abhängig- keit des Hintergrundsprachmodells konnte durch die Adaption die Fehlerrate der Spracherkennung um 3-4% und der BLEU-Score der Sprachübersetzung um 12-22% verbessert werden. Ferner wurde untersucht, inwieweit sich auch das Vokabular des Spracherkennungssystem mit Hilfe dieser Daten auf die neue Domäne adaptiert werden kann. Geschwindigkeit und Latenz Im Gegensatz zu anderen Arbeiten im Bereich der Sprachübersetzung ist das in dieser Arbeit vorgestellte System das erste, das auch in Echtzeit in größeren Domänen wie Vorträge und Reden arbeitet. Insofern beschäftigt sich diese Arbeit auch mit dem Einfluss von verschiedenen Parametern wie Modellgröße (akustisches Modell, Sprachmodell), Suchraumbeschränkung (Pruning), und anderen Beschleunigungstechniken auf die Geschwindigkeit und Qualität von Spracherkennung und Sprachübersetzung. Neben der Ge- schwindigkeit ist auch eine geringe Latenz sehr wichtig, da sie die Kom- munikation