Speed up Strategies for the Creation of Multimodal and Multilingual Dialogue Systems
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN Speed Up Strategies for the Creation of Multimodal and Multilingual Dialogue Systems TESIS DOCTORAL LUIS FERNANDO D’HARO Ingeniero Electrónico 2009 09 TESIS DOCTORAL LUIS FERNANDO D’HARO LUIS FERNANDO 2009 DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN Speed Up Strategies for the Creation of Multimodal and Multilingual Dialogue Systems Autor LUIS FERNANDO D’HARO Ingeniero Electrónico Director RICARDO DE CÓRDOBA Doctor Ingeniero de Telecomunicación 2009 Tribunal nombrado por el Sr. Rector Magfco. de la Universidad Politécnica de Madrid, el día...............de.............................de 2009... Presidente: Vocal: Vocal: Vocal: Secretario: Suplente: Suplente: Realizado el acto de defensa y lectura de la Tesis el día.......... de........................ de 2009 en la E.T.S.I. de Telecomunicación. Calificación:……………………………………………………………. EL PRESIDENTE LOS VOCALES EL SECRETARIO “Commit your way to Jehovah, trust also “Encomienda a Jehová tu camino, in Him, and He will do it” Confía en Él, y Él hará” Psalm 37:5 Salmos 37:5 "Bear in mind that the wonderful things “Pensad que las cosas maravillosas que you learn in your schools are the work of many aprendéis en vuestras escuelas son el trabajo generations, produced by enthusiastic effort de muchas generaciones, logrado con mucho and infinite labour in every country of the esfuerzo y mucha fatiga en todos los países world. All this is put into your hands as your del mundo. Las ponemos en vuestras manos inheritance in order that you may receive it, como herencia, para que las respetéis, honour it, add to it, and one day faithfully hand desarrolléis y fielmente las entreguéis a it to your children. Thus do we mortals achieve vuestros hijos. Así es cómo nosotros, los immortality in the permanent things which we mortales, nos hacemos inmortales, create in common" transmitiendo el trabajo hecho por todos” Albert Einstein Albert Einstein ABSTRACT Nowadays, most of the commercial and research call center applications are created using sophisticated and complete development platforms that allow the specification of all the details related to the design, deploying, and debugging of such services. In spite of all the features and utilities included in them, most of them propose the same kind of accelerations and present limitations when designing simultaneously the same service for different modalities and kinds of users. In this thesis, we propose different innovative, dynamic, and intelligent acceleration strategies that allow the prediction of the information required to complete the different aspects of the design. In our proposal, the accelerations are based on using the data model structure and database contents, as well as cumulative information obtained from the previous and sequential steps in the design. Thanks to these accelerations, the design is reduced, most of the times, to simple confirmations from the designer to the “proposals” that the platform automatically provides. In detail, we propose the semi-automatic generation of different kinds of proposals that can be used to complete the application flow, the actions that make up each dialogue, or to solve specific modality problems such as user confirmations and the presentation of the lists of results retrieved after querying the backend database. Additionally, we propose the creation of different assistants that contribute to accelerate the process of creating speech grammars and the definition of the functions used to access the database. The results that we have obtained in objective and subjective evaluations have shown the viability, relevance, and functionality of the platform and the proposed accelerations presented in this thesis. On the other hand, the wide variability of the final users of the service raises different challenges such as the possibility of correctly identify the language to be used to interact with the users, as well as the possibility of providing the same service using different modalities according to the user preferences or needs or to the current conditions of the dialogue. In relation with the improvements applied to the language identification module, we have implemented a new technique based on using a discriminative ranking of n-grams that allow the incorporation of contextual longer-span information into the language models used by the system. The proposed technique has been evaluated in the identification of spoken sentences in English and Spanish obtaining better language recognition rates than a PPRLM based system, probably because the technique copes better with the classical problem of obtaining reliable estimates with a reduced training set, so we can use higher order language models. Finally, we have incorporated several improvements into an automatic speech-to-sign language machine translation system that extends the multimodal capabilities of the platform, so we can offer the same service, developed with the design platform, to deaf people. In this case, the translation system is used to automatically translate system prompts into an animated sequence played by a 3-D avatar. In this thesis, we propose an innovative adaptation technique that improves the quality of the translated sentences in situations when there is not enough training data to obtain reliable language models used by the translation system. The adaptation is done at the count level, using the Maximum A-Posteriori (MAP) technique. We use in this case the original occurrence counts of the n-grams that appear in the target language and the frequency counts of the equivalent n-grams in the source language retrieved from the Web and previously “translated” into counts in the target language using an independently trained phrase-base translation model. I RESUMEN Hoy por hoy, la mayoría de los sistemas comerciales y de investigación de atención telefónica se realizan mediante el uso de sofisticadas y completas plataformas que permiten especificar todos los detalles relacionados con el diseño, ejecución, y depuración de tales servicios. Pese a todas las funcionalidades y utilidades incluidas para acelerar el diseño y permitir servicios avanzados a los usuarios, la mayoría de ellas proponen el mismo tipo de aceleraciones y presentan limitaciones al desarrollo simultáneo del servicio para múltiples modalidades y perfiles de usuario. En esta tesis se proponen diferentes estrategias de aceleración innovadoras, dinámicas e inteligentes que permiten predecir la información necesaria requerida para completar los diferentes aspectos del diseño, usando para ello información de la estructura del modelo de datos y del contenido de la base de datos del servicio, así como de la información acumulada a lo largo de todos los pasos ya realizados durante el diseño. Gracias a estas aceleraciones, la mayor parte del diseño del diálogo se reduce a confirmaciones por parte del diseñador de las “ofertas” que le hace la plataforma. En concreto, se propone la generación semi-automática de diversos tipos de propuestas que pueden ser utilizadas para completar el flujo de la aplicación, las acciones que componen cada diálogo, o para solucionar problemas específicos de cada modalidad tales como la confirmación de datos al usuario y la presentación de las listas de resultados devueltos después de hacer una consulta a la base de datos del servicio. Así mismo, se propone la creación de diferentes asistentes que permiten acelerar la creación de las gramáticas usadas por el sistema de reconocimiento y la definición de las funciones de acceso a la base de datos. Los resultados obtenidos en sendas evaluaciones objetiva y subjetiva han permitido demostrar la viabilidad, relevancia y funcionalidad de estas aceleraciones y de la plataforma presentada. Por otro parte, la amplia variedad de usuarios finales del servicio plantea diversos retos tales como la capacidad de identificar adecuadamente el idioma con el cual dirigirse a los usuarios, así como la posibilidad de proporcionar el servicio utilizando una u otra modalidad según las preferencias/necesidades de los usuarios o las condiciones actuales del diálogo. En relación con las mejoras aplicadas al módulo de reconocimiento de idioma se ha implementado una nueva técnica para la incorporación de información contextual de más largo alcance en los modelos de lenguaje utilizados por el sistema basada en un ranking de n- gramas discriminativos. La técnica propuesta ha sido evaluada en la identificación de frases habladas en inglés y castellano obteniendo mejores tasas de reconocimiento que un sistema basado en PPRLM que usa modelos de lenguaje tradicionales gracias a la reducción del problema de falta de datos para el entrenamiento de los modelos de lenguaje de orden elevado lo que permite la utilización de modelos de mayor orden. Finalmente, se han incorporado diversas mejoras a un módulo de traducción automática de voz a lengua de signos que permite ampliar las capacidades multimodales de la plataforma al permitir la prestación del mismo servicio, desarrollado con la plataforma de diálogo, a personas con discapacidad auditiva, permitiendo la traducción de los prompts del sistema en una secuencia animada reproducida por un avatar. En esta tesis se propone una técnica de adaptación innovadora que permite mejorar la calidad de las frases traducidas en situaciones en las que no hay suficientes datos para entrenar adecuadamente el modelo de lenguaje usado por el sistema