Contributions to Speech and Language Processing Towards Automatic Speech Recognizers with Evolving Dictionaries

UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN CONTRIBUTIONS TO SPEECH AND LANGUAGE PROCESSING TOWARDS AUTOMATIC SPEECH RECOGNIZERS WITH EVOLVING DICTIONARIES PH.D. THESIS ALEJANDRO COUCHEIRO LIMERES Graduado en Ingeniería de Tecnologías y Servicios de Telecomunicación por la Universidad Politécnica de Madrid Máster Universitario en Ingeniería de Telecomunicación por la Universidad Politécnica de Madrid 2019 DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN Contributions to Speech and Language processing towards Automatic Speech Recognizers with Evolving Dictionaries PH.D. THESIS Alejandro Coucheiro Limeres Graduado en Ingeniería de Tecnologías y Servicios de Telecomunicación por la Universidad Politécnica de Madrid Máster Universitario en Ingeniería de Telecomunicación por la Universidad Politécnica de Madrid Director: Javier Ferreiros López Doctor Ingeniero de Telecomunicación por la Universidad Politécnica de Madrid 2019 UNIVERSIDAD POLITÉCNICA DE MADRID E.T.S.I. DE TELECOMUNICACIÓN DEPTO. DE INGENIERÍA ELECTRÓNICA TESIS DOCTORAL TÍTULO: Contributions to Speech and Language processing towards Automatic Speech Recognizers with Evolving Dictionaries DOCTORANDO: D. Alejandro Coucheiro Limeres DIRECTOR: D. Javier Ferreiros López El día ________ de _______________ de _________, el Magnífico y Excelentísimo Señor Rector de la Universidad Politécnica de Madrid, designó el siguiente Tribunal para evaluar la Tesis Doctoral arriba mencionada: Presidente: Secretario: Vocal 1o: Vocal 2o: Vocal 3o: Suplente 1o: Suplente 2o: Realizado el acto de Lectura y Defensa de dicha Tesis Doctoral en Madrid, el día ________ de ______________ de _________, en la ETSI de Telecomunicación, el Tribunal acuerda otorgarle la siguiente calificación: CALIFICACIÓN: EL PRESIDENTE EL SECRETARIO LOS VOCALES A mis padres, por tanto y por todo “You can recognize a small truth because its opposite is a falsehood. The opposite of a great truth is another truth” Niels Bohr (1885-1962) “For last year’s words belong to last year’s language And next year’s words await another voice” T.S. Eliot (1888-1965) Agradecimientos Muchas son las personas a quienes quiero agradecer su apoyo y colaboración que tanto me han ayudado en la realización de esta Tesis, así que espero no olvidarme de ninguna. En primer lugar, quiero dar las gracias a mi director de Tesis, Profesor Javier Ferreiros, por su labor extraordinaria guiándome en este largo y enriquecedor camino de la investigación. Desde mis primeras incursiones en el campo, un par de años antes de comenzar la Tesis, hasta hoy, he disfrutado con las enseñanzas y la pasión por la materia que Javier me ha ido transmitiendo. Especialmente, valoro las disquisiciones sobre los distintos puntos del trabajo que teníamos entre manos, donde la creatividad hacía sus apariciones para resolver los diversos retos a los que nos íbamos enfrentando. Además, este mismo afán lo reutilizábamos en unas cuantas ocasiones para dialogar acerca de cuestiones de tan distintas índoles, algo que aprecio también muchísimo por poder contar de nuevo con su curiosidad, rigor y humildad. Quiero agradecer a Julián Echeverry por ser mi primer mentor y nexo con el Grupo de Tecnología del Habla. Con su cercanía y buen humor, consiguió despertar en mí un grato cariño por esta ciencia. Mis mejores deseos para tu camino en Colombia junto a Bea, a quien también echamos de menos. No dejéis nunca de visitarnos (y, con suerte, alguna vez nos tocará a nosotros ir). Gracias a todos los demás profesores del Grupo de Tecnología del Habla: Manolo, Fernando, Ricardo, Rubén, Juancho, Luisfer y también Manuel. Ha sido todo un placer colaborar con vosotros desde el 2014. Conocer vuestros diversos trabajos ha resultado una experiencia muy enriquecedora. Además, no faltaron los comentarios constructivos y demás ayudas para la realización de mi Tesis. Mención especial a Fernando, Ricardo y Juancho por el recuerdo que guardaré de nuestras épicas batallas contra las máquinas del labo, que tantas veces nos desafiaron, mas siendo siempre nuestro el éxito. De mucha ayuda fueron también las distintas colaboraciones con estudiantes de grado y máster que incluso tuve el gusto de cotutorizar: Daniel, Ismael y especialmente Ricardo Kleinlein, quien además se ha embarcado en su propia Tesis dentro del grupo. No dudo de las audaces hazañas que serás capaz de obtener. Gracias a Fernando González por las largas y variopintas conversaciones que con frecuencia manteníamos. También por mostrarme tu talento para capturar escenas y lugares tanto cercanos como lejanos. Que tus viajes, los de avión y los de espíritu, prosigan siempre. Agradezco a Silvia y a Mariano todas las gestiones con las que me han ayudado, pues no fueron pocas, y su disposición fue siempre pronta y eficaz. Gracias a la Universidad Politécnica de Madrid y la Escuela Técnica Superior de Ingenieros de Telecomunicación, especialmente sus profesores, por toda la formación que me otorgaron durante estos años, considerando un orgullo el haber podido cursar estudios en esta escuela y con unos compañeros tan brillantes. A mi familia le debo la mayor gratitud de todas, pues su ayuda comenzó mucho más atrás del inicio de esta Tesis, siendo indispensable para convertirme en quien soy actualmente, y no faltando su apoyo durante todos estos años de realización de la Tesis. Mis padres, Mónica y Antonio, me ofrecieron una educación basada en el esfuerzo y la confianza, la honestidad y el amor. Mis hermanos, Paloma y Roi, aparte de hermanos, siempre han sido amigos míos, y hemos compartido tantas cosas que nuestro aprendizaje de la vida ha transcurrido en paralelo, por lo que alcanzamos unos niveles de comprensión y cariño que nos ayudaron a crecer siempre un poco más. Mis tías Tita y Nita, una para Vigo y otra para Madrid, con las que puedo contar para todo, sea bueno o malo. Y así podría seguir con otros tantos miembros de la familia, todos ellos estimados y queridos. Un millón de gracias a mis grandes amigos Alberto y Miguel, pues nuestra amistad pronto llegará a la década, en la cual hemos vivido de todo y hemos aprendido muchísimo. Estoy seguro de que esta década es sólo la primera de tantas por venir. No me olvido tampoco de vosotros: Natalia, Sastre, Luisro, Romero, Andreu, Mario Pereda y Martíns, Isidro, Celia, Winston, Ana Vic y también Sara. Que continúen nuestras quedadas, charlas, viajes, debates, disfraces y por supuesto fiestas. Gracias a la panda salsera por descubrirme una nueva afición que tan bien funciona para hacer un reset mental, muy necesario para liberarse uno de obstinaciones atascadas que, después del baile, casi solas se resolvían. Gracias a Christian por ser el introductor, y gracias a los demás por continuar la rueda: Ali, Almu, Diego, Germán, Ale y Carmen. Gracias a mis amigos en el extranjero por las aventuras vividas y el soporte recibido cuando convivimos en la misma ciudad. En Viena, mil gracias a Laura, Mònica, Kathleen, Miriam, Andy y Marco. En Baltimore, siempre agradecido a Laureano, Jesús, Paola, mis compis de labo y mis super-caseros Tina y Chuck. Con gusto me esforzaré para que sigamos coincidiendo a pesar de la distancia. Muchas gracias al Center for Language and Speech Processing, especialmente a su director Hynek Hermansky, y a la Johns Hopkins University por resultar tan buen destino para mi estancia predoctoral y por su generosa acogida. He comprobado que el renombre que les acompaña es merecidísimo, sobre todo por la calidad de sus docentes, investigadores y estudiantes, cuyo trabajo he tenido la suerte de conocer de primera mano. Agradecido estoy también al CMU Aquinas, por ser mi receptor en Madrid y lugar de encuentros tan heterogéneos y valiosos. No se me ocurre mejor modo de pasar mis primeros años en la capital que en semejante institución. Gracias Javier, Carlos y César. Muchas gracias a los CMUs Vedruna y Berrospe, donde conocí a tantas amigas y donde los talleres de teatro fueron tan divertidos e inspiradores. En fin, gracias a todos los que contribuyeron de alguna forma a que esta aventura llegara a buen puerto. Han sido unos años que recordaré siempre con felicidad por tanto que me han aportado en múltiples aspectos, valorando especialmente el humano y el académico. Gracias, de verdad. Abstract Automatic speech recognizers offer nowadays a notable performance in multiple and challenging tasks. This has propitiated their incorporation in user applications that are used very frequently. Such presence in the habitual human life has been reinforced due to the fact that speech is one of the most natural ways of human communication. And thus, our interaction with machines is evolving towards a speech-based communication, for accomplishing both simple tasks like dictation or web searches, and more complex tasks like human-machine dialogs for configuring e.g. domestic appliances. The acoustic and language conditions of the audios that serve as input for these systems can vary enormously from source to source. Thus, a great work into improving their acoustic and language models has kept developing continuously since the last decades, where a recent impulse is being experimented thanks to the resurgence of neural networks. On the acoustic part, the effort is focusing on dealing with any kind of noises that may be present on the audio, on being able to recognize the speech of any kind of speaker (including different accents and any other varying feature of the human voice) and on addressing any additional condition of the speech process, like far-field recognition. On the language part, the effort is focusing on how to manage the large amount of different topics and domains that can be present in the speech. Beyond a brute-force approach, where a huge vocabulary and language model is used to try to face any of these scenarios, more interest is growing for systems that can restrict their modeling capabilities to recognize optimally certain topics or domains. This restriction allows the language models to be centered in the uses of language of interest, which otherwise would result in an inoperably big model (and likely less accurate).

Load more