MÁSTER OFICIAL EN LENGUA ESPAÑOLA Y LITERATURA HISPÁNICA Aplicación de las tecnologías de la información y de la comunicación (TIC) a la Lengua española
Tecnologías del habla, Carme de-la-Mota
LA CONVERSIÓN DE TEXTO EN HABLA
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 1 GUIÓN DEL CURSO
Interacción entre personas y ordenadores Tema que Conversión de texto en habla trataremos Reconocimiento de habla con más detalle Sistemas de diálogo Interacción entre personas mediatizada por ordenador Traducción de lenguas orales Traducción entre lengua oral y lengua de signos Reconocimiento de habla y generación de caras animadas para lectura labial La necesidad de crear y etiquetar corpus orales Aplicaciones
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 2 Interacción
ordenador
persona
Foto: teclarosrg
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 3 La generación automática de habla
Conversión de texto en habla text-to-speech Generación de habla a partir de conceptos concept-to-speech
Procesamiento del lenguaje natural PLN
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 4 ¿Qué es la conversión de texto en habla?
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 5 Conversión de texto en habla
Gota. [‘gota]
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 6 Objetivos de un sistema de CTH
Primero: inteligibilidad Segundo: naturalidad
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 7 La conversión de texto en habla
1. De los inicios a la actualidad 2. La estructura de un conversor 3. Las mejoras pendientes 4. Las aplicaciones
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 8 La conversión de texto en habla
1. De los inicios a la actualidad 2. La estructura de un conversor 3. Las mejoras pendientes 4. Las aplicaciones
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 9 Von Kempelen, 1791
Reconstrucción por Wheatstone Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 10 Von Kempelen, 1791
Simulación del aparato fonador
Deutsches Museum, Munich http://www.ling.su.se/staff/hartmut/kemplne.htm Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 11 Evolución de los sistemas de síntesis: VODER VODER (Voice Operating Demonstrator) Homer Dudley, New York World's Fair 1939
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 12 Evolución de los sistemas de síntesis: Pattern Playback Pattern Playback Laboratorios Haskins 1951
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 13 Evolución de los sistemas de síntesis: OVE OVE I (Orator Verbis Electris) Gunnar Fant Primer sintetizador por formantes en cascada 1953
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 14 Evolución de los sistemas de síntesis: DAVO DAVO (Dynamic Analog of the VOcal tract) George Rosen Massachusetts Institute of Technology, M.I.T. Primer sintetizador de base articulatoria 1958
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 15 Evolución de los sistemas de síntesis: TI Speak'n'Spell Speak'n'Spell Linear Predictive Coding (LPC) 1980
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 16 Sami Lemmetty (1999) Review of Speech Synthesis Technology, Master's Thesis, Laboratory of Acoustics and Audio Signal Processing, Helsinki University of Technology. http://www.acoustics.hut.fi/publications/files/theses/lemmetty_m st/index.html
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 17 Actualmente
Inteligibilidad altísima Naturalidad aceptable Mejorable: expresividad …
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 18 La conversión de texto en habla
1. De los inicios a la actualidad 2. La estructura de un conversor 3. Las mejoras pendientes 4. Las aplicaciones
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 19 Conversión de texto en habla
Lectura en voz alta
Gota. [‘gota]
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 20 Conversión de texto en habla
A. Aspectos lingüísticos B. Generación de habla sintética
Módulo lingüístico Gota.
Módulo de síntesis
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 21 Funcionamiento
Principales módulos en un conversor de texto en habla
J. Llisterri, C. Carbó, M. J. Machuca, C. de-la-Mota, M. Riera, A. Ríos (2003) "El papel de la lingüística en el desarrollo de las tecnologías del habla“, en M. Casas Gómez (dir.) y C. Varo Varo (ed.) VII Jornadas de Lingüística. Cádiz: Universidad de Cádiz. ISBN: 84- 88423-30-6: 137-191 http://liceu.uab.es/~carme/Cadiz_03.pdf http://liceu.uab.es/~joaquim/publicacions/Llisterri_Carbo _Machuca_Mota_Riera_Rios_03_Linguistica_Tecnologi as_Habla.pdf Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 22 A. Aspectos lingüísticos
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 23 Información lingüística
¿Qué información fonética debe contener? Determinación y descripción de unidades Transcripción fonética Silabificación Acento Entonación Junturas… ¿Qué información léxica, sintáctica, semántica y pragmática debe contener? ¿En qué orden deben actuar los módulos?
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 24 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 25 1. Preprocesado o normalización del texto Preparación del texto para que pueda ser transcrito fonéticamente Ejemplo:
Juan Carlos I [ i ]
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 26 1. Preprocesado o normalización del texto Números ordinales Números romanos Horas Fechas Unidades de medida Temperaturas Expresiones monetarias Siglas Abreviaturas Direcciones de correo electrónico e Internet Símbolos
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 27 ¿Cómo debería realizarse el preprocesado de estos casos? % @ CCOO 1 m kW
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 28 ¿Cómo debería realizarse el preprocesado de estos casos? 1 m 150 m
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 29 ¿Cómo debería realizarse el preprocesado de estos casos? 1 metro 150 metros Concordancia morfológica
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 30 ¿Cómo debería realizarse el preprocesado de estos casos? El valor era 25, ni más ni menos.
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 31 ¿Cómo debería realizarse el preprocesado de estos casos? El valor era 25, ni más ni menos. El valor era 25,3, ni más ni menos. ¿Cómo tratar la coma y los otros signos de puntuación?
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 32 ¿Cómo debería realizarse el preprocesado de estos casos? UAM 6,50 € 91 213 55 98
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 33 ¿Cómo debería realizarse el preprocesado de estos casos? UAM 6,50 € 91 213 55 98 1-12
¡Hay más de una salida posible!
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 34 Abreviaturas
¿Cómo expandir estas abreviaturas? c/ ed. impr. R.D. S.A. trad. v.
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 35 Abreviaturas
Consulta DPD, Diccionario Panhispánico de Dudas Apéndice 2: Lista de abreviaturas http://buscon.rae.es/dpdI/
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 36 Abreviaturas
¿Cómo expandir estas abreviaturas? c/ ed. impr. R.D. S.A. ¡Hay más de una salida posible! trad. v.
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 37 Abreviaturas Consulta en el DPD c/ calle (también c. y cl.) || cargo (también cgo.) || cuenta (también cta.) ed. edición || editorial (también edit.) || editor, -ra impr. imprenta (también imp.) || impreso R.D. Real Decreto [Esp.] (cf. R. O.) || República Dominicana S.A. sociedad anónima (cf. S. L.) || su alteza trad. traducción || traductor, -ra v. véase (cf. vid.) || verso Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 38 ¿Preprocesado?
Probemos con varios de los sistemas actuales accesibles en Internet… Texto: Vamos a ver si se ha preprocesado el texto. Atención. Son las 12:45. El rey Carlos III. Son 100 Km/h. Es el 1º. Hablamos de la UGT, CCOO, el PSOE y la ONU.
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 39 AT&T
http://www.research.att.com/~ttsweb/tts/demo.php Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 40 Acapela ELAN TTS
http://www.acapela-group.com/text-to-speech-interactive-demo.html Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 41 Loquendo
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 42 Pero cuidado…
¿Cuál es el objetivo del preprocesado? ¿Hasta qué punto debe cubrir el preprocesado los elementos ajenos a la cultura habitual de uso del conversor? UGT, CCOO, PSOE
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 43 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 44 2. Análisis lingüístico
¿Grado de detalle implementado en el CTH…? Relación coste-beneficio
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 45 Información categorial: categorizador
¿Qué problema suponen estos casos? La baja Aparte Fuera
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 46 Información categorial: categorizador
La baja La: determinante, pronombre… Baja: adjetivo, sustantivo, verbo…
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 47 Información categorial: categorizador
Aparte
"
"apartar" Verbo MImp Pres 3pers sg Prin "apartar" Verbo MSub Pres 1pers sg Prin "apartar" Verbo MSub Pres 3pers sg Prin "aparte" Adjetivo qual masc-fem sg "aparte" Adj "aparte" Nombre com masc sg "aparte" Adverbio "aparte" Preposición Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 48 Información categorial: categorizador
Fuera
"
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 49 Posibles efectos fonéticos de la categoría Acento Entonación
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 50 Posibles efectos fonéticos de la categoría Acentuación de sobre: sobre blanco sobre la mesa
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 51 Posibles efectos fonéticos de la categoría Contorno de f0 del enunciado Si te parece bajo el armario, en la que bajo es una preposición
J. Llisterri, C. Carbó, M. J. Machuca, C. de-la-Mota, M. Riera, A. Ríos (2003) "El papel de la lingüística en el desarrollo de las tecnologías del habla“, en M. Casas Gómez (dir.) y C. Varo Varo (ed.) VII Jornadas de Lingüística. Cádiz: Universidad de Cádiz. ISBN: 84-88423-30-6: 137-191 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 52 Posibles efectos fonéticos de la categoría Contorno de f0 del enunciado Si te parece bajo el armario, en la que bajo es un verbo
J. Llisterri, C. Carbó, M. J. Machuca, C. de-la-Mota, M. Riera, A. Ríos (2003) "El papel de la lingüística en el desarrollo de las tecnologías del habla“, en M. Casas Gómez (dir.) y C. Varo Varo (ed.) VII Jornadas de Lingüística. Cádiz: Universidad de Cádiz. ISBN: 84-88423-30-6: 137-191 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 53 Posibles efectos fonéticos de la categoría Contorno de f0 del enunciado Si te parece bajo el armario, en la que bajo es un adjetivo
J. Llisterri, C. Carbó, M. J. Machuca, C. de-la-Mota, M. Riera, A. Ríos (2003) "El papel de la lingüística en el desarrollo de las tecnologías del habla“, en M. Casas Gómez (dir.) y C. Varo Varo (ed.) VII Jornadas de Lingüística. Cádiz: Universidad de Cádiz. ISBN: 84-88423-30-6: 137-191 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 54 Ejemplo: categorizador para el catalán, Jordi (Telefonica) Análisis de un ejemplo Informe técnico restringido, UAB. # regla para categorizar 'en' como ARTI cuando va precedido por NPRO # Ejemplo: En Joan canta # 1 INI_REGLA INI_COND 0 ¬ CATEG_FLAGS ¬ PREP ¬ PATO ¬ ARTI AND 0 ¬ CADENA_TOTAL ¬ en AND Regla contextual 1 ¬ CATEG_TOTAL ¬ NPRO INI_ACCI_SI 0 ¬ CATEG_TOTAL ¬ ARTI 1 ¬ IR_A ¬ NO_MAS_REGLAS INI_ACCI_NO 0 ¬ IR_A ¬ SIGUIENTE FIN_REGLA Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 55 Sintaxis, agrupación prosódica y melodía [La situación de los refugiados] [clamaba al cielo]
[Si trae bombones] [dadle las gracias]
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 56 Sintaxis, agrupación prosódica y melodía
Sinceramente, no sé qué hay que hacer Desafortunadamente, no sé qué hay que hacer
Efectos en la melodía
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 57 Sintaxis, agrupación prosódica y melodía: alcance de los adverbios
“Francamente, de Marcos no sé nada” Joaquim Llisterri, Carme Carbó, María Jesús Machuca, Carme de la Mota, Montserrat Riera y Antonio Ríos (2004) La conversión de texto en habla: aspectos lingüísticos en Martí, M. A. - Llisterri, J. (eds.) Tecnologías del texto y del habla. Barcelona, Edicions de la Universitat de Barcelona - Fundación Duques de Soria: 145-186. Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 58 Sintaxis, agrupación prosódica y melodía: alcance de los adverbios
“Afortunadamente, de Marcos no sé nada”
Joaquim Llisterri, Carme Carbó, María Jesús Machuca, Carme de la Mota, Montserrat Riera y Antonio Ríos (2004) La conversión de texto en habla: aspectos lingüísticos en Martí, M. A. - Llisterri, J. (eds.) Tecnologías del texto y del habla. Barcelona, Edicions de la Universitat de Barcelona - Fundación Duques de Soria: 145-186. Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 59 Sintaxis, agrupación prosódica y melodía: sujeto vs. complemento
El sintagma nominal los números terminados en 3 realiza la función de sujeto Joaquim Llisterri, Carme Carbó, María Jesús Machuca, Carme de la Mota, Montserrat Riera y Antonio Ríos (2004) La conversión de texto en habla: aspectos lingüísticos en Martí, M. A. - Llisterri, J. (eds.) Tecnologías del texto y del habla. Barcelona, Edicions de la Universitat de Barcelona - Fundación Duques de Soria: 145-186. Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 60 Sintaxis, agrupación prosódica y melodía: sujeto vs. complemento
El sintagma nominal los números terminados en 3 realiza la función de complemento directo Joaquim Llisterri, Carme Carbó, María Jesús Machuca, Carme de la Mota, Montserrat Riera y Antonio Ríos (2004) La conversión de texto en habla: aspectos lingüísticos en Martí, M. A. - Llisterri, J. (eds.) Tecnologías del texto y del habla. Barcelona, Edicions de la Universitat de Barcelona - Fundación Duques de Soria: 145-186. Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 61 Estructura informativa y prosodia
Realce por foco contrastivo, estrecho
La NIÑA de Vigo barre la nave gallega
C. de-la-Mota (1995) la representación gramatical de la información nueva en el discurso, Tesis doctoral, UAB, p. 215 http://www.tesisenxarxa.net/TDX/TDX_UAB/TESIS/AVAILABLE/TDX-0331108-112911
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 62 Estructura informativa y prosodia
Realce por foco contrastivo, estrecho. Acento y melodía
La NIÑA de Vigo barre la nave gallega C. de-la-Mota (1995) la representación gramatical de la información nueva en el discurso, Tesis doctoral, UAB, p. 215 http://www.tesisenxarxa.net/TDX/TDX_UAB/TESIS/AVAILABLE/TDX-0331108-112911 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 63 Estructura informativa y prosodia
Oscilogramas y curvas de intensidad correspondientes al enunciado “Marcos robó el dinero” sin realce fonológico en el sujeto (a) y con realce en él (b)
J. Llisterri, C. Carbó, M. J. Machuca, C. de-la-Mota, M. Riera, A. Ríos (2003) "El papel de la lingüística en el desarrollo de las tecnologías del habla“, en M. Casas Gómez (dir.) y C. Varo Varo (ed.) VII Jornadas de Lingüística. Cádiz: Universidad de Cádiz. ISBN: 84-88423-30-6: 137-191 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 64 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 65 3. Información fonética: transcripción
Silabificación Localización del acento Transcripción fonética (palabra) Resilabificación Transcripción fonética (secuencias)
Prosodia - Transcripción
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 66 Información fonética: transcripción
Conversión grafema-alófono (letter-to-sound). Sistemas estandarizados ¿AFI, Alfabeto Fonético Internacional? SAMPA, Speech Assessment Methods Phonetic Alphabet X-SAMPA, Extended SAMPA
y su adaptación al español ka’Dena
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 67 Ejemplo: SEGRE, transcriptor automático para el catalán central Transcriptor desarrollado para el CREL, Centre de Referència en Enginyeria Lingüística, Generalitat de Catalunya
“veu i imatge substitueixen l'escriptura en l'univers juvenil.” b ` E | w i | m ` a d | Z @ | s u p s | t i | t u | ` E | S @ n | l @ s | k r i p | t ` u | r @ n | l u | n i | B ` E rr | Z u | B @ | n ` i l
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 68 Ejemplo: SEGRE, transcriptor automático para el catalán central
Carme de-la-Mota, y Montserrat Riera (2000) El transcriptor automàtic Segre, Jornades del Centre de Referència en Enginyeria Lingüística, CREL. Generalitat de Catalunya. http://liceu.uab.es/~joaquim/publicacions/SFI_UAB_Transcriptor.pdf
P. Pachès, C. de-la-Mota, M. Riera, M. P. Perea, A. Febrer, M. Estruch, J. M. Garrido, M. J. Machuca, A. Ríos, J. Llisterri, I. Esquerra, J. Hernando, J. Padrell, C. Nadeu, “Segre: An Automatic Tool for Grapheme-to-Allophone Transcription in Catalan”, en D. Ó Cróinín (ed.) Proceedings of the Workshop on Developing Language Resources for Minority Languages: Reusability and Strategic Priorities (LREC-2000 Second International Conference on Language Resources and Evaluation), 29 de mayo-3 de junio de 2000, Atenas (Grecia), http://liceu.uab.es/~joaquim/publicacions/Paches_et_al_00_SEGRE_P honetic_Transcription_Catalan.pdf Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 69 Ejemplo: SEGRE, transcriptor automático para el catalán
Catalán central: Carme de-la-Mota, y Montserrat Riera (2000) El transcriptor automàtic Segre, Jornades del Centre de Referència en Enginyeria Lingüística, CREL. Generalitat de Catalunya. http://liceu.uab.es/~joaquim/publicacions/SFI_UAB_Transcriptor. pdf
P. Pachès, C. de-la-Mota, M. Riera, M. P. Perea, A. Febrer, M. Estruch, J. M. Garrido, M. J. Machuca, A. Ríos, J. Llisterri, I. Esquerra, J. Hernando, J. Padrell, C. Nadeu, “Segre: An Automatic Tool for Grapheme-to-Allophone Transcription in Catalan”, en D. Ó Cróinín (ed.) Proceedings of the Workshop on Developing Language Resources for Minority Languages: Reusability and Strategic Priorities (LREC-2000 Second International Conference on Language Resources and Evaluation), 29 de mayo-3 de junio de 2000, Atenas (Grecia), http://liceu.uab.es/~joaquim/publicacions/Paches_et_al_00_SEG RE_Phonetic_Transcription_Catalan.pdf Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 70 Ejemplo: transcripción fonética, Loquendo Análisis de dos ejemplos del catalán Informe técnico restringido (UAB) <ç> <Ç>
La grafía <ç> se pronuncia por defecto como [s] excepto:
a)<ç> se pronuncia como [z] si aparece seguida de
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 71 Ejemplo: transcripción fonética, Loquendo Análisis de dos ejemplos del catalán Informe técnico restringido (UAB)
Deben transcribirse mediante [`E] las palabras en que
Excepto: Deben transcribirse con [`e] las palabras de la lista “excepciones_essa”. Ej.: essa, cessis.
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 72 Loquendo: aspectos lingüísticos
J. Llisterri, M. Machuca, N. Madrigal, F. Manzini, P. Massimino, C. de-la-Mota, M. Riera, A. Ríos (2004), "Aspectos lingüísticos en el diseño de un conversor de texto en habla en castellano y en catalán: el sistema Loquendo TTS®" , VI Congreso de Lingüística General. Universidade de Santiago de Compostela, Santiago. 3-7 de mayo de 2004. Universidade de Santiago de Compostela, Facultade de Filoloxía, Área de Lingüística Xeral. http://liceu.uab.es/~joaquim/publicacions/Llisterri_et_al_04_Convers or_Texto_Habla_Castellano_Catalan_Loquendo.pdf
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 73 Nombres propios y extranjerismos
¿Qué pronunciación proponer? ¿Con qué criterios? México Washington Pablo César Wanchope Bojan Krkić Pérez Generalitat Estruch xarel·lo
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 74 Excepciones a las reglas de transcripción fonética ¿Cómo dar cuenta de los siguientes extranjerismos del castellano? Affaire Backup Carpaccio Copyright Hacker Jacuzzi Mousse Piercing
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 75 Transcripción fonética: otros métodos
ACRÓNIMOS
corpus de algoritmo codificación entrenamiento
aprende generaliza
Carlos Monzo, Francesc Alías, Jose Antonio Morán y Xavier Gonzalvo (2006), “Transcripción fonética de acrónimos en castellano utilizando el algoritmo C4.5”, Procesamiento del lenguaje natural, 37: 275-284. http://www.sepln.org/revistaSEPLN/revista/37/34.pdf Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 76 Transcriptor fonético automático Xavier López Morràs (2004), UB
http://www.aucel.com/pln/transbase.html Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 77 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 78 4. Modelado prosódico
Contorno de f0: entonación Determinación de unidades prosódicas: colocación de inflexiones y pausas Ajustes de duración (junturas…)
Inteligibilidad Naturalidad Expresividad Emoción
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 79 Modelos entonativos lingüísticos empleados en la síntesis de habla
ToBI, Tone and Break Indices). Base fonológica: secuencia de tonos y junturas. Español: http://prosodia.uab.cat/sp_tobi/en/ INTSINT. Cuatro niveles: acústico, fonético, fonológico superficial y fonológico profundo. Mertens: secuencia de tonos asociados a las sílabas. Cuatro niveles tonales básicos, dos clases de acentos y tres dominios prosódicos. Grønnum. Modelo de superposición con los niveles: texto, oración, grupos acentuales, sílaba e información microprosódica. IPO. Relación entre fenómenos de ámbito global y local. Fujisaki y colaboradores: modelo cuantitativo de superposición basado en la fisiología. Tilt, datos acústicos e interpolación mediante rectas.
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 80 B. Generación de habla sintética
Procesado de la señal Obtención de la nueva onda sonora
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 81 B. Generación de habla sintética
Síntesis Articulatoria: semejanza con la disposición de los articuladores. Calidad alta. Dificultad alta. Por formantes: modelan el tracto vocal basándose en la teoría de la fuente y el filtro. Por LPC: análisis de señal y síntesis a partir del cálculo LPC. Por concatenación de unidades: se parte de fragmentos de habla natural grabados por un locutor. Calidad alta.
El sintetizador se parece al locutor
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 82 B. Generación de habla sintética
Síntesis por concatenación
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 83 Generación de habla sintética
Grabación de habla natural
Extracción de fragmentos
Concatenación de unidades
Prosodia
Reajustes finales
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 84 Obtención de voz natural
Una voz. Selección del locutor de referencia:
Variante lingüística
Calidad sonora de la voz
Capacidad lectora e interpretativa
Plasticidad fonética en otras lenguas Grabación del corpus para obtener las unidades: gran base de datos Segmentación, etiquetado y almacenamiento del corpus
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 85 Información fonética: determinación de unidades ¿Todos los alófonos presentes en una transcripción estrecha? ¿Cuál es el modelo de pronunciación? ¿Resulta económico el inventario? ¿Solo los alófonos propios de la lengua? ¿Cómo pronunciar extranjerismos? ¿Qué hacer en caso de lenguas en contacto?
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 86 Corpus
Elaboración de un corpus para obtener señal Grabación
Corpus de unidades para la síntesis
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 87 Tipos de unidades
Tramas Alófonos Difonemas Trifonemas Cuatrifonemas Semisílabas Sílabas Morfemas Palabras Frases enteras Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 88 Tipos de unidades: tramas
Tramas Alófonos Difonemas Fragmentos con estabilidad acústica: Trifonemas transiciones Cuatrifonemas partes estables Semisílabas Sílabas Morfemas Palabras Frases enteras
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 89 Tipos de unidades: alófonos
[o] Tramas Alófonos Difonemas Trifonemas Cuatrifonemas Semisílabas Sílabas Morfemas Palabras Frases enteras
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 90 Tipos de unidades: difonemas
silencio [o] + [ol] + [la] + [a] silencio Tramas [ola] Alófonos Difonemas Trifonemas Cuatrifonemas Semisílabas Sílabas Morfemas Palabras Frases enteras
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 91 Tipos de unidades: pueden ser de longitud variable [o] [ka] [‘komo’Bamos] Selección en función de las necesidades del texto
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 92 Variación
http://www.research.att.com/projects/Natural_Voices/index.html
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 93 Concatenación de unidades
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 94 Ajustes
Parámetros acústicos…
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 95 Información prosódica
Modelos predictivos: Estadísticos Lingüísticos
dependen del locutor grabado
creación de un modelo específico
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 96 Obtención de nuevas voces
Grabación de nuevos hablantes o Modificación de parámetros a partir de voces existentes
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 97 La conversión de texto en habla
1. De los inicios a la actualidad 2. La estructura de un conversor 3. Las mejoras pendientes 4. Las aplicaciones
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 98 Evaluación de sistemas de CTH
¿Cómo está funcionando el sistema? Pruebas objetivas Pruebas subjetivas
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 99 Evaluación de sistemas de CTH
Pruebas objetivas Selección de formas de distintos tipos en varios contextos Ejemplos:
El teléfono ___ no está en la guía.
La fracción ___ es el resultado de la operación.
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 100 Evaluación de sistemas de CTH
Pruebas subjetivas Evaluación de la calidad, la inteligibilidad y la naturalidad de la voz Selección de textos de extensión controlada y temática equilibrada Selección de sujetos que escucharán la voz Encuestas
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 101 Logros actuales consolidados
Inteligibilidad muy alta Sistemas en varias lenguas (multilingües) y dialectos Sistemas con varias voces (multilocutor)
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 102 En desarrollo
Entrada de texto no formal: SMS, chat… Mayor naturalidad Variación: variantes sociales, estilos… Adecuación a la situación comunicativa Mayor expresividad, emociones, matices Adecuación al usuario: niños, ancianos… Salida multimodal, multimedia
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 103 Emociones
Murray y Arnott, 1993 (Trad. en Iriondo 2008: 15)
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 104 Emociones
Juslin y Laukka, 2003 (Trad. en Iriondo 2008: 18)
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 105 Algunos ejemplos más de conversores accesibles en Internet…
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 106 Cereproc, Barcelona Media
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 107 Cotovía
Cotovia.mp3
http://www.gts.tsc.uvigo.es/cotovia/ Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 108 Festival
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 109 Festival
http://www.cs.cmu.edu/~awb/festival_demos/general.html
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 110 Festival
http://www.cs.cmu.edu/~awb/festival_demos/general.html
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 111 Festival (CSLU)
http://cslu.cse.ogi.edu/tts/demos Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 112 IBM
http://www.research.ibm.com/tts/coredemo.shtml Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 113 Proyecto MBROLA
http://tcts.fpms.ac.be/synthesis/mbrola.html
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 114 Verbio
http://http://www.verbio.com/webverbio3/html/demos_ttsonline.php
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 115 RealSpeak, Nuance
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 116 Voces en Google Síntesis basada en Modelos ocultos de Markov (HTS Project)
http://homepages.inf.ed.ac.uk/jyamagis/Demo-html/map-new.html http://hts.sp.nitech.ac.jp/ Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 117 La conversión de texto en habla
1. De los inicios a la actualidad 2. La estructura de un conversor 3. Las mejoras pendientes 4. Las aplicaciones
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 118 Aplicaciones
Discapacidades o necesidades especiales Asistentes interactivos Domótica Intervención en otros sistemas de tecnología del habla (como los sistemas de diálogo) …
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 119 Umanify, Loquendo: ICEX
http://www.icex.es/icex/cda/views_icexv3/asistenteVoz/asistenteVoz/0,6457,,00.html
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 120 En definitiva…
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 121 Stephen Hawking Campus Party speech (2006)
http://www.youtube.com/watch?v=ayf2h1jFoUg Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 122