“Nettalk En Español”

1 Universidad Autónoma Metropolitana I ztapalapa Ciencias Básicas e Ingeniería Licenciatura en Computación 99321701. Molina Villegas Alejandro 201320439. García Arias Néstor Hugo 202212079. Nuñez Reyna José Ismael “NETtalk en español” Marzo 2006 2 Índice INTRODUCCIÓN. .................................................................................................................................. 4 CAPITULO I. Redes Neuronales aplicadas a la clasificación de fonemas ................................... 5 1. Redes Neuronales Artificiales ................................................................................................................. 5 1.1 La máquina de Turing y la fisiología de lo computable. .......................................................... 5 1.2 Elementos de una Red Neuronal Artificial. ............................................................................. 6 1.3 Clasificación de las RNA. ........................................................................................................ 7 1.4 Las redes como reconocedores de patrones. .......................................................................... 10 2. Conexionismo y procesamiento del lenguaje natural ............................................................................ 11 2.1 Expresiones fonéticas y Caracterización articulatoria. ........................................................... 12 2.2 Unidades de representación. ................................................................................................... 13 2.3 El Alfabeto Fonético Internacional (AFI) y el SAMPA. ........................................................ 15 2.4 Sistemas TTS. ......................................................................................................................... 17 3. NETtalk .................................................................................................................................................. 24 3.1 Representación y Estructura de la red NETtalk. ..................................................................... 25 3.2 Metodología. ........................................................................................................................... 27 3.3 Implementación de la red neuronal de NETTalk en español. ................................................. 29 3.4 Descripción de la codificación del programa. ......................................................................... 31 CAPITULO II. Árboles de Decisión aplicados a la clasificación de fonemas .................................... 48 1. ¿Qué son los árboles de decisión? ........................................................................................................ 48 2. Algoritmo básico de aprendizaje de los árboles de decisión. ............................................................... 49 2.1 Entropía. .................................................................................................................................. 49 3. Reglas de poda. ..................................................................................................................................... 50 3.1 Poda por estimación del error. ............................................................................................... 51 3.2 Poda por coste-complejidad. .................................................................................................. 51 3.3 Poda pesimista. ....................................................................................................................... 52 4. Sobreajuste con los datos de entrenamiento. ....................................................................................... 52 5. Implementación de un árbol de decisión para Nettalk. ......................................................................... 53 5.1 Descripción general del problema. ........................................................................................ 53 5.2 Descripción del programa. ..................................................................................................... 56 CAPITULO III. Redes Recurrentes ...................................................................................................... 64 1. La red neuronal recurrente de Elman. ................................................................................................... 64 2. Creación de una red recurrente simple con SNNS. ............................................................................... 65 2.1 Una arquitectura propuesta. ................................................................................................... 66 2.2 Estructura de la red recurrente. .............................................................................................. 68 2.3 Inicialización de los pesos con la función JE_Weights. ........................................................ 69 2.4 Función de aprendizaje. ......................................................................................................... 70 2.5 Función de actualización de pesos JE_Order. ....................................................................... 70 2.6 Función de inicialización de pesos. ....................................................................................... 70 3. Archivo de patterns SNNS. ………………………………………………………………………….. 70 4. Archivo de resultados del entrenamiento del SNNS. ........................................................................... 71 3 CAPITULO IV. Asignación de valores a los parámetros de entonación ........................................... 73 1. Explicación de la implementación de la red neuronal para asignar los parámetros de duración y pitch. ..................................................................................................................................................................... 73 2. Explicación de la implementación con árboles de decisión para asignar los parámetros de duración y pitch. ........................................................................................................................................................... 74 2.1 Descripción del programa. ..................................................................................................... 75 CAPITULO V. Resultados ...................................................................................................................... 81 1. Resultados de la implementación del perceptron multicapa para clasificación de fonemas. ....... 81 2. Resultados de la implementación del Perceptrón multicapa para asignación de valores a los parámetros de entonación. ............................................................................................................ 90 3. Resultados de la implementación con árboles de decisión para la clasificación de fonemas. ..... 91 4. Resultados de la implementación con árboles de decisión para la asignación de parámetros de entonación. .................................................................................................................................. 104 5. Resultados de la implementación con redes recurrentes para clasificación de fonemas. ........... 106 CONCLUSIONES. ................................................................................................................................. 111 ANEXOS ................................................................................................................................................. 113 A. Stuttgart-Java NNS ............................................................................................................................. 113 B. MBROLA ........................................................................................................................................... 116 C. CRUISE .............................................................................................................................................. 121 D. El Stuttgart Neural Network Simulator SNNS ................................................................................... 128 REFERENCIAS .................................................................................................................................... 143 4 Introducción: El presente trabajo describe detalladamente la implementación de diversas versiones de NETtalk aplicado al español. En una primera aproximación el objetivo principal consistió en reproducir el experimeno de Terrence Sejnowski y Charles Rosenberg efectuado en 1986 y descrito en NETtalk: A Parallel Network that Learns to Read Aloud1, para lo cual se utilizó una arquitectura de perceptrón multicapa cuyas entradas representan ventanas que incluyen el contexto de un fonema y cuyas salidas representan una clase fonémica. Dicho perceptrón, con ayuda de otros modulos auxiliares, estan implementados en un proyecto JAVA; de tal manera que siguiendo el procesamiento adecuadamente, es posible comenzar con un texto arbitrario y terminar con la lectura de algún otro texto en el sintetizador MBROLA. La segunda aproximación consiste en la utilización de árboles de desición para la clasificación de fonemas, dichos árboles son entrenados y podados por el programa CRUISE y posteriormente transformados en una clase JAVA que representa el árbol que clasifica de manera óptima cualquier texto previamente procesado para ese fin. Al igual que en el caso anterior, es posible comenzar con un texto arbitrario y terminar con la lectura de algún otro texto. También se utiliza la idea de ventanas. Posteriormente,

“Nettalk En Español”

THE DEVELOPMENT of ACCENTED ENGLISH SYNTHETIC VOICES By

Commercial Tools in Speech Synthesis Technology

Estudios De I+D+I

UN SYNTHÉTISEUR DE LA VOIX CHANTÉE BASÉ SUR MBROLA POUR LE MANDARIN Liu Ning

Espeak : Speech Synthesis

Fully Generated Scripted Dialogue for Embodied Agents

Design and Implementation of Text to Speech Conversion for Visually Impaired People

Feasibility Study on a Text-To-Speech Synthesizer for Embedded Systems

A Tooi to Support Speech and Non-Speech Audio Feedback Generation in Audio Interfaces

Voice Synthesizer Application Android

Assisting the Speech Impaired People Using Text-To-Speech Synthesis 1Ledisi G

Towards Expressive Speech Synthesis in English on a Robotic Platform