Trabajo Final De Carrera : Compiladores
Total Page:16
File Type:pdf, Size:1020Kb
Trabajo Final de Carrera - Compiladores Enrique Marquet Durán Ingeniería en Informática Gerard Enrique Manonellas 09/01/2015 Resumen del proyecto El objetivo de este proyecto final de carrera es el estudio del formato ODF (OpenDocument Format), para permitirnos la extracción de texto con la finalidad de transformarlo en texto hablado y guardar el resultado en un archivo de audio. De los diferentes tipos de documentos que utilizan este estándar ODF nos centraremos en los de tipo texto, que tienen extensión odt. Para poder realizar una pequeña aplicación que cumpliera con el objetivo del proyecto se ha tenido que realizar un estudio de las diferentes tecnologías involucradas en esta cruzada. La primera de las tecnologías que hemos estudiado ha sido el formato del XML y las herramientas que hay para su validación, centrándonos en las DTD. Hay que tener en cuenta que la arquitectura de los archivos OpenDocument está basada en XML, ya que se trata de un archivo comprimido (tipo ZIP) formado por diversos ficheros con este formato, como se verá en el apartado de estudio correspondiente. Después también se ha realizado un estudio de los diferentes formatos de audio existentes en el mercado, no ha sido un estudio muy técnico, si no que se ha centrado más en ver qué se podía encontrar actualmente y qué diferencias existen entre ellos, para después poder utilizar un formato en la aplicación que se realizaría. Por último se ha estudiado la tecnología Text-To-Speech (conversión de texto-voz), que está muy ligada a la lingüística. En este apartado se ha visto las diferentes posibilidades que hay para realizar el proceso de conversión, así como las diferentes herramientas que hay en el mercado que lo realizan, también se buscaron librerías que permitieran realizar este proceso para introducirlo en nuestra aplicación resultante del estudio. La pequeña aplicación realizada en este proyecto final de carrera se ha nutrido de la información obtenida durante la fase de estudio de estos conceptos y tecnologías. INDICE DE CONTENIDOS Resumen del proyecto.................................................................................................................2 INDICE DE CONTENIDOS......................................................................................................3 INDICE DE FIGURAS...............................................................................................................5 Capítulo 1: Introducción............................................................................................................6 1.1 Justificación del PFC y contexto en el que se desarrolla: punto de partida y aportación del PFC...................................................................................................................................6 1.2 Objetivos del TFC...........................................................................................................7 1.3 Enfoque y método seguido..............................................................................................7 1.4 Planificación del proyecto...............................................................................................8 1.4.1 Planificación temporal.............................................................................................9 1.4.2 Descripción de las actividades...............................................................................10 1.5 Análisis de riesgos.........................................................................................................12 1.5.1 Riesgo de problemas relacionados con la investigación........................................12 1.5.2 Riesgo de problemas relacionados con la tecnología............................................12 1.5.3 Riesgo de problemas con los juegos de pruebas....................................................13 1.5.4 Riesgo derivado del no acceso a Internet..............................................................13 1.6 Productos obtenidos.....................................................................................................13 1.7 Breve descripción de los otros capítulos de la memoria...............................................14 Capítulo 2: Estudio del formato XML.....................................................................................15 2.1 Definición y objetivos...................................................................................................15 2.2 Breve historia................................................................................................................15 2.3 Características de un documento XML.........................................................................15 2.3.1 Estructura del formato XML.................................................................................16 2.3.2 Sintaxis de un documento XML............................................................................17 2.4 Validación de un documento XML................................................................................19 2.4.1 Características de una DTD...................................................................................20 2.4.2 Ventajas e inconvenientes de las DTDs.................................................................24 Capítulo 3: Estudio formato OpenOffice (ODF).....................................................................25 3.1 Breve historia de OpenOffice........................................................................................25 3.2 Introducción...................................................................................................................26 3.3 Arquitectura OpenDocument.........................................................................................26 3.3.1 Fichero content.xml...............................................................................................27 3.3.2 Fichero styles.xml..................................................................................................30 3.3.3 Fichero meta.xml...................................................................................................30 3.3.4 Fichero settings.xml...............................................................................................31 3.3.5 Fichero mimetype.xml...........................................................................................31 3.3.6 Carpeta pictures.....................................................................................................31 3.4 Tipos de documentos soportados...................................................................................31 3.5 Librerías de soporte al formato.....................................................................................32 3.5.1 Apache ODF Toolkit (incubating).........................................................................33 Capítulo 4: Formatos de audio libre.........................................................................................37 4.1 Introducción...................................................................................................................37 4.2 Tipos de formatos..........................................................................................................37 4.2.1 Matroska................................................................................................................38 4.2.2 Ogg........................................................................................................................40 4.2.3 Vorbis.....................................................................................................................42 4.2.4 FLAC (Free Lossless Audio Codec)......................................................................43 4.2.5 Formato AU (.au)...................................................................................................44 4.2.6 Formato AIFF........................................................................................................44 4.3 Librerías de desarrollo...................................................................................................45 Capítulo 5: Estudio de Text-To-Speech...................................................................................47 5.1 Introducción...................................................................................................................47 5.2 Voz sintética (Síntesis de habla)....................................................................................48 5.2.1 Problemas de la voz sintética.................................................................................48 5.3 ¿Cómo funciona esta tecnología?..................................................................................48 5.3.1 Desafíos del cliente (front-end).............................................................................49 5.4 Breve historia................................................................................................................50 5.5 Tecnologías de síntesis..................................................................................................51 5.6 Posibles aplicaciones de los sistemas TTS....................................................................51 5.7 Aplicaciones TTS..........................................................................................................52 5.7.1 Documentos...........................................................................................................53 5.7.2 Navegadores..........................................................................................................54