Adquisición Y Representación Del Conocimiento Mediante Procesamiento Del Lenguaje Natural

TESIS DOCTORAL CON MENCIÓN INTERNACIONAL Adquisición y representación del conocimiento mediante procesamiento del lenguaje natural Doctorando: Milagros FERNÁNDEZ GAVILANES Directores: Dr. Manuel VILARES FERRO Dr. Éric VILLEMONTE DE LA CLERGERIE A Coruña, Octubre 2012 TESIS DOCTORAL: Adquisición y representación del conocimiento mediante procesamiento del lenguaje natural AUTOR: Milagros Fernández Gavilanes DIRECTORES: Dr. Manuel Vilares Ferro Dr. Éric Villemonte de la Clergerie TUTOR: Dr.MiguelÁngelAlonsoPardo FECHA: 9deOctubrede2012 TRIBUNAL: PRESIDENTE: VOCAL 1O : VOCAL 2O : VOCAL 3O : SECRETARIO: CALIFICACIÓN: Agradecimientos Es difícil entender la importancia de los agradecimientos de una tesis doctoral hasta queuna no la finaliza. En ese momentoes cuando te das cuenta de lo mucho que tienes que agradecer. Seguramente que cuando termine de escribirlos me falten muchos nombres, pero todos los que aquí aparecen tienen un hueco merecido. Es difícil resumir la gratitud que siento hacia las personas que han estado presentes en esta etapa. Sin el apoyo, tanto profesional como personal de los que aquí aparecen, este trabajo no hubiese llegado a ser realidad. Podría retocar estas líneas millones de veces, pero el significado final seguiría siendo el mismo. Sea como sea, simplemente gracias. Especial reconocimiento merecen las dos personas sin las cuales esta tesis no hubiese tenido razón de ser. Éstos son mis directores. Al Dr. Manuel Vilares, tengo que agradecerle que me haya abierto las puertas de su grupo, dándome la oportunidad de tener una visión más amplia del mundo de la investigación. Pero sobre todo darle las gracias por su paciencia infinita y por sus sabios consejos, que aunque crea que no, siempre están presentes. Al Dr. Éric Villemonte de la Clergerie, gracias por permitirme realizar esa primera estancia. Ahí empezó todo. Luego vendrían más. Nunca olvidaré el recibimiento por parte de los integrantes del que en otros tiempos fue el grupo ATOLL, ya hoy grupo ALPAGE. Todos ellos de algún modo han puesto su granito de arena. A ambos tengo que agradecerles todo lo que he aprendido en este proceso, pero sobre todo el apoyo recibido a lo largo de estos años. El ambiente de trabajo en el cual se ha desarrollado esta tesis es responsabilidad de mis compañeros de laboratorio del grupo COLE. Gracias a todos ellos, a los que han estado desde el principio (Víctor y Fran), a los que pasaron por aquí (Juan, Moli, Sara, Erica, Nieves, Vanesa, Gonzalo, Cristina y Josefina) y, también a los que han ido llegando a lo largo de estos años (Daniel, Santi y Adrián). Concretamente, un agradecimiento muy especial a Adrián por ayudarme en la etapa final de pruebas. Sin él aún no hubiese terminado ;-) . I Gracias también a todos los integrantes del grupo LYS, por recibirme con los brazos abiertos, en especial a Miguel, Jesús y Jorge. En esa etapa de docencia, nunca me pusieron ningún inconveniente en lo que a horario se refiere y es de agradecer. A Margarita le debo la preocupación, siempre ha estado pendiente de saber como lo llevaba. Y a Carlos, algún día el 3D llegará a estos grafos. A mis padres Julia y Eladio, qué decirles. No tengo palabras. Ellos son los responsables de lo que soy. Gracias por no haberme detenido nunca en el ansia por estudiar, aprender y trabajar en aquéllo que me gusta. Gracias por animarme siempre a seguir adelante y aguantar, con infinita paciencia, mis continuos cambios de humor durante este tiempo. Gracias por estar siempre ahí. A David, mil gracias por haberme hecho la vida más fácil, estando a mi lado, en los buenos y malos momentos, animándome siempre a continuar. Le doy las gracias por todos los esfuerzos que ha hecho, por haberme hecho creer cada día que podía hacerlo, por toda su ayuda, aunque a veces no entendiese nada. Pero principalmente, gracias por hacerme feliz. Y una lista infinita de nombres: a toda mi familia, del primero al último, que siempre se han preocupado de alguna u otra manera por saber como estaba. A las personas que, aunque no aparecen aquí con nombres y apellidos, han estado presentes de alguna forma durante el desarrollo de este trabajo y han hecho posible que hoy vea la luz. A todos, mi eterno agradecimiento. II Resumen corto Este trabajo introduce un marco para la recuperación de información combinando el procesamiento del lenguaje natural y conocimiento de un dominio, abordando la totalidad del proceso de creación, gestión e interrogación de una colección documental. La perspectiva empleada integra automáticamente conocimiento lingüístico en un modelo formal de representación semántica, directamente manejable por el sistema. Ello permite la construcción de algoritmos que simplifican las tareas de mantenimiento, proporcionan un acceso más flexible al usuario no especializado, y eliminan componentes subjetivas que lleven a comportamientos difícilmente predecibles. La adquisición de conocimientos lingüísticos parte de un análisis de dependencias basado en un formalismo gramatical suavemente dependiente del contexto. Conjugamos de este modo eficacia computacional y potencia expresiva. La interpretación formal de la semántica descansa en la noción de grafo conceptual, sirviendo de base para la representación de la colección y para las consultas que la interrogan. En este contexto, la propuesta resuelve la generación automática de estas representaciones a partir del conocimiento lingüístico adquirido de los textos y constituyen el punto de partida para su indexación. Luego, se utilizan operaciones sobre grafos así como el principio de proyección y generalización para calcular y ordenar las respuestas, de tal manera que se considere la imprecisión intrínseca y el carácter incompleto de la recuperación. Además, el aspecto visual de los grafos permiten la construcción de interfaces de usuario amigables, conciliando precisión e intuición en su gestión. En este punto, la propuesta también engloba un marco de pruebas formales. I Resumo curto Este traballo introduce un marco para a recuperación de información combinando procesamento da linguaxe natural e o coñecemento dun dominio, abordando a totalidade do proceso de creación, xestión e interrogación dunha colección documental. A perspectiva empregada integra automáticamente coñecementos lingüísticos nun modelo formal de representación semántica, directamente manexable polo sistema. Isto permite a construción de algoritmos que simplifican as tarefas de mantemento, proporcionan un acceso máis flexible ao usuario non especializado, e eliminan compoñentes subxectivos que levan a comportamentos difícilmente predicibles. A adquisición de coñecementos lingüísticos parte duhna análise de dependencias basada nun formalismo gramatical suavemente dependente do contexto. Conxugamos deste modo eficacia computacional e potencia expresiva. A interpretación formal da semántica descansa na noción de grafo conceptual, servindo de base para a representación da colección e para as consultas que a interrogan. Neste contexto, a proposta resolve a xeración automática destas representacións a partires do coñecemento lingüístico adquirido dos textos e constitúe o punto de partida para a súa indexación. Logo, empréganse operacións sobre grafos así como o principio de proxección e xeneralización para calcular e ordenar as respostas, de tal maneira que se considere a imprecisión intrínseca e o carácter incompleto da recuperación. Ademáis, o aspecto visual dos grafos permiten a construción de interfaces de usuario amigables, conciliando precisión e intuición na súa xestión. Neste punto, a proposta tamén engloba un marco de probas formais. III Short abstract This thesis introduces a framework for information retrieval combining natural language processing and a domain knowledge, dealing with the whole process of creation, management and interrogation of a documental collection. The perspective used integrates automatically linguistic knowledge in a formal model of semantic representation directly manageable by the system. This allows the construction of algorithms that simplify maintenance tasks, provide more flexible access to non-specialist user, and eliminate subjective components that lead to hardly predictable behavior. The linguistic knowledge adquisition starts from a dependency parse based on a midly context-sensitive grammatical formalism. In this way, we combine computational efficiency and expressive power. The formal interpretation of the semantics is based on the notion of conceptual graph, providing a basis for the representation of the collection and for queries that interrogate. In this context, the proposal addresses the automatic generation of these representations from linguistic knowledge acquired from texts and constitute the starting point for indexing. Then operations on graphs are used and the principle of projection and generalization to calculate and manage replies, so that is considered the inherent inaccuracy and incompleteness of the recovery. In addition, the visual aspect of graphs allow the construction of user-friendly interfaces, balancing precision and intuition in management. At this point, the proposal also includes a framework for formal testing. V Índice general I Preliminares 1 1. Introducción 3 1.1. Contribucióndelapropuesta . .. 6 1.1.1. Desarrollo del marco de RI ..................... 6 1.1.2. Evaluación del marco de RI .................... 8 1.2. Ámbitodelatesis.............................. 9 2. Estado del arte 13 2.1. Indexaciónsemántica . 14 2.2. Estrategiadeordenación . 18 2.3. Evaluaciónde la recuperación de la información . .......

Load more