Propositional Knowledge: Acquisition and Application to Syntactic and Semantic Parsing
Total Page:16
File Type:pdf, Size:1020Kb
Thesis for the Degree of Doctor of Philosophy 2017 Propositional Knowledge: Acquisition and Application to Syntactic and Semantic Parsing Bernardo Cabaleiro Barciela University Master's Degree in Languages and Computer Systems (National Distance Education University) Doctoral Programme in Intelligent Systems Academic advisor: Anselmo Peñas Padilla Associate Professor in the Languages and Computer Systems Department (National Distance Education University) Thesis for the Degree of Doctor of Philosophy 2017 Propositional Knowledge: Acquisition and Application to Syntactic and Semantic Parsing Bernardo Cabaleiro Barciela University Master's Degree in Languages and Computer Systems (National Distance Education University) Doctoral Programme in Intelligent Systems Academic advisor: Anselmo Peñas Padilla Associate Professor in the Languages and Computer Systems Department (National Distance Education University) A mi familia Acknowledgements Esta tesis pone punto final a mis estudios de doctorado, y, a la vez, supone el fin de una bonita etapa de mi vida. A lo largo de este tiempo me han acompañado muchas personas que han hecho que esta experiencia sea inolvidable. Estas líneas son para intentar agradecerles todo lo que han hecho por mí. En primer lugar, me gustaría mostrar mi agradecimiento a Anselmo Peñas por su dirección tanto del trabajo de fin de máster como de esta tesis doctoral. Durante todo este tiempo Anselmo ha puesto mucho empeño para formarme, no sólo en el campo del PLN sino también como investigador. Quiero agradecerle la libertad que me ha dado para trabajar en lo que me interesaba, y el especial cuidado que ha puesto en corregir y mejorar esos trabajos. Me gustaría dar las gracias también a mis compañeros en el departamento de lenguajes y sistemas, tanto a estuvieron como a los que están. Con ellos he aprendido mucho de procesamiento de lenguaje, de aprendizaje automático y de ciencia en general, pero lo más importante es que su amistad me ha ayudado a disfrutar (y soportar) el periodo del doctorado. Doy las gracias a Guille, Rubén, Damiano, Álvaro, Emilio, David, Arkaitz, Gara, Victor, y Miguel Ángel y al resto de compañeros que han pasado por LSI estos años. Quiero agradecer también a los que se han dedicado a perder sus días en el Lizarrán arreglando el mundo conmigo, a Ángel, Agustín, Andrés y Javi. También quiero darles las gracias a Lourdes y a Conchi, que me han alegrado y dado ánimos todas las tardes sin falta. I am also thankful to my hosts during my two stays at the University of Edinburgh, Mirella Lapata, Oier López de Lacalle and Kristian Woodsend. They were really supportive and their ideas were really inspiring for my research work. In addition, I would like to thank to the members of the ILCC group for being really friendly with me, and help me through those days. I am equally thankful to my supervisor at the University of York, Suresh Manandhar, for his implication and kindness during my stay there and even later. I highly doubt that there are many advisors that are willing to spend that much time and effort with a visiting student. I also want to thank Burcu Can, Alexandros Komminos and Nils Monning for their help there and for sharing some really good moments. Además de los compañeros de trabajo, me gustaría darles las gracias a mis amigos, tanto los de Madrid, celtillitas y compañía, como los de Vigo, que a pesar de la distancia siempre han estado cerca. Y a Antón, que ha sido un gran compañero de piso, sobre todo cuando tuvo que ejercer de ambulancia. A todos vosotros, muchas gracias. vi Acknowledgements Por último, quiero dar las gracias a mi familia. A mis abuelos, que me acompañarán siempre. A mis abuelas, que son un ejemplo de fortaleza y ternura. Por supuesto a mis padres, que me han apoyado incondicionalmente y sin los que terminar el doctorado hubiese sido literalmente imposible. Y a mis hermanos, tios, primos y sobrinos. No puedo estar más orgulloso de todos vosotros. Abstract Propositional Knowledge: Acquisition and Application to Syntactic and Semantic Parsing Interpretation of natural language is one of the central challenges for the development of an artificial intelligence. In general, interpretation requires to build a context of entailed implicit information (from hearer and speaker background knowledge) that permits to recover the original communicative intention. Natural language processing tasks are concrete realizations of our human ability to comprehend and use language, thus in the long term we will need to provide full interpretation capabilities to machines, starting with the development of methods to acquire and use background knowledge. We explore the use of propositions as background knowledge and its utility for language interpretation. Propositions encode knowledge in the form of assertions using natural language, and provide a straightforward way of expressing knowledge without domain restrictions. Propositional knowledge can be derived directly from meaning representa- tions that, in turn, can be obtained directly from text, and therefore, knowledge and representations can be easily connected to perform the textual inferences required for language interpretation. In this thesis, we propose the automatic acquisition of propositional knowledge from large corpora whose documents are represented as graphs. The frequencies of occurrence permit to express a sense of plausibility. The resulting proposition store supposes a middle ground between meaning representations and structured knowledge bases. This opens new research lines that we address in this work. One the one hand, the connection of the meaning representation with the proposition stores so that they can play the role of the background knowledge that enables an inference. On the other hand, the mapping between proposition stores and structured knowledge bases. We explore these research lines with two specific tasks related to natural language understanding: syntactic and semantic parsing. Specifically for syntactic parsing, we address the problem of appositive correction. Appositives are grammatical dependencies that are often used to express that an instance belongs to a semantic class. We use propositional knowledge to measure the semantic compatibility between entities and entity types with semantic classes. Then viii Abstract we use this information to disambiguate cases where there are several grammatical valid candidates to govern an apposition. Regarding semantic parsing, we build a lexicon that permits to map natural language utterances in the form of propositions with linked data relations, and show how to use this resource in a question answering system. In addition, we propose a method to evaluate grounding and the effect that the lexicon has in the task, independently from the processes of training or querying. Using propositional knowledge for textual inference represents a new paradigm for language interpretation. The goal is to validate this paradigm and to explore from it the main areas involved: meaning representation, knowledge acquisition and textual inferences. Results show that proposition stores are a general purpose resource that permit to address different tasks related to language interpretation, opening new and promising research avenues. Keywords: Propositional Knowledge, Language Interpretation, Syntactic Parsing, Semantic Parsing Resumen (Spanish Abstract) Conocimiento Proposicional: Adquisición y Aplicación en Análisis Sintáctico y Semántico. La interpretación de lenguaje natural es uno de los retos centrales en el desarrollo de la inteligencia artificial. En general, la interpretación requiere construir un contexto de información implícita e implicada (a partir del conocimiento antecedente del emisor y el oyente) que permite recuperar la intención comunicativa del emisor. Las tareas de procesamiento de lenguaje natural son realizaciones concretas de nuestra habilidad humana para comprender y usar lenguaje, y por lo tanto a largo plazo tendremos que proveer capacidades completas de interpretación a las máquinas, empezando con el desarrollo de métodos para adquirir y usar conocimiento antecedente. En concreto, exploramos el uso de proposiciones como conocimiento antecedente y su utilidad para la interpretación del lenguaje. Las proposiciones codifican conocimiento en forma de aserciones utilizando lenguaje natural, y proporcionan una manera directa de expresar conocimiento sin restricciones de dominio. El conocimiento proposicional puede ser derivado directamente desde representaciones semánticas del texto, que a su vez pueden ser obtenidas automáticamente a partir de texto. De esta manera, se abre la posibilidad de conectar de manera directa la representación de un texto con el conocimiento necesario para su interpretación. En esta tesis, proponemos la adquisición automática de conocimiento proposicional desde grandes corpus cuyos documentos son representados como grafos. Las frecuencias de ocurrencia permiten expresar un sentido de plausibilidad. El almacén de proposi- ciones resultante supone un término medio entre representaciones semánticas y bases de conocimiento estructuradas. Esto abre nuevas líneas de investigación que abordamos en este trabajo. Por una parte, la conexión entre la representación semántica y los almacenes de proposiciones de manera que estos jueguen el papel del conocimiento antecedente que habilita una inferencia. Por otra parte, la correspondencia (mapping) entre los almacenes de proposiciones y las bases de conocimiento estructurado. Explo- ramos estas líneas