Surface Realisation from Knowledge Bases Bikash Gyawali
Total Page:16
File Type:pdf, Size:1020Kb
Surface Realisation from Knowledge Bases Bikash Gyawali To cite this version: Bikash Gyawali. Surface Realisation from Knowledge Bases. Computation and Language [cs.CL]. Universite de Lorraine, 2016. English. NNT : 2016LORR0004. tel-01754499v2 HAL Id: tel-01754499 https://hal.inria.fr/tel-01754499v2 Submitted on 18 Feb 2016 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Ecole´ doctorale IAEM Lorraine Surface Realisation from Knowledge Bases THESE` pr´esent´ee et soutenue publiquement le 20 Janvier 2016 pour l’obtention du Doctorat de l’Universit´ede Lorraine (Mention Informatique) par Bikash Gyawali Composition du jury Directrice : Claire Gardent Directrice de recherche, CNRS, LORIA, France Rapporteurs : Karin Harbush Professor, Universit¨at Koblenz-Landau, Germany Albert Gatt Senior Lecturer, University of Malta, Malta Examinateurs : Christophe Cerisara Charg´ede recherche, CNRS, LORIA, France Guy Perrier Professor Emerite, Universit´ede Lorraine, France Patrick Saint-Dizier Directeur de recherche, CNRS, IRIT, France (Pr´esident) Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503 Mis en page avec la classe thloria. Acknowledgements I take this opportunity to express my sincere thanks to everyone who directly or indirectly contributed to the success of my PhD studies. First and foremost thanks to my supervisor, Claire. You guided me with enthusiasm and supported me in exploring new research directions. Under your supervision, I felt free to try and test my ideas (which were, at times, very random and naive) but had the privilege of relying on your very strong expertise for judgements. Your gentle but firm reminders helped me stay on track, produce good results and successfully complete my PhD studies. I enjoyed a fruitful, healthy and rich research experience with you and had ample opportunities to learn; thank you very much for all these. My dear wife, Rupa, you deserve a very special credit for supporting me in times of good and bad, happy or sad. Living in a foreign country is already quite difficult; you have endured me throughout these years and supported me in every possible ways for completing my PhD. Thank you very much indeed. Special thanks to my parents and family members who have helped me to become what I am today. Thank you jury members, Albert Gatt, Christophe Cerisara, Guy Perrier, Karin Harbush and Patrick Saint-Dizier for reviewing my research and providing sugges- tions for improving the manuscript. My colleagues in the SyNaLP team – Ali, Alejandra, Alexandre, Celine, Christophe, Ingrid, Laura, Lina, Shashi – thank you everyone for forming a very cooperative work- ing environment and giving me numerous feedbacks in my work. The team meetings, presentations and discussions we had from time to time helped me to improve upon my work. Many thanks to Imen, Laura, Mariem, Nabil and Nicolas for helping me write the French summary section of this manuscript. Thank you Guillaume for suggesting presentation skills for the defense session. The petit Nepalese community in Nancy consisting of hardly 3-4 persons at any time – Anju, Binod, Jugdish, Manish, Nirmal, Santosh, Sharib – thank you all for the good times spent together. Un grand merci to Université de Lorraine and the LORIA research laboratory for providing me a sound research platform and helping me realise the PhD dream. i ii Résumé Bases de Connaissances et Réalisation de Surface Bikash Gyawali La Génération Automatique de Langue Naturelle (GLN) vise à produire des textes ou de la parole dans une langue humaine à partir d’un ensemble de données non-linguistiques. A partir d’un ensemble de données et d’un but communicatif, la génération automatique de textes exécutera trois sous-tâches principales: (i) sélection et organisation d’un sous- ensemble de données d’entrée, lesquelles répondent au but communicatif; (ii) détermination des mots à utiliser pour verbaliser les données d’entrée; et (iii) regroupement de ces mots en un texte en langue naturelle verbalisant les données sélectionnées. La dernière sous- tâche est connue comme la tâche de Réalisation de Surface (RS). Dans ce travail de thèse, nous étudions la tâche de réalisation de surface quand les données d’entrée sont extraites de Bases de Connaissances (BC). Ce qui motive la verbalisation de bases de connaissances est le besoin, d’une part, de faciliter l’accès au contenu de celles-ci (motif pratique) et, d’autre part, de développer des méthodes générales et fondées sur des principes linguistiques (motif théorique). Nous proposons deux nouvelles approches pour la réalisation de surface à partir de bases de connaissances: une approche supervisée et une approche faiblement supervisée. Approche supervisée: La Tâche Commune de Réalisation de Surface KBGen (KBGen challenge) a été conçue avec le but de comparer et d’évaluer les systèmes de réalisation de surface prenant en entrée des bases de connaissances. A partir d’un sous-ensemble de données cohérent extrait de la base de connaissances, l’objectif de la tâche de réalisation de surface est de produire des phrases complexes en anglais qui sont à la fois grammaticales et naturelles. Dans cette tâche commune, le challenge met à disposition des participants un petit (208 exemples) corpus parallèle de paires phrase / sous-ensemble de données de la base de connaissances ainsi que des lexiques qui associent les symboles de la base de connaissances à des mots et à des phrases. Dans la première partie de cette thèse, nous présentons une méthode pour extraire une Grammaire d’Arbres Adjoints basée sur les traits (Feature Based Lexicalized Tree Adjoining Grammar (FB-LTAG)) à partir d’un corpus parallèle de textes et de données. La grammaire FB-LTAG résultante inclut une sémantique compositionnelle basée sur l’unification et peut être utilisée par un réalisateur de surface existant pour pro- duire des phrases à partir de bases de connaissances. Nous appliquons la méthode sur les données de KBGen, nous étendons le réalisateur de surface existant en ajoutant un mécan- isme de classement ainsi que de recherche en faisceau, et nous testons la grammaire obtenue sur les données KBGen. Les évaluations expérimentales montrent que notre approche est plus performante qu’une approche guidée par les données qui s’appuient sur une grammaire probabiliste extraite automatiquement et que les phrases produites s’approchent de celles produites avec une grammaire symbolique développée manuellement. En outre, une car- actéristique de notre approche est qu’elle s’appuie sur une grammaire compacte (quelques centaines d’arbres) et fondée sur des principes linguistiques (elle suit les principes séman- tiques et de domaine de localité étendu dans les grammaires TAG). Nous montrons comment cette caractéristique donne lieu à une approche hybride où une grammaire extraite automa- tiquement peut être révisée manuellement et améliorer la couverture et la qualité des phrases produites. Approche faiblement supervisée: Une limitation importante de l’approche supervisée décrite précédemment est qu’elle requiert l’existence d’un corpus parallèle alignant un frag- ment de la base de connaissances avec une phrase verbalisant ce fragment. Dans la seconde partie de cette thèse, nous explorons par conséquent une approche pour la réalisation de surface à partir de données des base de connaisences qui utilise un lexique fourni mais ne requièrent pas ce type de corpus parallèle. A la place, nous construisons un corpus à partir de sources hétérogènes de textes liées au domaine des bases de connaissances pour lesquelles la réalisation de surface est développée (dans ce cas, biologie) et nous utilisons ce corpus pour identifier les lexicalisations possibles des symboles de la BC (classes et relations). Nous utilisons ensuite ce corpus pour estimer les probabilités des lexicalisations des symboles de la BC, des cadres de sous-catégorisation et des liens entre les différents arguments syn- taxiques et sémantiques d’un évènement donné. Nous proposons des modèles probabilistes pour la sélection de cadres de sous-catégorisation et associations syntaxiques/sémantiques appropriés et nous utilisons une fonction attribuant un score qui utilise les probabilités pour verbaliser une entrée donnée. Nous présentons des évaluations automatiques et des évalu- ations réalisées par les humains des phrases générées et nous analysons les problèmes lié à l’apprentissage automatique à partir d’un corpus non-aligné. Dans chacune de ces approches, nous utilisons des données dérivées d’une ontologie biomédi- cale existante comme référence d’entrée (à savoir la base de connaissances AURA [Chaudhri et al., 2013]). Cependant, nos méthodes sont génériques et peuvent être facilement adaptées pour une entrée à partir d’autres ontologies pour lesquels un corpus parallèle/non-parallèle existe. Abstract Surface Realisation from Knowledge Bases Bikash Gyawali Natural Language Generation (NLG) is the task of automatically producing natural lan- guage text to describe information present in non-linguistic data. Given some non-linguistic