Unsupervised Extraction of Semantic Relations Using Discourse Information Juliette Conrath
Total Page:16
File Type:pdf, Size:1020Kb
Unsupervised extraction of semantic relations using discourse information Juliette Conrath To cite this version: Juliette Conrath. Unsupervised extraction of semantic relations using discourse information. Artificial Intelligence [cs.AI]. Université Paul Sabatier - Toulouse III, 2015. English. NNT : 2015TOU30202. tel-01373965 HAL Id: tel-01373965 https://tel.archives-ouvertes.fr/tel-01373965 Submitted on 29 Sep 2016 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSETHÈSE En vue de l’obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Présentée et soutenue le 14/12/2015 par : Juliette Conrath Unsupervised extraction of semantic relations using discourse information Directeurs de Thèse : Nicholas Asher Philippe Muller Stergos Afantenos Directeur de Recherche Maître de Conférences Maître de Conférences IRIT-CNRS Université Paul Sabatier Université Paul Sabatier Rapporteurs : Johan Bos James Pustejovsky Professeur d’Université Professeur d’Université Rijksuniversiteit Groningen Brandeis University Examinateur : Pascal Denis Chargé de Recherche INRIA Lille École doctorale et spécialité : MITT ; Domaine STIC : Intelligence Artificielle Unité de Recherche : Institut de Recherche en Informatique de Toulouse (IRIT - UMR 5505) Abstract Natural language understanding often relies on common-sense reasoning, for which knowl- edge about semantic relations, especially between verbal predicates, may be required. This thesis addresses the challenge of using a distibutional method to automatically extract the nec- essary semantic information for common-sense inference. Typical associations between pairs of predicates and a targeted set of semantic relations (causal, temporal, similarity, opposition, part/whole) are extracted from large corpora, by exploiting the presence of discourse connec- tives which typically signal these semantic relations. In order to appraise these associations, we provide several significance measures inspired from the literature as well as a novel measure specifically designed to evaluate the strength of the link between the two predicates and the relation. The relevance of these measures is evaluated by computing their correlations with human judgments, based on a sample of verb pairs annotated in context. The application of this methodology to French and English corpora leads to the construction of a freely available resource, Lecsie (Linked Events Collection for Semantic Information Extraction), which consists of triples: pairs of event predicates associated with a relation; each triple is assigned significance scores based on our measures. From this resource, vector-based representations of pairs of predicates can be induced and used as lexical semantic features to build models for external applications. We assess the po- tential of these representations for several applications. Regarding discourse analysis, the tasks of predicting attachment of discourse units, as well as predicting the specific discourse relation linking them, are investigated. Using only features from our resource, we obtain significant improvements for both tasks in comparison to several baselines, including ones using other rep- resentations of the pairs of predicates. We also propose to define optimal sets of connectives better suited for large corpus applications by performing a dimension reduction in the space of the connectives, instead of using manually composed groups of connectives corresponding to predefined relations. Another promising application pursued in this thesis concerns relations be- tween semantic frames (e.g. FrameNet): the resource can be used to enrich this sparse structure by providing candidate relations between verbal frames, based on associations between their verbs. These diverse applications aim to demonstrate the promising contributions provided by our approach, namely allowing the unsupervised extraction of typed semantic relations. Keywords: computational linguistics, distributional semantics, lexical semantics, discourse parsing. Résumé La compréhension du langage naturel repose souvent sur des raisonnements de sens com- mun, pour lesquels la connaissance de relations sémantiques, en particulier entre prédicats ver- baux, peut être nécessaire. Cette thèse porte sur la problématique de l’utilisation d’une méthode distributionnelle pour extraire automatiquement les informations sémantiques nécessaires à ces inférences de sens commun. Des associations typiques entre des paires de prédicats et un en- semble de relations sémantiques (causales, temporelles, de similarité, d’opposition, partie/tout) sont extraites de grands corpus, par l’exploitation de la présence de connecteurs du discours signalant typiquement ces relations. Afin d’apprécier ces associations, nous proposons plusieurs mesures de signifiance inspirées de la littérature ainsi qu’une mesure novatrice conçue spécifiquement pour évaluer la force du lien entre les deux prédicats et la relation. La pertinence de ces mesures est évaluée par le calcul de leur corrélation avec des jugements humains, obtenus par l’annotation d’un échantillon de paires de verbes en contexte discursif. L’application de cette méthodologie sur des corpus de langue française et anglaise permet la construction d’une ressource disponible librement, Lecsie (Linked Events Collection for Semantic Information Extraction). Celle-ci est constituée de triplets: des paires de prédicats associés à une relation; à chaque triplet correspondent des scores de signifiance obtenus par nos mesures. Cette ressource permet de dériver des représentations vectorielles de paires de prédicats qui peuvent être utilisées comme traits lexico-sémantiques pour la construction de modèles pour des applications externes. Nous évaluons le potentiel de ces représentations pour plusieurs applica- tions. Concernant l’analyse du discours, les tâches de la prédiction d’attachement entre unités du discours, ainsi que la prédiction des relations discursives spécifiques les reliant, sont explorées. En utilisant uniquement les traits provenant de notre ressource, nous obtenons des améliorations significatives pour les deux tâches, par rapport à plusieurs bases de référence, notamment des modèles utilisant d’autres types de représentations lexico-sémantiques. Nous proposons égale- ment de définir des ensembles optimaux de connecteurs mieux adaptés à des applications sur de grands corpus, en opérant une réduction de dimension dans l’espace des connecteurs, au lieu d’utiliser des groupes de connecteurs composés manuellement et correspondant à des relations prédéfinies. Une autre application prometteuse explorée dans cette thèse concerne les relations entre cadres sémantiques (semantic frames, e.g. FrameNet): la ressource peut être utilisée pour enrichir cette structure par des relations potentielles entre frames verbaux à partir des associa- tions entre leurs verbes. Ces applications diverses démontrent les contributions prometteuses amenées par notre ap- proche permettant l’extraction non supervisée de relations sémantiques. Mots-clés : traitement automatique du langage naturel, sémantique distributionnelle, sé- mantique lexicale, analyse du discours. Acknowledgements This thesis is the result of a three-year adventure which has been one of the most life-changing and rewarding challenges I have experienced. I am deeply indebted to my three supervisors, Nicholas Asher, Philippe Muller and Stergos Afantenos, for their guidance and constant support, even when I chose to do the remaining work from abroad. Each of them brought the subject of this thesis into a different light and I am very grateful for the broad perspective on natural language processing and lexical semantics they allowed me to acquire. I also want to thank Johan Bos and James Pustejovksi for taking the time to review my thesis and provide insightful feedback. I am also grateful to Pascal Denis for participating in my defense committee, for his interest in my project and his enlightening questions and suggestions. Special thanks go to Chloé Braud for sharing her ideas and insights on dis- course analysis, but also for making our first international conference such a pleas- ant experience, for being a friendly face in the crowd during those stressful times, and for sharing the adventures of writing a thesis. I sincerely hope I was as com- forting to her as she was to me. I wish to express my gratitude to Mathieu Morey for the insightful discussions we had as well as for his guidance and advice in finishing my thesis, and the steps that followed. Tim van de Cruys also deserves special mention for his help and suggestions, and for sharing his knowledge on distributional semantics. I also thank Eric Kow for the software that he developed for our team and which was of great help for my work. I also wish to thank the entire Melodi team, and in particular the team leader Nathalie Aussenac-Gilles, for making our work environment so friendly and moti- vating. And of course my fellow "thésards" in the team: Julien Corman, Antoine Venant, Jean-Philippe Fauconnier, Antoine Bride, Jeremy Perret.