Coreference Resolution for Spoken French Loïc Grobol
Total Page:16
File Type:pdf, Size:1020Kb
Coreference resolution for spoken French Loïc Grobol To cite this version: Loïc Grobol. Coreference resolution for spoken French. Computation and Language [cs.CL]. Université Sorbonne Nouvelle - Paris 3, 2020. English. tel-02928209v2 HAL Id: tel-02928209 https://hal.archives-ouvertes.fr/tel-02928209v2 Submitted on 9 Mar 2021 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Distributed under a Creative Commons Attribution| 4.0 International License École Doctorale 622 — Sciences du langage Lattice, Inria Thèse de doctorat en sciences du langage de l’Université Sorbonne Nouvelle Coreference resolution for spoken French présentée et soutenue publiquement par Loïc Grobol le 15 juillet 2020 Sous la direction d’Isabelle Tellier† et de Frédéric Landragin Et co-encadrée par Éric Villemonte de la Clergerie et Marco Dinarelli Jury : Massimo Poesio, Professor (Queen Mary University), Rapporteur, Sophie Rosset, Directrice de recherche (LIMSI), Rapportrice, Béatrice Daille, Professeur (Université de Nantes), Examinatrice, Pascal Amsili, Professeur (Université Sorbonne Nouvelle), Examinateur, Frédéric Landragin, Directeur de recherche (Lattice), Directeur, Éric Villemonte de la Clergerie, Chargé de recherche (Inria), Co-encadrant, Marco Dinarelli, Chargé de recherche (LIG), Co-encadrant. Reconnaissance automatique de chaînes de coréférences en français parlé Résumé Une chaîne de coréférences est l’ensemble des expressions linguistiques — ou mentions — qui font référence à une même entité ou un même objet du discours. La tâche de reconnaissance des chaînes de coréférences consiste à détecter l’ensemble des mentions d’un document et à le partitionner en chaînes de coréférences. Ces chaînes jouent un rôle central dans la cohérence des documents et des interactions et leur identification est un enjeu important pour de nombreuses autres tâches en traitement automatique du langage, comme l’extraction d’informations ou la traduction automatique. Des systèmes automatiques de reconnaissance de chaînes de coréférence existent pour plusieurs langues, mais aucun pour le français ni pour une langue parlée. Nous nous proposons dans cette thèse de combler ce manque par un système de reconnaissance automatique de chaînes de coréférences pour le français parlé. À cette fin, nous proposons un système utilisant des réseaux de neurones artificiels et ne nécessitant pas de ressources externes. Ce système est viable malgré le manque d’outils de prétraitements adaptés au français parlé et obtient des performances comparable à l’état de l’art. Nous proposons également des voies d’amélioration de ce système, en y introduisant des connaissances issues de ressources et d’outils conçus pour le français écrit. Enfin, nous proposons un nouveau format de représentation pour l’annotation des chaînes de coréférences dans des corpus de langues écrites et parlées et en nous en donnons un exemple en proposant une nouvelle version d’ANCOR — le premier corpus de français annoté en coréférence. Mots-clés : anaphore, coréférence, réseaux de neurones artificiels, apprentissage artificiel, ressources annotées, corpus, formats d’annotation, traitement automatique du langage naturel ii Coreference resolution for spoken French Coreference resolution for spoken French Abstract A coreference chain is the set of linguistic expressions — or mentions — that refer to the same entity or discourse object in a given document. Coreference resolution consists in detecting all the mentions in a document and partitioning their set into coreference chains. Coreference chains play a central role in the consistency of documents and interactions, and their identification has applications to many other fields in natural language processing that rely on an understanding of language, such as information extraction, question answering or machine translation. Natural language processing systems that perform this task exist for many languages, but none for French — which suffered until recently from a lack of suitable annotated resources — andnone for spoken language. In this thesis, we aim to fill this gap by designing a coreference resolution system forspoken French. To this end, we propose a knowledge-poor system based on an end-to-end neural network architecture, which obviates the need for the preprocessing pipelines common in existing systems, while maintaining performances comparable to the state-of-the art. We then propose extensions on that baseline, by augmenting our system with external knowledge obtained from resources and preprocessing tools designed for written French. Finally, we propose a new standard representation for coreference annotation in corpora of written and spoken languages, and demonstrate its use in a new version of ANCOR, the first coreference corpus of spoken French. Keywords: anaphora, coreference, artificial neural networks, machine learning, annotated resources, corpus, annotations representation, natural language processing iii Remerciements Mes tous premiers remerciements vont à Isabelle Tellier, ma directrice de thèse, à qui je dois doublement mes débuts dans le monde de la recherche et de l’enseignement supérieur. Tu resteras pour moi un modèle et je ne pourrais jamais assez te remercier pour ta gentillesse, ton aide et ta confiance. Je remercie de tout cœur Frédéric Landragin, mon directeur de thèse, qui a admirablement repris ce flambeau et dont l’infaillible optimisme et le soutien constant ont été les moteursde toute la deuxième partie de cette thèse. Tu es incontestablement non seulement un excellent encadrant, mais aussi un collègue remarquable et un véritable ami. Je remercie aussi Marco Dinarelli, mon co-encadrant de thèse, à qui je dois mon introduction aux réseaux de neurones, plusieurs fructueuses collaborations et d’excellents moments, au Lattice comme en coreference. Je remercie encore Éric de la Clergerie, mon co-encadrant de thèse pour son soutien dans des moments compliqués, pour sa clairvoyances et pour nos très nombreuses discussions, j’ai grâce à toi de quoi m’occuper pendant plusieurs carrières et je ne sous-estimerai jamais les méthodes symboliques! Je remercie les membres du jury d’avoir accepté d’évaluer cette thèse et sa soutenance dans des conditions loin d’être idéales, pour leurs nombreuses remarques, conseils et questions qui ont grandement contribué à l’amélioration et à la finalisation de ce travail. Des remerciements tout particuliers à Pascal Amsili, pour son aide dans la préparation de la soutenance à distance. Je remercie également les membres de mon comité de suivi de thèse, pour leur soutien et leurs conseils déterminants pour la fin de la thèse et pour la structure du présent manuscrit. Je remercie le Lattice, ma happy place tout au long de cette thèse. Je pense tout particulièrement aux résident⋅e⋅s de Thésardland, à la solidarité sans égal, mais aussi à l’ensemble des membres du laboratoire, passé⋅e⋅s et présent⋅e⋅s, permanent⋅e⋅s et temporaires, sans qui ces années n’auraient pas été si douces. Je remercie également l’ensemble des membres d’ALMAnaCH, pour leur accueil, leur soutien et l’ambiance stimulante de l’équipe qui m’a poussé tout au long de cette thèse à dépasser mes limites. Je remercie mes collègues enseignant⋅e⋅s du master pluriTAL, et en particulier Serge Fleury, Kim Gerdes, Sylvain Kahane, Jean-Michel Daube et Damien Nouvel, aux côtés desquels j’ai été heureux de pouvoir me consacrer à mon activité favorite, ainsi que l’ensemble de mes étudiant⋅e⋅s, et en particulier Natalia Kalshnikova et Veronika Solopova que j’ai eu le plaisir d’accompagner dans leurs travaux de recherche. Je remercie les membres du consortium DEMOCRAT, pour leur implication dans un projet qui, s’il n’est finalement pas le cœur de cette thèse, a été déterminant pour mon travail durantces années. Des remerciements particuliers à Serge Heiden pour ses encouragements, ses conseils et nos collaborations. Je remercie les membres du groupe RITUEL, et en particulier Anne-Lyse Minard, Agatha Savary, Lotfi Abouda et la cabale de la coréférence : Emmanuel Schang, Adam Lion-Bouton, Sylvie Billot, Anaïs Lefeuvre-Halftermeyer et Jean-Yves Antoine, pour nos collaborations fructueuses — passées, présentes et futures! — et pour leur amitié iv Coreference resolution for spoken French Des remerciements tous particuliers à Iris Eshkol-Taravella, à qui je dois la découverte du TAL et mes premières expériences de recherche et avec qui j’ai toujours plaisir à travailler. Je remercie très chaleureusement Sophie Prévost et Benoît Crabbé, dont le soutien a été crucial pour toute la fin de cette thèse et avec qui je poursuis avec jubilation mes aventures de recherche enTAL. Je remercie l’ensemble des Cool Young Academics, habituel⋅le⋅s et de passage, toutes et tous des lovely humans. En particulier, merci à Olga, Maximin, Sacha, Alice, Gael, Alexis, Ilaine, Zak, Marine C., Arthur B., KyungTae, Lara, Sanjay, Hicham, Élise, Pierre, Lucie, Ariane, Jade, Hyun Jung et Marie. Je ne pourrais assez remercier le club des Chouettes Individus aux Nombreuses Qualités, Marie- Amélie, Marine,