Manuscrit-Hdr-Richarddufour-08
Total Page:16
File Type:pdf, Size:1020Kb
Traitement Automatique du Langage : Études et apports aux frontières de l’interdisciplinarité Richard Dufour To cite this version: Richard Dufour. Traitement Automatique du Langage : Études et apports aux frontières de l’interdisciplinarité. Informatique et langage [cs.CL]. Université d’Avignon, 2020. tel-03076867 HAL Id: tel-03076867 https://hal.archives-ouvertes.fr/tel-03076867 Submitted on 16 Dec 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. LABORATOIRE INFORMATIQUE D’AVIGNON HABILITATION À DIRIGER DES RECHERCHES Avignon Université ÉCOLE DOCTORALE 536 «AGROSCIENCES &SCIENCES » Laboratoire Informatique d’Avignon (LIA) Spécialité : Informatique Traitement Automatique du Langage : Études et apports aux frontières de l’interdisciplinarité Par Richard DUFOUR HDR présentée et soutenue à Avignon, le 8 décembre 2020 Unité de recherche : EA 4128 Composition du Jury : Rapporteurs : Philippe Langlais Professeur RALI, Université de Montréal, Montréal Sophie Rosset Directrice de recherche CNRS LIMSI, Université Paris-Saclay, Orsay Pascale Sébillot Professeure IRISA, Université de Rennes 1, Rennes Examinateurs : Jean-François Bonastre Professeur LIA, Avignon Université, Avignon Yannick Estève Professeur LIA, Avignon Université, Avignon Emmanuel Ethis Professeur INSEAC, CNAM, Guingamp Georges Linarès Professeur LIA, Avignon Université, Avignon Emmanuel Morin Professeur LS2N, Université de Nantes, Nantes People talking without speaking People hearing without listening People writing songs that voices never shared No one dared Disturb the sound of silence The Sound of Silence Simon and Garfunkel 2 REMERCIEMENTS Je voudrais tout d’abord remercier l’ensemble des membres du jury de m’avoir fait l’honneur de relire, d’écouter et d’étudier les travaux scientifiques mis en perspective dans ce manuscrit. En premier lieu, je suis extrêmement reconnaissant aux rapporteurs, Philippe Langlais, professeur au RALI de l’Université de Montréal, Sophie Rosset, directrice de recherche CNRS au LIMSI de l’Université Paris-Saclay, et Pascale Sébillot, professeure à l’IRISA de l’Université de Rennes 1, d’avoir accepté cette charge supplémentaire de travail. Je remercie également Emmanuel Morin, professeur au LS2N de l’Université de Nantes, pour m’avoir fourni les premières remarques sur mon manuscrit. Je suis également très honoré d’avoir pu compter dans ce jury Emmanuel Ethis, professeur au CNAM InsEAC de Guingamp, avec qui j’ai eu la chance de collaborer ces der- nières années dans plusieurs projets pluridisciplinaires. Il me semblait indispensable de pouvoir compter sur la présence de Georges Linarès, professeur au LIA d’Avignon Université, qui m’a intégré dans l’ensemble de ses projets de recherche et ce, dès mon arrivée au sein du LIA. Je mesure cette chance, qui est loin d’être la norme lors de l’arrivée dans un nouveau laboratoire de recherche. Dans cette continuité, Jean-François Bonastre, professeur au LIA d’Avignon Univer- sité, a également choisi de me faire confiance ces dernières années et je l’en remercie vivement. Enfin, il me semblait naturel d’avoir à mes côtés Yannick Estève, professeur au LIA d’Avignon Université, pour passer cette nouvelle étape, lui qui a été à l’origine des travaux de recherche que j’ai pu mener. Je remercie également toutes les personnes ayant contribué activement à la réalisation de ce manuscrit. J’espère avoir correctement mis en valeur les différents travaux scientifiques réalisés et n’avoir omis personne lors de leur présentation. Je tiens à exprimer tout particulièrement mes remerciements à Mohamed Morchid sans qui ce document n’aurait pu être possible. Je n’oublie pas Damien Malinas, Raphaël Roth et Alexandre Delorme, qui ont largement contribué à cette coloration interdisciplinaire. Je remercie chaleureusement Vincent Labatut et Mickaël Rouvier, qui ont aussi une part importante dans l’élaboration de ce manuscrit. Je conclue ces remerciements en ayant une pensée pour tous les membres du LIA, et plus généralement du Centre d’Enseignement et de Recherche en Informatique (CERI) d’Avignon Université, que j’ai pu côtoyer depuis mon arrivée et qui m’ont tant apporté au quotidien. Et enfin un très grand merci à Claire pour sa relecture attentive de “dernière minute”, nécessitant une grande attention et minutie. 3 RÉSUMÉ Le traitement automatique du langage naturel (TALN) est un vaste domaine de recherche intégrant de nombreuses thématiques scientifiques (reconnaissance automatique de la parole, indexation automatique de documents, traduction automatique, synthèse vocale...). Grâce aux avancées obtenues au fil des dernières décennies dans chacune de ces thématiques, de nombreux outils et services ont pris vie hors des laboratoires de recherche pour atteindre le tissu socio- économique, et plus généralement le grand public, avec en fer de lance les assistants vocaux intelligents. Malgré ces grandes avancées, le TALN reste un domaine de recherche très actif, avec de nombreuses problématiques scientifiques ouvertes, considérant le fait que le langage, tout comme les usages de la société, ne sont pas figés mais en constante évolution. Ce manuscrit propose un panorama des différents travaux de recherche auxquels j’ai pu par- ticiper ces dernières années, principalement en tant que maître de conférences au LIA, mettant alors en perspective l’évolution de mes travaux, qui m’ont conduit à travailler en collaboration avec d’autres disciplines scientifiques pour l’avancée du domaine du TALN. Ces derniers travaux sont notamment au centre de mes perspectives de recherche. La première partie du manuscrit est consacrée à une des problématiques historiques, à savoir la représentation du contenu écrit et parlé. Nous présentons nos travaux sur la robustesse des représentations face au langage, en prenant en considération le contexte des documents, ainsi que l’utilisation et la proposition de représentations latentes pour la classification de documents. Nous voyons ensuite, dans la deuxième partie, certains des travaux que nous avons menés sur la performance et l’évaluation en traitement du langage, allant de l’analyse et la caractérisation des erreurs de reconnaissance automatique de la parole, à leur correction. La troisième partie montre l’évolution de mes activités de recherche, qui se sont alors orientées vers des problématiques interdisciplinaires pour le traitement du langage, avec nos travaux sur l’exploration des réseaux sociaux pour l’analyse d’événements, la détection de messages abusifs, et enfin le doublage vocal et la recommandation de voix. La dernière partie résume mes activités de recherche, précisant les projets dans lesquels je me suis intégré, les différents encadrements d’étudiants auxquels j’ai pu participer, et mon implication dans le rayonnement et la vulgarisation scientifiques. Enfin, je termine ce manuscrit par une synthèse de ces différents travaux, me permettant de dresser une esquisse des activités de recherche futures dans lesquelles je souhaite m’impliquer à court, mais également à long terme, s’orientant assez largement vers des travaux interdisciplinaires. 5 TABLE DES MATIÈRES Remerciements 3 Résumé 5 Liste des acronymes 13 Liste des figures 16 Liste des tableaux 18 Introduction 19 Travaux de recherche..................................... 19 Organisation du manuscrit.................................. 21 I Robustesse de la représentation du contenu écrit et parlé 23 1 Apports du contexte pour la représentation du contenu 25 1.1 Introduction....................................... 25 1.2 Intégration d’informations de flux parallèles..................... 27 1.2.1 Contexte et problématique.......................... 27 1.2.2 Annotation d’un corpus de flux télévisés parallèles............. 28 1.2.3 Modèle n-gramme............................... 30 1.2.4 Réseaux de neurones LSTM parallèles.................... 31 1.2.5 Prédiction du genre d’émissions télévisées.................. 33 1.3 Information temporelle pour les plongements de mots............... 35 1.3.1 Contexte.................................... 35 1.3.2 Approche Word2vec.............................. 36 1.3.3 Pondération des mots au voisinage...................... 37 1.3.4 Tâche de recherche de mots analogues.................... 38 1.4 Conclusion....................................... 39 2 Représentations latentes pour la classification de documents 41 2.1 Introduction....................................... 41 7 TABLE DES MATIÈRES 2.2 Corpus DECODA................................... 43 2.2.1 Données et annotation............................. 43 2.2.2 Transcription automatique.......................... 44 2.3 Représentation des documents............................. 45 2.3.1 Représentation directe du contenu...................... 46 2.3.2 Représentation dans un espace de thèmes.................. 47 2.4 Comparaison des méthodes de représentation du contenu.............. 47 2.4.1 Protocole expérimental............................ 48 2.4.2 Résultats.................................... 49 2.4.3 Autres propositions de représentation haut niveau............. 51 2.5 Représentation