Conception D'une Chaîne De Traitement De La Langue Naturelle Pour Un Agent Conversationnel Assistant

Conception d’une chaîne de traitement de la langue naturelle pour un agent conversationnel assistant François Bouchet To cite this version: François Bouchet. Conception d’une chaîne de traitement de la langue naturelle pour un agent conversationnel assistant. Informatique [cs]. Université Paris Sud - Paris XI, 2010. Français. tel-00607298 HAL Id: tel-00607298 https://tel.archives-ouvertes.fr/tel-00607298 Submitted on 8 Jul 2011 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Conception d’une Chaîne de Traitement de la Langue Naturelle pour un Agent Conversationnel Assistant François BOUCHET LIMSI-CNRS École Doctorale d’Informatique Université Paris-Sud 11 – Orsay Soutenue le 29 juin 2010 devant le jury composé de : Rapporteurs : Guy LAPALME Professeur – Université de Montréal, RALI Sylvie PESTY Professeur – Université Pierre Mendès-France, LIG Examinateurs : Catherine PELACHAUD Directeur de Recherche – LTCI, Télécom ParisTech Anne VILNAT Professeur – Université Paris-Sud 11, LIMSI-CNRS Directeur : Jean-Paul SANSONNET Directeur de Recherche – LIMSI-CNRS Remerciements Bien qu’issu d’une longue phase rédactionnelle en solitaire, ce manuscrit n’aurait jamais pu voir le jour sans les années qui l’ont précédé, et je tiens donc à rendre hommage à toutes les personnes avec qui j’ai pu être amené à interagir au cours de cette période. Dans un premier temps, mes remerciements vont bien sûr aux personnes ayant pris part à l’évaluation finale de ce travail en me faisant l’honneur d’accepter de prendre part à mon jury de thèse : merci donc à Catherine Pelachaud pour l’intérêt qu’elle a montré envers mon travail en accep- tant de présider ce jury, à Sylvie Pesty et Guy Lapalme pour leurs rapports et commentaires avisés m’ayant permis d’améliorer ce manuscrit, ainsi qu’à Anne Vilnat dont le manuscrit annoté m’a permis d’ultimes retouches post-soutenance. Un grand merci également à celui qui fut bien plus que le cinquième membre de ce jury, mon directeur de thèse, Jean-Paul Sansonnet, pour avoir cru en moi dès le début, puis pour la patience et le dévoue- ment avec lesquelles il m’a supporté (dans tous les sens du terme) tout au long de ces années. Nos discussions, menant souvent bien au-delà de mon sujet de thèse, furent à la fois enrichissantes et moti- vantes, et ce fut un véritable plaisir de découvrir le monde de la recherche à ses côtés, et d’apprendre (parfois ensemble) à y survivre. Parmi les travaux présentés dans cette thèse, plusieurs n’auraient été possibles sans collaboration avec d’autres chercheurs. Je souhaite donc remercier Michèle Sebag, pour les nombreuses références pertinentes qui ont rendu possible l’existence de toute une section du chapitre 7 sur la classification automatique, et pour ses conseils sur ma recherche de post-doc. Dans le cadre de mon court mais intense séjour brésilien, je remercie Patricia Jaques, Nicolas Maillard, Aline Villavivencio et Rosa Vicari pour leur accueil chaleureux à Porto Alegre, Evandro Manara Miletto et Marcelo Pimenta pour la collaboration fructueuse que nous avons pu établir et qui m’a donné la possibilité de découvrir un champ de recherche bien différent du mien. Merci également à Mao Xuetao pour sa collaboration sur les expériences DIVA. Dans un groupe dotés de thématiques aussi variées qu’AMI et au sein d’un laboratoire pluridisciplinaire comme le LIMSI, les collaborations scientifiques sont parfois plus difficiles, mais l’enrichissement humain n’en est lui que plus grand. Merci donc à ceux qui sont devenus au fil des ans de vrais com- pagnons de route : Rami, Wai Kit, Céline, Matthieu, Issam, Ning, Chahnez, David et Jonathan ; à ceux dont j’ai eu l’occasion de partager le bureau (parfois brièvement, avec mes 3 déménagements) : Jean-Claude, Laurent, Bill, Dominique, Sarkis, Aurélie, François-Xavier, Victoria et Jorge ; à tous ceux que j’ai cotoyé d’un peu plus loin, mais toujours avec plaisir, et sans qui la vie au LIMSI n’aurait pas été tout à fait la même : Mathieu, Sonia, Cédric, Sylvain, François S., Tifanie, Anne et Flavien. En plus de certains collègues susmentionnés qui sont devenus des amis que j’ai eu plaisir à fréquenter hors du travail, un grand merci aussi aux copains d’avant, qui se sont retrouvés un peu délaissés pendant ces années, mais dont la présence a toujours été extrêmement appréciée, notamment Julien-mon-bi, Antoine et Ludmila. Merci enfin à ma famille pour avoir su faire avec mon emploi du temps et mon humeur parfois chaotiques l’un comme l’autre : Tania, Kyra, papa, maman, tata, cousin, je n’y serai pas arrivé sans vous ! i ii Table des matières Introduction 1 I État de l’art 5 1 État de l’art 7 1.1 Assistance aux utilisateurs d’applications informatiques ............. 8 1.1.1 Le besoin d’assistance ............................ 8 1.1.2 Aide en ligne statique ............................ 10 1.1.3 Systèmes d’aide contextuelle ........................ 12 1.1.4 Aides multimodales et dialogiques ..................... 14 1.2 Systèmes de Dialogue Homme-Machine ....................... 17 1.2.1 Structure générale d’un système de dialogue . 17 1.2.2 Analyse syntaxico-sémantique ........................ 21 1.2.3 Gestion du dialogue ............................. 34 1.2.4 Exemples de SDHM ............................. 38 1.2.5 Utilisabilité du dialogue pour l’assistance . 41 1.3 Agents Conversationnels Animés (ECA) ...................... 42 1.3.1 Les besoins psychologiques des novices ................... 42 1.3.2 Apports des Agents Conversationnels Animés à l’apprentissage . 42 1.4 Résumé ........................................ 45 2 Architecture d’un Agent Conversationnel Assistant 47 2.1 Aux origines : le projet Interviews (1999–2003) . 47 2.1.1 Description générale ............................. 47 2.1.2 Critique .................................... 48 iii 2.2 DAFT (2004–2009) .................................. 49 2.2.1 Description générale ............................. 49 2.2.2 Objectifs ................................... 49 2.2.3 DAFT 1.0 (2004–2006) ............................ 50 2.2.4 DAFT 2.0 (2006–2010) ............................ 54 2.3 Conclusion ...................................... 59 II Chaîne de traitement 61 3 Constitution d’un corpus de requêtes d’assistance : le corpus Daft 63 3.1 L’approche corpus pour le dialogue ......................... 64 3.1.1 Origines et intérêt .............................. 64 3.1.2 Panorama de corpus existants ........................ 65 3.1.3 Le besoin d’un corpus pour le projet DAFT . 68 3.2 Recueil du corpus Daft ................................ 72 3.2.1 Méthodologie ................................. 72 3.2.2 Discussion ................................... 76 3.3 Enrichissement du corpus .............................. 79 3.3.1 Thésaurus ................................... 79 3.3.2 FAQ de Word et LATEX ........................... 81 3.3.3 Discussion ................................... 82 3.4 Conclusion ...................................... 83 4 Analyseur syntaxico-sémantique : GRASP 85 4.1 Motivation ...................................... 86 4.1.1 Besoin de précision .............................. 86 4.1.2 Possibilité de personnalisation ........................ 86 4.1.3 Approche d’analyse choisie ......................... 87 4.2 Lemmatisation .................................... 88 4.2.1 Lexique .................................... 88 4.2.2 Lemmatiseur ................................. 90 4.3 Étiquetage sémantique et désambigüisation .................... 98 iv 4.3.1 Clés sémantiques ............................... 98 4.3.2 Désambigüisation sémantique ........................ 99 4.4 Analyse grammaticale des constituants . 107 4.4.1 Principe ....................................107 4.4.2 Règles .....................................108 4.4.3 Résultats ...................................110 4.5 Conclusion ......................................110 5 Langage formel de requêtes d’assistance 113 5.1 Méthodologie : un langage issu du corpus . 114 5.1.1 Exploitation de ressources déjà existantes . 114 5.1.2 Choix des éléments à représenter . 114 5.1.3 Choix du mode de représentation . 115 5.2 Spécifications du langage DAFT . 115 5.2.1 Syntaxe formelle ...............................115 5.2.2 Sémantique opérationnelle . 118 5.3 Évaluation de DAFT 2.0 par rapport au corpus Daft . 133 5.3.1 Pré-évaluation à partir d’une annotation manuelle . 133 5.4 Discussion : choix de modélisation et conséquences . 136 5.4.1 Domaine de validité des propriétés : éléments individuels ou larges en- sembles ? ...................................136 5.4.2 Actions génériques ou spécifiques ? . 137 5.4.3 Gestion de la position spatiale des références . 138 5.5 Conclusion ......................................139 6 Génération automatique de requêtes formelles : DIG 141 6.1 Entrées et sorties de DIG ...............................142 6.1.1 Entrées et ressources .............................142 6.1.2 Sortie et représentation graphique . 142 6.2 Ressources .......................................143 6.2.1 Lien clés sémantiques et DAFT . 143 6.2.2 Règles de combinaison ............................145

Conception D'une Chaîne De Traitement De La Langue Naturelle Pour Un Agent Conversationnel Assistant

3 Corpus Tools for Lexicographers

LDL-2014 3Rd Workshop on Linked Data in Linguistics

“Lexicography in the Digital World” Krabi, Thailand 8

Constitution D'un Corpus Oral Defle : Enjeux Théoriques Et Méthodologiques - 2015 Arbach, Najib

ENGLISH CONTEMPORARY CORPORA Parpieva Shahnoza Muratovna, Uzbekistan State World Languages University, Second Year Master’S Student

3Rd Workshop on Linked Data in Linguistics: Multilingual Knowledge Resources and Natural Language Processing, Reykjavik, Iceland, 27 May 2014 - 27 May 2014, 55-60

The Design and the Construction of the Traditional Arabic Lexicons Corpus (The TAL-Corpus)

Lexicographic Evidence

Corpus Linguistics: Developing a Multianalysis Text Tool

The Cambridge Companion to English Dictionaries Edited by Sarah Ogilvie Index More Information

English Lexical and Semantic Loans in Informal Spoken Polish

The Corpus of Contemporary American English As the First Reliable Monitor Corpus of English