Approche Multi-Niveaux Pour L'analyse Des Données Textuelles Non-Standardisées: Corpus De Textes En Moyen Français

Approche multi-niveaux pour l’analyse des données textuelles non-standardisées : corpus de textes en moyen français Mourad Aouini To cite this version: Mourad Aouini. Approche multi-niveaux pour l’analyse des données textuelles non-standardisées : corpus de textes en moyen français. Linguistique. Université Bourgogne Franche-Comté, 2018. Français. NNT : 2018UBFCC003. tel-02512830 HAL Id: tel-02512830 https://tel.archives-ouvertes.fr/tel-02512830 Submitted on 20 Mar 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. t THESE DE DOCTORAT DE L’ETABLISSEMENT UNIVERSITE BOURGOGNE FRANCHE-COMTE PREPAREE A L’Université de Franche-Comté Ecole doctorale LECLA n°592 Ecole doctorale « LETTRES, COMMUNICATIONS, LANGUES, ARTS » Doctorat en Ingénierie Linguistique Par Mourad AOUINI Approche multi-niveaux pour l’analyse des données textuelles non- standardisées : corpus de textes en moyen français Thèse présentée et soutenue à Paris, le 19 mars 2018 Composition du Jury : Samir Mbarki, Professeur à l’université Ibn Tofail, Rapporteur Céline Guillot, Maitresse de conférences à l’école normale supérieure de Lyon, Rapporteur Kim Gerdes, Maître de conférences à l’université Sorbonne Nouvelle Paris III, Examinateur Max Silberztein, Professeur à l’université Bourgogne Franche-Comté, Directeur de thèse Jean-Philippe Genet, Professeur à l’université Paris I Panthéon-La Sorbonne, Codirecteur de thèse Remerciements Remerciements En premier lieu, je tiens à remercier mon directeur de thèse, Max Silberztein, pour la confiance qu'il m'a accordée en acceptant d'encadrer ce travail doctoral, pour ses multiples conseils et pour toutes les heures qu'il a consacrées à diriger cette recherche. Il a toujours été disponible, à l’écoute de mes nombreuses questions, et s’est toujours intéressé à l’avancée de mes travaux. Les nombreuses discussions que nous avons eues ainsi que ses conseils sont pour beaucoup dans le résultat final de ce travail. Enfin, j’ai été extrêmement sensible à ses qualités humaines d'écoute et de compréhension tout au long de ce travail doctoral. Je souhaiterais exprimer ma gratitude à mon co-directeur de thèse Jean-Philippe Genet pour m’avoir permis d’intégrer l’équipe du projet « Signs And States » en me proposant un sujet très intéressant et m’a laissé la liberté de le re-orienter au cours du déroulement de ma thèse. Il a souvent attiré mon attention sur certains problèmes historiques, linguistiques et extralinguistiques. Je le remercie également pour son accueil chaleureux à chaque fois que j'ai sollicité son aide, ainsi que pour ses multiples encouragements, notamment lors de mes premières communications et premiers séminaires. Je voudrais remercier madame Céline Guillot d’avoir accepté de me consacrer son temps en examinant le manuscrit et d’avoir accepté la fonction de rapporteur. Mes remerciements vont également à monsieur Samir Mbarki pour l’intérêt qu’il a manifesté à l’égard de cette recherche en s’engageant à être rapporteur. Je sais infiniment gré à monsieur Kim Gerdes de m’avoir prodigué maints conseils depuis mes études de master d’ingénierie linguistique et d’avoir accepté de participer à ce jury de thèse. Je tiens à remercier l’ensemble du laboratoire LAMOP dans lequel j’ai passé quelques années qui ont été l’occasion de rencontres, d’échanges et de collaborations notamment avec Aude Mairie, Christopher Fletcher, Naomi Kanoaka, Chloe Morgan, Laura Albiero, Rachel Moss, Lauren Henras, Hicham Idabal, Stephane Lamassé, Anne Tournieroux, Claire Priol et Carla Bozzolo. Je remercie également les membres du laboratoire LLACAN pour le soutien que l’on m’y a apporté durant mon passage de 2 ans, plus particulièrement Christian Chanard, Tahar Medour, Amina Metouchi, Jeanne Zerner, Magali Sansonetti, Danielle Bonardelle, Benoit Legouy et Bernard Caron pour leurs encouragements, leur sourire et tous les moments que l’on a passés ensemble. Mes plus vifs remerciements vont aussi à Paulette Roulon-Doko pour 2 Remerciements sa relecture et ses conseils toujours très pertinents. À Marie-Claude Simeone-Senelle, merci pour son soutien et ses conseils. Je tiens également à remercier l’UPS-2259 Cultures, Langues, Textes pour l'accueil, le soutien et les conditions de travail qui m’ont été offertes, et tout particulièrement par Fabrice Jejcic, Bernard Weiss et Isabelle Michel qui me donnaient de l’élan pour continuer malgré les difficultés rencontrées. J’adresse aussi mes remerciements aux membres de la communauté NooJ avec lesquels j’ai beaucoup échangé durant les nombreux séminaires et conférences qu’on a passés ensemble. Ma reconnaissance va à ceux qui ont plus particulièrement assuré le soutien affectif de ce travail doctoral : mes parents Salwa et Youssef, mes frères Bechir, Riadh et Bessem et ma fiancée Nissen. Merci. 3 Table des matières Table des matières Table des matières ...................................................................................................................... 4 Introduction générale ................................................................................................................ 15 Partie I. Traitement automatique des langues et moyen français ............................................. 18 Chapitre 1. Le traitement automatique des langues ................................................................. 19 1. Introduction ...................................................................................................................... 19 2. Objectifs ............................................................................................................................ 20 3. Les niveaux d’analyse du langage .................................................................................... 21 3.1. Analyse lexicale ......................................................................................................... 22 3.2. Analyse syntaxique .................................................................................................... 25 3.3. Analyse sémantique ................................................................................................... 32 3.4. L’analyse pragmatique ............................................................................................... 36 4. Les approches de TAL ...................................................................................................... 37 4.1. Le TAL statistique ..................................................................................................... 37 4.2. Les méthodes symboliques ........................................................................................ 48 5. Conclusion ........................................................................................................................ 57 Chapitre 2. L’annotation automatique de corpus ..................................................................... 59 1. Introduction ...................................................................................................................... 59 2. Les types d’annotations .................................................................................................... 60 3. L’étiquetage morphosyntaxique ....................................................................................... 62 3.1. Objets ......................................................................................................................... 62 3.2. Jeu d’étiquettes ........................................................................................................... 63 3.3. Processus d’étiquetage morphosyntaxique ................................................................ 65 3.4. Les méthodes de désambiguïsation ............................................................................ 67 4. Reconnaissance des entités nommées ............................................................................... 75 4.1. Historique ................................................................................................................... 75 4.2. Les typologies d’entités nommées ............................................................................. 75 4.3. Définition des entités nommées ................................................................................. 78 4.4. Problèmes liés à la reconnaissance des entités nommées .......................................... 80 4.5. Approches pour la reconnaissance des entités nommées REN .................................. 81 5. Évaluation des systèmes d’annotations automatiques ...................................................... 86 6. Conclusion ........................................................................................................................ 88 4 Table des matières Chapitre 3. Le moyen français : spécificités et état de l’art ..................................................... 89 1. Introduction ...................................................................................................................... 89 2. Contexte historique et situation de la langue française ...................................................

Load more