Méthodes Pour Informatiser Les Langues Et Les Groupes De Langues `` Peu Dotées ''
Total Page:16
File Type:pdf, Size:1020Kb
Méthodes pour informatiser les langues et les groupes de langues “ peu dotées ” Vincent Berment To cite this version: Vincent Berment. Méthodes pour informatiser les langues et les groupes de langues “ peu dotées ”. Autre [cs.OH]. Université Joseph-Fourier - Grenoble I, 2004. Français. tel-00006313 HAL Id: tel-00006313 https://tel.archives-ouvertes.fr/tel-00006313 Submitted on 23 Jun 2004 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. UNIVERSITÉ JOSEPH FOURIER, GRENOBLE 1 UFR D'INFORMATIQUE ET MATHÉMATIQUES APPLIQUÉES THÈSE présentée et soutenue publiquement le 18 mai 2004 par Vincent BERMENT pour obtenir le titre de DOCTEUR DE L’UNIVERSITÉ JOSEPH FOURIER Spécialité INFORMATIQUE MÉTHODES POUR INFORMATISER DES LANGUES ET DES GROUPES DE LANGUES « PEU DOTÉES » Jury : M. Bruno OUDET Président M. Yves LEPAGE Rapporteur M. Jean VÉRONIS Rapporteur M. Christian BOITET Directeur M. Gilles DELOUCHE Examinateur M. Mathieu LAFOURCADE Examinateur M. Claude DEL VIGNA Invité THÈSE PRÉPARÉE AU SEIN DU GETA, LABORATOIRE CLIPS (IMAG, UJF, INPG & CNRS) Remerciements Au moment où ce travail s’achève, je tiens à remercier : Monsieur Bruno Oudet, professeur à l'Université Joseph Fourier, à l’origine du Chapitre Français de l’Internet Society et de la Fête de l’Internet, qui m'a fait l'honneur de présider le jury. Messieurs Yves Lepage, chargé de recherche aux laboratoires traduction et langue parlée de la société ATR à Kyoto, et Jean Véronis, professeur à l'Université de Provence, qui ont accepté avec bienveillance d'être rapporteurs et m'ont prodigué des remarques pertinentes qui m'ont permis d'améliorer ce document. Messieurs Gilles Delouche, Claude Del Vigna et Mathieu Lafourcade, qui ont accepté de participer à mon jury de thèse. Monsieur Gilles Delouche, président de l’INALCO, qui fut mon inoubliable professeur de siamois voilà déjà dix ans et qui, malgré sa charge nouvelle de président, m’a aidé avec beaucoup d’attention lorsqu’il s’est agi de préciser la structure des syllabes siamoises. Monsieur Claude Del Vigna, ingénieur de recherche au CNRS, qui a encouragé mes efforts depuis mon DEA et a contribué très activement à l’étude d’un aspect théorique de la segmentation syllabique présentée dans cette thèse. Monsieur Mathieu Lafourcade, maître de conférence à l’Université Montpellier 2, qui a accompagné de sa bonne humeur ma première conférence qui se tenait à Penang et qui m’a initié, à cette occasion, à la notion de vecteur sémantique. Monsieur Christian Boitet, professeur à l'Université Joseph Fourier, pour l’ampleur du sujet qu’il m’a offert d’explorer. Sans son initiative, cette thèse ne serait pas. Je le remercie très chaleureusement aussi pour les nombreux conseils prodigués pendant la thèse et qui m’ont appris tant de choses ainsi que pour la grande disponibilité et l’enthousiasme dont il n’a cessé de faire preuve. J’exprime aussi toute ma reconnaissance aux personnes qui m’ont aidé, à un moment où à un autre de cette thèse, qui à appréhender une notion, qui une subtilité linguistique ou informatique, et en particulier à Michel Antelme, Patrick Beaudouin, Pascal Berment, Louis-Jean Calvet, Kim Chuah Choy, Éric Duboscq, Michel Fanton, Michel Ferlus, Colette Grinevald, Paul Hector, Michel Ilkiewicz, Lamvieng Inthamone, Mustafa Jabbar, Marilyn Mason, ThakkKLQK -DFTPLQ ,JRU 0HO¶þXN -HDQ- Claude Meunier, Tai-Luc Nguyen, Alain Polguère, Sunee Pongpinigpinyo, Pierre Sein-Aye, Christian Thomas, Houmphanh Thongvilu, Roland Touchais, Dominique Vaufreydaz, Romain Wong ainsi qu’à tous les membres du GETA. Enfin, j’ai une pensée affectueuse pour Christine qui a accepté avec beaucoup de gentillesse et de patience toutes les contraintes qu’imposait ce travail. Tables et index Table des matières Introduction ........................................................................................................................................... 14 I. Méthodes d’informatisation d’une langue peu dotée..................................................................... 18 I.1 Contexte de l’informatisation des langues peu dotées.............................................................. 18 I.1.1 Terminologie....................................................................................................................18 I.1.2 Les langues : de l’ordre dans la diversité......................................................................... 23 I.1.3 Les acteurs : des projets et des hommes .......................................................................... 32 I.1.4 La technologie : une informatisation par service............................................................. 46 I.2 Méthodes pour l’informatisation des langues peu dotées......................................................... 54 I.2.1 Une informatisation sous contraintes............................................................................... 54 I.2.2 Trouver des solutions adaptées : idées forces.................................................................. 54 I.2.3 Appliquer une gestion adaptée......................................................................................... 60 I.3 Plan de développement pour une langue donnée, exemple du laotien ..................................... 61 I.3.1 Présentation...................................................................................................................... 61 I.3.2 Première phase (1996-2000) : réaliser un traitement de texte pour le laotien ................ 62 I.3.3 Deuxième phase (2001-2003) : offrir une aide à la traduction et une base lexicale ........ 68 Conclusion de la première partie : des dynamiques complémentaires .............................................. 70 II. Mise en œuvre concrète sur la langue laotienne....................................................................... 74 II.1 Problèmes spécifiques de l’informatisation du laotien......................................................... 74 II.1.1 Situation de la langue et de l’écriture laotiennes ............................................................. 74 II.1.2 Difficultés dues à l’écriture et aux polices laotiennes...................................................... 81 II.2 Première phase : traitement du texte .................................................................................... 87 II.2.1 Claviers virtuels ...............................................................................................................87 II.2.2 Sélections à la souris et au clavier ................................................................................... 91 II.2.3 Tri lexicographique.......................................................................................................... 93 II.2.4 Fonctions diverses............................................................................................................ 96 II.3 Deuxième phase : aide à la traduction, dictionnaires, Open Source, Unicode................... 102 II.3.1 Aide à la traduction : LaoLex......................................................................................... 102 II.3.2 Ressources linguistiques laotiennes : LaoDict............................................................... 106 II.3.3 Utilisation d’Unicode : LaoUniKey, LaoWord 4 et navigateurs Internet...................... 112 II.3.4 Application simple : aide à la traduction thaï-laotien................................................... 114 Conclusion de la deuxième partie : bilan de l’expérience du laotien .............................................. 115 5/277 Tables et index III. Méthodes pour l’informatisation de groupes de langues peu dotées...................................... 118 III.1 Réflexion sur l’expérience du laotien : réutilisabilité et économies d’échelle................... 118 III.1.1 Technique de réutilisation de code appliquée et bilan quantitatif ............................. 118 III.1.2 Économies d’échelle réalisables................................................................................ 120 III.1.3 Méthodologie d’architecture issue de l’expérience sur le laotien ............................. 122 III.2 Exemple de mise en œuvre sur le groupe des langues à écriture non segmentée .............. 125 III.2.1 Introduction ............................................................................................................... 125 III.2.2 Travaux existant sur les écritures non segmentées.................................................... 126 III.2.3 Modèle grammatical des syllabes.............................................................................. 131 III.2.4 Compilation des grammaires..................................................................................... 143 III.2.5 Traitement des ambiguïtés......................................................................................... 145 III.2.6 Sylla, un outil de mise au point des grammaires syllabiques .................................... 150 III.2.7 Un traitement de texte pour un groupe de langues : GMSWord ............................... 152 III.3 Esquisse de livre