Modèles Et Outils Pour Des Bases Lexicales "Métier" Multilingues Et
Total Page:16
File Type:pdf, Size:1020Kb
THÈSE Pour obtenir le grade de DOCTEUR DE LA COMMUNAUTE UNIVERSITE GRENOBLE ALPES Spécialité : INFORMATIQUE Arrêté ministériel : 7 août 2006 Présentée par Ying ZHANG Thèse dirigée par Christian BOITET et codirigée par Valérie BELLYNCK et Mathieu MANGEOT-NAGATA préparée au sein du Laboratoire d’Informatique de Grenoble dans l'École Doctorale « Mathématiques, Sciences et Technologies de l’Information, informatique » Modèles et outils pour des bases lexicales "métier" multilingues et contributives de grande taille, utilisables tant en traduction automatique et automatisée que pour des services dictionnairiques variés Thèse soutenue publiquement le 28 juin 2016 , devant le jury composé de : Prof. Ahmed LBATH Professeur, UGA, Président Prof. Denis MAUREL Professeur, Tours, Rapporteur Prof. Alain POLGUERE Professeur, Nancy, Rapporteur MdC. Mathieu LAFOURCADE Maître de conférence, Montpellier II, Examinateur Prof. Antoine Chalvin Professeur, INaLCO, Examinateur Prof. Christian BOITET Professeur, UGA, Directeur MdC. Valérie BELLYNCK Maître de conférence, Grenoble-INP, Co-Directrice MdC. Mathieu MANGEOT-NAGATA Maître de conférence, UdSavoie, Co-Directeur UNIVERSITÉ DE GRENOBLE ° N attribué par la bibliothèque /__/__/__/__/__/__/__/__/__/ THÈSE pour obtenir le grade de DOCTEUR ÈS SCIENCES délivré par l'UNIVERSITÉ GRENOBLE ALPES Spécialité : “INFORMATIQUE” Thèse préparée au laboratoire GETALP-LIG (CNRS-INPG-UJF) dans le cadre de l'École Doctorale “Mathématiques, Sciences et Technologies de l 'Information, Informatique” présentée et soutenue publiquement par Ying ZHANG Le 28/6/2016 Modèles et outils pour des bases lexicales "métier" multilingues et contributives de grande taille, utilisables tant en traduction automatique et automatisée que pour des services dictionnairiques variés JURY M. Ahmed LBATH , prof. UGA Président M. Denis MAUREL , prof. Tours Rapporteur M. Alain POLGUERE , prof. Nancy Rapporteur M. Mathieu LAFOURCADE , MdC Montpellier II Examinateur M. Antoine Chalvin, prof. INaLCO Examinateur M. François BROWN DE COLSTOUN , PDG de L&M Invité M. Christian BOITET , prof. UGA Directeur de thèse Mme Valérie BELLYNCK , MdC G-INP Codirecteur de thèse M. Mathieu MANGEOT -NAGATA , MdC UdSavoie Codirecteur de thèse 1/202 Remerciements Les travaux présentés dans cette thèse ont fait l'objet d'une convention CIFRE entre la société Lingua et Machina et le GETALP (Groupe d'Étude pour la Traduction Automatique et le Traitement Automatisé des Langues et de la Parole) du LIG (Laboratoire d'Informatique de Grenoble). Je voudrais tout d'abord remercier le professeur Christian Boitet, mon directeur de thèse, qui est à l'origine de ce travail. C'est un honneur pour moi de travailler avec lui et je ne peux qu'admirer son talent. Je lui suis infiniment reconnaissante, non seulement parce qu'il a accepté de me prendre en thèse, mais aussi parce qu'il a partagé ses idées avec moi. Il a dirigé ma thèse avec beaucoup de patience et il a dédié beaucoup de temps à mon travail en étant toujours très disponible et en venant me chercher très souvent pour que l'on discute, ce qui m'a énormément encouragée. Je le remercie aussi d'avoir lu très sérieusement beaucoup de versions préliminaires de ces travaux. J'adresse de chaleureux remerciements à mon co-directeur M. Mathieu Mangeot. Il m'a accueilli gentiment chaque fois que je venais l'embêter pour lui poser des questions et ses réponses m'ont toujours éclairci les idées. J'admirerai toujours son savoir ainsi que sa capacité à l'exposer et à le partager. Il a aussi dédié beaucoup de son temps à discuter avec moi à propos de mon avenir et je lui en suis très reconnaissante. Un grand merci à mon autre co-directeur Mme Valérie Bellynck. Tout d'abord pour son accueil, mais surtout pour les nombreuses discussions que nous avons eues sur son concept de "langage narratif" et pour son aide constante en ce qui concerne les supports techniques pour mes développements. Elle m'a beaucoup appris, non seulement sur la vie scientifique, mais aussi sur la vie culturelle, et sur la vie tout court. J'ai énormément apprécié son enthousiasme et sa sympathie. Je tiens à remercier particulièrement le président de Lingua et Machina, M. François Brown de Colstoun, sans qui cette thèse CIFRE n'aurait sûrement jamais vu le jour. Mes remerciements s'adressent également aux professeurs Denis Maurel et Alain Polguère pour avoir accepté de rapporter sur ma thèse et pour l'intérêt qu'ils ont porté à ces travaux. J'espère qu'à l'avenir nous serons amenés à échanger de nouveau sur ce sujet passionnant. Un grand merci aussi au professeur Ahmed Lbath pour m'avoir fait l'honneur de présider le jury de ma thèse. Antoine Chalvin, professeur d'estonien à l'INaLCO, et contributeur majeur du projet GDEF (Grand Dictionnaire Estonien-Français) développé en JIBIKI avec le support de M. Mangeot depuis 2003, a accepté de participer à ce jury malgré ses lourdes tâches à Paris. Je l'en remercie d'autant plus. Mathieu Lafourcade, Maître de Conférences HDR à Montpellier, et spécialiste de la création contributive de grandes bases lexicales vers des "jeux sérieux", et de désambiguïsation lexicale, a accepté de faire partie de mon jury. C'est un grand honneur pour moi de les remercier. Mes derniers remerciements iront évidemment à ma famille. Je pense tout d'abord à mes parents qui m'ont toujours épaulée dans mes études, mes décisions et mes choix, même si je n'ai pas pu être à leurs côtés pendant une longue période. Ensuite, je voudrais remercier mon mari Wang Ling Xiao, qui partage ma vie, et a fait aussi sa thèse en CIFRE avec L&M, sur un sujet complémentaire (les bases de données "corporales") et mon fils Wang Xin Di qui m'a apporté beaucoup de joie durant ma vie de doctorante. 2/202 Résumé en français Notre recherche se situe en lexicographie computationnelle, et concerne non seulement le support informatique aux ressources lexicales utiles pour la TA (traduction automatique) et la THAM (traduction humaine aidée par la machine), mais aussi l'architecture linguistique des bases lexicales supportant ces ressources, dans un contexte opérationnel (thèse CIFRE avec L&M). Nous commençons par une étude de l'évolution des idées, depuis l'informatisation des dictionnaires classiques jusqu'aux plates-formes de construction de vraies "bases lexicales" comme JIBIKI -1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] et JIBIKI -2 [Zhang, Y. et al., 2014]. Le point de départ a été le système PIVAX -1 [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] de bases lexicales pour systèmes de TA hétérogènes à pivot lexical supportant plusieurs volumes par "espace lexical" naturel ou artificiel (UNL). En prenant en compte le contexte industriel, nous avons centré notre recherche sur certains problèmes, informatiques et lexicographiques. Pour passer à l'échelle, et pour profiter des nouvelles fonctionnalités permises par JIBIKI -2, dont les "liens riches", nous avons transformé PIVAX -1 en PIVAX -2, et réactivé le projet GBD LEX -UW++ commencé lors du projet ANR TRAOUIERO , en réimportant toutes les données (multilingues) supportées par PIVAX -1, et en les rendant disponibles sur un serveur ouvert. Partant d'un besoin de L&M concernant les acronymes, nous avons étendu la "macrostructure" de PIVAX en y intégrant des volumes de "prolexèmes", comme dans PROLEXBASE [Tran, M. & Maurel, D., 2006]. Nous montrons aussi comment l'étendre pour répondre à de nouveaux besoins, comme ceux du projet INNOVALANGUES . Enfin, nous avons créé un "intergiciel de lemmatisation", LEXTOH , qui permet d'appeler plusieurs analyseurs morphologiques ou lemmatiseurs, puis de fusionner et filtrer leurs résultats. Combiné à un nouvel outil de création de dictionnaires, CREAT DICO , LEXTOH permet de construire à la volée un "mini-dictionnaire" correspondant à une phrase ou à un paragraphe d'un texte en cours de "post-édition" en ligne sous IMAG/SECT RA , ce qui réalise la fonctionnalité d'aide lexicale proactive prévue dans [Huynh, C.-P., 2010]. On pourra aussi l'utiliser pour créer des corpus parallèles "factorisés" pour construire des systèmes de TA en MOSES . Abstract in English Our research is in computational lexicography, and concerns not only the computer support to lexical resources useful for MT (machine translation) and MAHT (Machine Aided Human Translation), but also the linguistic architecture of lexical databases supporting these resources in an operational context (CIFRE thesis with L&M). We begin with a study of the evolution of ideas in this area, since the computerization of classical dictionaries to platforms for building up true "lexical databases" such as JIBIKI -1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] and JIBIKI -2 [Zhang, Y. et al., 2014]. The starting point was the PIVAX -1 system [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] designed for lexical bases for heterogeneous MT systems with a lexical pivot, able to support multiple volumes in each "lexical space", be it natural or artificial (as UNL). Considering the industrial context, we focused our research on some issues, in informatics and lexicography. To scale up, and to add some new features enabled by JIBIKI -2, such as the "rich links", we have transformed PIVAX -1 into PIVAX -2, and reactivated the GBD LEX -UW++ project that started during the ANR TRAOUIERO project, by re-importing all (multilingual) data supported by PIVAX -1, and making them available on an open server. Hence a need for L&M for acronyms, we expanded the "macrostructure" of PIVAX incorporating volumes of "prolexemes" as in PROLEXBASE [Tran, M. & Maurel, D., 2006]. We also show how to extend it to meet new needs such as those of the INNOVALANGUES project. Finally, we have created a "lemmatisation middleware", LEXTOH , which allows calling several morphological analyzers or lemmatizers and then to merge and filter their results. Combined with a new dictionary creation tool, CREAT DICO , LEXTOH allows to build on the fly a "mini-dictionary" corresponding to a sentence or a paragraph of a text being "post-edited" online under IMAG/SECT RA , which performs the lexical proactive support functionality foreseen in [Huynh, C.-P., 2010].