UNIVERSITE DE FRANCHE-COMTE SCIENCES DU LANGAGE Huei

UNIVERSITE DE FRANCHE-COMTE É COLE DOCTORALE «LANGAGES, ESPACES, TEMPS, SOCIETES» Thèse en vue de lřobtention du titre de docteur en SCIENCES DU LANGAGE UN MODULE NOOJ POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS : FORMALISATION DU VOCABULAIRE ET DES TETES DES GROUPES NOMINAUX Présentée et soutenue publiquement par Huei-Chi LIN Le 15 juin 2010 Sous la direction de M. le Professeur Max SILBERZTEIN et la co-direction de Mme la Maître de Conférence H.D.R. Zhitang YANG-DROCOURT Membres du jury : Joël BELLASSEN, Directeur de recherche associé à lřinstitut National des Langues et Civilisations Orientales, Rapporteur Andrée CHAUVIN-VILENO, Professeur à lřuniversité de Franche-Comté Anaïd DONABÉDIAN-DEMOPOULOS, Professeur à lřinstitut National des Langues et Civilisations Orientales, Rapporteur Max SILBERZTEIN, Professeur à lřuniversité de Franche-Comté Zhitang YANG-DROCOURT, Maître de Conférence H.D.R à lřinstitut National des Langues et Civilisations Orientales. REMERCIEMENTS Je dois avant tout une immense gratitude à Monsieur Max Silberztein, mon directeur de thèse. Je le remercie dřavoir montré tant dřintérêt pour mes recherches et de mřavoir si souvent indiqué la meilleure façon de parvenir à mon but. Il mřa fait découvrir un domaine de recherche dont jřignorais tout jusquřalors. Je tiens à remercier également Madame Zhitang Yang-Drocourt grâce à qui jřai approfondi mes connaissances en linguistique chinoise. Elle mřa fait connaître de nombreux travaux de recherche consacrés aux phénomènes linguistiques en chinois moderne, elle mřa beaucoup encouragée au moment de la rédaction de cette thèse et mřa donné de nombreux conseils concrets pour lřaméliorer. Je veux remercier aussi Monsieur Joël Bellassen, directeur de recherche associé à lřInstitut National des Langues et des Civilisations Orientales ; Madame Andrée Chauvin-Vileno, professeur à lřUniversité de Franche-Comté ; Madame Anaïd Donabédian-Demopoulos, professeur à lřInstitut National des Langues et des Civilisations Orientales. Ils mřont consacré beaucoup de leur temps et ont formulé sur ma thèse maintes remarques constructives. Je remercie chaleureusement Monsieur Yuan Qi, chercheur au China Center for Information Industry Development à Pékin ; Monsieur Dong Zhendong, directeur du Language Knowledge Department au Computer & Language Information Research Centre, Chinese Academy of Sciences ; Monsieur Zhan Weidong, professeur à Peking University et Monsieur Song Ro, professeur à Beijing Language and Culture University. Nous avons eu plusieurs discussions concernant le développement dřun module chinois en Traitement Automatique des Langues Naturelles. Un grand merci à Monsieur Mao Xinian, chercheur de France Télécom à Pékin, qui nřa pas épargné son temps pour mřaider à construire les dictionnaires électroniques. Je remercie également Madame Françoise Roullier-Singh. Elle a lu une partie de mon manuscrit et mřa soutenue pendant mes années parisiennes. Elle a su me redonner espoir lorsque je traversais des périodes du découragement. Je lui dois de précieux aperçus sur la littérature, la vie à Paris (et la cuisine !) Je tiens à remercier encore Madame Sabine de Barbuat, qui a accepté de corriger la première version de cette thèse. Ses suggestions mřont permis dřen clarifier la première rédaction. Jřaimerais aussi remercier Monsieur Gérard Gautier. Sans lřintérêt quřil a montré, je nřaurais pu terminer cette étude dans les délais prévus. Il mřa donné des conseils précieux pour améliorer mon texte. Je remercie également mes amies taïwanaises Liu Jiayian 劉佳燕 et Wu Yafen 吳雅楓, qui ont toujours trouvé du temps pour me relire. Je nřoublie certes pas Madame Chen Feifei 鄭斐斐 de Besançon. Elle mřa donné de nombreux conseils et mřa beaucoup appris sur la vie en France. Je remercie Wu Yuchen 吳毓淳 grâce à qui jřai pu résoudre maints problèmes de la vie quotidienne. Je voudrais dire toute ma reconnaissance à mes amis Chen Yiojun 鄭祐君, Du Yujie 杜雨潔, Lin Yuwen 林郁雯, Chaou Roqian 邱柔千, Zhou Guanbei 周冠貝 et Chen Jiexuan 陳玠璇. Je me souviendrai toujours de lřamical soutien quřils mřont apporté. Enfin, mes plus sincères remerciements vont à mes parents et à mon frère qui mřont toujours soutenue moralement malgré lřéloignement. Sans eux, cette thèse nřaurait jamais été terminée. Leur soutien et leurs encouragements mřont permis de mener à bien ce travail. 林惠祺 Lin Huei-Chi TABLE DES MATIERES REMERCIEMENTS...............................................................................................................................I CONVENTIONS D’ECRITURE ........................................................................................................ XI ABREVIATIONS ET SYMBOLES ................................................................................................... XII RESUME ........................................................................................................................................... XIII ABSTRACT ...................................................................................................................................... XIV INTRODUCTION .................................................................................................................................. 1 MOTIVATION ......................................................................................................................................... 1 QUELQUES DIFFICULTES RELATIVES A LA SPECIFICITE DU LEXIQUE CHINOIS ............................................ 2 BUT DE CETTE RECHERCHE .................................................................................................................... 3 LIMITES DE CETTE ETUDE ...................................................................................................................... 3 PLAN DE LA THESE ................................................................................................................................ 4 PREMIERE PARTIE : INTRODUCTION GENERALE AU CHINOIS MODERNE, AU TRAITEMENT AUTOMATIQUE DES LANGUES NATURELLES ET A SON APPLICATION AU CHINOIS ................................................................................................................................................ 7 CHAPITRE 1 ......................................................................................................................................... 9 INTRODUCTION AU CHINOIS MODERNE ..................................................................................... 9 1.1 DU WENYAN AU BAIHUA ................................................................................................................... 9 1.2 VARIETES DU CHINOIS MODERNE .................................................................................................... 9 1.3 LES ELEMENTS PHONOLOGIQUES .................................................................................................. 10 1.3.1 La structure syllabique......................................................................................................... 10 1.3.2 Le syllabisme du chinois moderne ........................................................................................ 11 1.4 LřINTRODUCTION SUR LE SON, LE SENS ET LA FORME GRAPHIQUE .................................................. 12 1.5 LE LEXIQUE CHINOIS .................................................................................................................... 12 1.5.1 Concept de ―mot‖ en chinois ............................................................................................... 12 1.5.2 Bref aperçu sur la structure interne des mots chinois ........................................................... 13 1.5.2.1 Le statut morphologique ........................................................................................................................13 1.5.2.2 La liberté syntaxique ..............................................................................................................................14 1.6 LES CATEGORIES DE MOTS EN CHINOIS .......................................................................................... 14 1.7 SYNTAGMES CHINOIS ................................................................................................................... 15 1.8 LE STATUT DU CARACTERE CHINOIS .............................................................................................. 16 CHAPITRE 2 ....................................................................................................................................... 18 INTRODUCTION AU TRAITEMENT AUTOMATIQUE DES LANGUES NATURELLES: METHODES ET MODELES INFORMATIQUES ............................................................................ 18 2.1 GRAMMAIRES FORMELLES ........................................................................................................... 18 2.2 LA HIERARCHIE DE CHOMSKY ...................................................................................................... 19 2.3 LES TROIS GRAMMAIRES DřUNIFICATION ...................................................................................... 21 2.3.1 La grammaire lexicale fonctionnelle .................................................................................... 21 2.3.2 La grammaire syntagmatique guidée par les têtes ................................................................ 21 2.3.3 La grammaire d‘arbres adjoints ........................................................................................... 22 2.4 NOOJ ..........................................................................................................................................

UNIVERSITE DE FRANCHE-COMTE SCIENCES DU LANGAGE Huei

Legacy Character Sets & Encodings

Basis Technology Unicode対応ライブラリスペックシート文字コードその他の名称 Adobe-Standard-Encoding A

Implementing Cross-Locale CJKV Code Conversion

JS Character Encodings

San José, October 2, 2000 Feel Free to Distribute This Text

AIX Globalization

International Language Environments Guide

The Chinese University of Hong Kong

Unicode Support in the Solaris™ 7 Operating Environment

Unicode Support in the Solaris Operating Environment

The Unicode Standard, Version 4.0--Online Edition

Building Cmap Files for CID-Keyed Fonts