Constitution D'un Corpus Oral Defle : Enjeux Théoriques Et Méthodologiques - 2015 Arbach, Najib
Total Page:16
File Type:pdf, Size:1020Kb
Constitution d'un corpus oral deFLE : enjeux th´eoriques et m´ethodologiques Najib Arbach To cite this version: Najib Arbach. Constitution d'un corpus oral deFLE : enjeux th´eoriqueset m´ethodologiques. Linguistique. Universit´eRennes 2, 2015. Fran¸cais. <NNT : 2015REN20014>. <tel-01147632> HAL Id: tel-01147632 https://tel.archives-ouvertes.fr/tel-01147632 Submitted on 30 Apr 2015 HAL is a multi-disciplinary open access L'archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destin´eeau d´ep^otet `ala diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publi´esou non, lished or not. The documents may come from ´emanant des ´etablissements d'enseignement et de teaching and research institutions in France or recherche fran¸caisou ´etrangers,des laboratoires abroad, or from public or private research centers. publics ou priv´es. THÈSE / UNIVERSITÉ RENNES 2 présentée par sous le sceau de l’Université européenne de Bretagne Najib Arbach pour obtenir le titre de DOCTEUR DE L’UNIVERSITÉ RENNES 2 Discipline : Linguistique EA 3874 LIDILE École doctorale - Arts, Lettres, Langues UFR Langues Thèse soutenue le 6 février 2015 Constitution d’un corpus oral devant le jury composé de : Marie-Claude LE BOT de FLE Professeure, Université Rennes 2 / Directrice de thèse Paul CAPPEAU Enjeux théoriques et méthodologiques Professeur, Université de Poitiers / Rapporteur Dominique LEGALLOIS Maître de Conférences-HDR, Université de Caen / Rapporteur Élisabeth RICHARD Maître de Conférences-HDR, Université Rennes 2 / Examinatrice Arbach, Najib. Constitution d'un corpus oral deFLE : enjeux théoriques et méthodologiques - 2015 Arbach, Najib. Constitution d'un corpus oral deFLE : enjeux théoriques et méthodologiques - 2015 RÉSUMÉ Les méthodologies de constitution de corpus linguistiques ont été amplement étudiées, mais sont moins abondantes quand il s’agit de corpus oraux ; ces méthodologies sont encore plus rares en ce qui concerne l’interlangue orale. Le projet CIL (Corpus Inter Langue), en cours de finalisation à l’Université Rennes 2 et sous la supervision de l’équipe d’accueil LIDILE (EA 3874), vise à la constitution d’un corpus de productions écrites et orales d’apprenants en FLE et ALE. Cette thèse concerne le corpus oral de FLE du projet global (CIL-FLE). Partant du constat que l’intérêt des linguistes pour la langue orale a systématiquement été en retard par rapport à celui porté à la langue écrite, nous nous intéressons dans un premier temps à l’étude de l’oralité dans différents domaines de la linguistique d’un point de vue historique et épistémologique. Le second chapitre est consacré à la linguistique de corpus de manière générale et au corpus en tant qu’objet linguistique en particulier. En ce qui concerne la linguistique de corpus, nous tentons de présenter les différentes méthodologies auxquelles les linguistes ont recours lorsqu’il s’agit de consulter des données : introspection, élicitation ou consultation de données authentiques. Le concept de corpus est ensuite analysé selon un ensemble de critères définitoires que nous étudions en détail, afin de proposer une définition du corpus linguistique. Le troisième et dernier chapitre est la mise en application des constats théoriques dans la constitution du corpus CIL-FLE : nous détaillons les constituants du corpus, les protocoles de collecte et d’archivage. C’est au protocole de transcription que nous nous intéressons en particulier, en insistant sur les difficultés de la transcription de l’interlangue. Le corpus CIL- FLE, qui représente environ 105000 mots, représente le fruit de ce travail et sera ainsi détaillé. Mots-clés : corpus, corpus FLE, corpus oral, corpus d’apprenants, linguistique de corpus, parole spontanée, transcription, transcription de l’interlangue. Abstract The need to design linguistic corpora to support research in linguistics has triggered the development of numerous studies exploring various approaches and methodologies regarding good practices for written corpus building. Fewer studies are available when it comes to spoken data and those that concern the interlanguage of learners are even rarer. The CIL project (Corpus Inter Langue), under completion at the University of Rennes2 and supervised by a research team specialising in the fields of linguistics and pedagogy (LIDILE), aims at building a large corpus of written and spoken productions in EFL and in FFL. This phd dissertation mainly focuses on the FFL (French as a Foreign Language) corpus (CIL-FLE). The first chapter of the thesis is dedicated to the study of oral speech as a linguistic object from both a historical and an epistemological perspective. The second chapter tackles the question of corpus linguistics generally speaking as well as the concept/ notion of corpus as a linguistic object. Regarding corpus linguistics, we will review and explore the diverse approaches and methods that are used so as to carry out research enquiries: introspection, elicitation or consultation of authentic data. The concept of corpus is then analysed according to/following a series of criteria which we will closely examine in order to propose a definition of the linguistic corpus. The third and last chapter will implement the former theoretical findings through the description of the CIL corpus design. Thus, corpus constituents, transcription and archiving protocols will be described in detail. We are particularly interested in the transcription protocol and we will insist on the difficulties encountered when attempting to transcribe learners ‘data. Finally, the CIL-FLE corpus, which contains approximately 105 000 words and was developed all along this phd, will be described. Key words: corpora, FFL, oral speech, learner corpora, corpus linguistics, spontaneous speech, transcription, interlanguage transcription. Arbach, Najib. Constitution d'un corpus oral deFLE : enjeux théoriques et méthodologiques - 2015 Arbach, Najib. Constitution d'un corpus oral deFLE : enjeux théoriques et méthodologiques - 2015 Remerciements Je remercie Madame Marie-Claude Le Bot pour l’encadrement de cette thèse. Ses conseils et son soutien m’ont été précieux et je lui suis reconnaissant de m’avoir dirigé. Les lacunes et défauts qui subsistent sont de ma responsabilité. Je remercie les rapporteurs Monsieur Paul Cappeau et Monsieur Dominique Legallois d’avoir accepté d’évaluer ce travail. Je remercie également Madame Élisabeth Richard pour sa présence lors de ma soutenance et pour toute son aide. Je remercie Madame Martine Schuwer qui a mis en place le projet CIL. Je remercie Saandia Ali pour tous nos travaux communs, ainsi que l’ensemble des membres de LIDILE. Je remercie mes professeurs à l’Université de Damas, notamment Monsieur Nabil Zreik pour son soutien et son aide. Je remercie le ministère syrien de l’Enseignement supérieur de m’avoir permis de venir poursuivre mes études en France. Je remercie tous ceux qui ont contribué, de près ou de loin, à la constitution du corpus CIL, nos étudiants en Master 1 et bien entendu les apprenants qui ont accepté d’être enregistrés. J’exprime ma gratitude à ma famille, Hanna, Madeleine, Soulafa, Layla, Jad, Rimi, Samira et Najib, et je remercie mes amis pour leur soutien. Arbach, Najib. Constitution d'un corpus oral deFLE : enjeux théoriques et méthodologiques - 2015 Arbach, Najib. Constitution d'un corpus oral deFLE : enjeux théoriques et méthodologiques - 2015 Table des matières TABLE DES MATIÈRES ....................................................................................................... 1 TABLE DES TABLEAUX ET DES FIGURES .................................................................... 5 INTRODUCTION GÉNÉRALE ............................................................................................ 7 1. CHAPITRE 1 : HISTORIQUE DES CORPUS ORAUX ............................................................. 13 1.1 Introduction du premier chapitre ............................................................................. 15 1.2 Corpus et TAL .......................................................................................................... 21 1.2.1 TAL, TA et théories linguistiques .................................................................... 24 1.2.1.1 Structuralisme et TAL/TA ....................................................................... 25 1.2.1.2 Générativisme et TAL/TA ....................................................................... 27 1.2.2 Déclin temporaire du TAL aux États-Unis, naissance du TAL en France ....... 28 1.2.3 La relation entre TAL et corpus ....................................................................... 30 1.2.3.1 Le projet SEU, un corpus moderne non numérique ................................. 30 1.3 Corpus et acquisition du langage ............................................................................. 33 1.3.1 Les premiers baby books ou diary’s note ......................................................... 34 1.3.2 Corpus transversaux et corpus longitudinaux .................................................. 35 1.3.3 Situation actuelle .............................................................................................. 37 1.4 Corpus et lexicographie ........................................................................................... 38 1.4.1 Les corpus lexicographiques pré-informatiques .............................................. 41 1.4.2 Les corpus lexicographiques modernes ...........................................................