Corpus

15 | 2016 Corpus de français parlé et français parlé des corpus

Electronic version URL: http://journals.openedition.org/corpus/2912 ISSN: 1765-3126

Publisher Bases ; corpus et langage - UMR 6039

Printed version Date of publication: 15 October 2016 ISSN: 1638-9808

Electronic reference Corpus, 15 | 2016, « Corpus de français parlé et français parlé des corpus » [Online], Online since 15 January 2017, connection on 08 September 2020. URL : http://journals.openedition.org/corpus/2912

This text was automatically generated on 8 September 2020.

© Tous droits réservés 1

TABLE OF CONTENTS

Introduction Mathieu Avanzi, Marie-José Béguelin and Federica Diémoz

Les ESLO, du portrait sonore au paysage digital Olivier Baude and Céline Dugua

Le Corpus FRAN : réseaux et maillages en Amérique française France Martineau and Marie-Claude Séguin

Le projet ORFÉO : un corpus d’étude pour le français contemporain Christophe Benzitoun, Jeanne-Marie Debaisieux and Henri-José Deulofeu

Le Corpus de français parlé au Québec (CFPQ) et la langue des conversations familières : Exemple de mise à profit des données à partir d’un examen lexico-sémantique de la séquence je sais pas Gaétane Dostie

Corpus international écologique de la langue française (CIEL-F) : un corpus pour la recherche comparée sur le français parlé Lorenza Mondada and Stefan Pfänder

CLAPI, une base de données multimodale pour la parole en interaction : apports et dilemmes H. Baldauf-Quilliatre, I. Colón de Carvajal, C. Etienne, E. Jouin-Chardon, S. Teston-Bonnard and V. Traverso

Disfluences et vieillissement langagier. De la base de données VALIBEL aux corpus outillés en français parlé Catherine T. Bolly, George Christodoulides and Anne Catherine Simon

PFC, codages et représentations : la question du schwa Isabelle Racine, Jacques Durand and Helene N. Andreassen

La liaison dans un corpus d’apprenants : Le projet « Interphonologie du Français Contemporain » (IPFC) Isabelle Racine and Sylvain Detey

Le CFPP2000 : constitution, outils et analyses. Le cas des interrogatives indirectes Sonia Branca-Rosoff and Florence Lefeuvre

Construire un corpus pour des façons de parler non standard : « Multicultural Paris French » Françoise Gadet and Emmanuelle Guerin

De l’archive de parole au corpus de référence : la base de données orales du français de Suisse romande (OFROM) Mathieu Avanzi, Marie-José Béguelin and Federica Diémoz

La contribution des corpus oraux à la description de phénomènes de grammaticalisation. Que nous apprend le CFPB (Corpus de français parlé à Bruxelles) sur les périphrases en aller + infinitif ? Emmanuelle Labeau and Anne Dister

Comptes rendus

Tommaso RASO et Heliana MELLO (éd.), Spoken corpora and linguistic studies. Amsterdam : John Benjamins Publishing, 2014, 498 p. Florence Lefeuvre

Corpus, 15 | 2016 2

Henry TYNE, Virginie ANDRÉ, Christophe BENZITOUN, Alex BOULTON et Yan GREUB (éd.), French through corpora : ecological and data-driven perspectives in studies. Newcastle upon Tyne UK : Cambridge Scholars Publishing, 2014, 343 p. Filip Verroens

Cécile ALDUY et Stéphane WAHNICH, Marine Le Pen prise aux mots. Décryptage du nouveau discours frontiste. Paris : Seuil, 2015, 311 p. Camille Bouzereau

Corpus, 15 | 2016 3

Introduction

Mathieu Avanzi, Marie-José Béguelin et Federica Diémoz

Le présent ouvrage n’aurait pas vu le jour sans le soutien généreux du Fonds National Suisse de la recherche scientifique, du Décanat de la Faculté des Lettres et Sciences humaines de l’Université de Neuchâtel, de l’Association William Pierrehumbert et du projet Encyclopédie grammaticale du français (http:// encyclogram.fr). D’autre part, François Delafontaine et Emmanuelle Narjoux ont contribué avec efficacité à la préparation matérielle et à la correction du manuscrit. Que tous soient ici chaleureusement remerciés.

1 Depuis un peu plus d’une décennie, on assiste dans le domaine de la francophonie à un intérêt croissant des chercheurs pour la constitution de grands corpus de français parlé, si bien que le retard par rapport aux autres langues comme l’anglais, l’espagnol ou le néerlandais, que regrettaient Bilger & Blanche-Benveniste (1999), est en train de se réduire. De nombreuses publications visant à présenter les différentes bases de données existantes (Bruxelles, Mondada, Simon & Traverso, 2009) ou à en faire le recensement (Cappeau & Seijido, 2005 ; Cappeau & Gadet, 2007) ont vu le jour. Un guide des bonnes pratiques (Baude, 2005) et des consortiums1 ont été mis en place afin que les efforts des uns et des autres soient mieux canalisés, et que les corpus soient comparables et inter-interrogeables.

2 Vers la fin des années 90, les discussions portaient essentiellement autour des problèmes d’édition des enregistrements de français parlé, ou visaient à démontrer l’importance des corpus de français parlé pour la description linguistique des langues. Claire Blanche-Benveniste et son équipe ont largement contribué à alimenter le débat et à faire avancer les mentalités. Grâce aux chercheurs aixois, le plaidoyer en faveur de l’utilisation de corpus oraux pour la recherche n’est plus nécessaire aujourd’hui. Grâce à eux également, l’idée selon laquelle le français parlé doit être transcrit en orthographe standard, avec un minimum de recours aux trucages orthographique, est plutôt bien acceptée dans la communauté. Parallèlement, les développements de l’informatique ont donné naissance à toute une série de logiciels qui rendent les transcriptions plus efficaces, plus précises et plus rapides, et qui permettent une transcription synchronisée du texte avec l’audio et la vidéo sur des couches de transcription distinctes mais parallèles. Plus personne, aujourd’hui, n’aurait l’idée de procéder à des transcriptions d’enregistrements dans des éditeurs de texte. Enfin, il

Corpus, 15 | 2016 4

faut souligner que le stockage numérique et le développement de l’Internet ont considérablement facilité l’archivage pérenne et l’échange de données, de même que l’investigation via des concordanciers.

3 Dans ce contexte, nous avons pensé que le temps était venu d’établir un bilan sur l’état des grands corpus de français parlé. Le présent ouvrage, qui reprend et complète des présentations faites lors d’un colloque qui s’est tenu les 8 et 9 mai 2014 à la Faculté des lettres et sciences humaines de l’Université de Neuchâtel, vise à faire le point sur les aspects qui caractérisent quelques-unes des grandes collectes de données actuellement développées en France métropolitaine et dans les autres pays de la francophonie. Au total, treize corpus sont présentés dans ce recueil.

4 Les corpus en question contiennent des données enregistrées aux quatre coins de la francophonie (corpus PFC, I-PFC et CIEL-F), des données de français « non hexagonales », propres à des régions ou à des territoires déterminés (la Suisse pour OFROM, la Belgique pour VALIBEL et CFPB, l’Amérique du Nord pour CFPQ et FRAN), des enregistrements réalisés à Paris (CFPP, MPF) et à Orléans (ESLO) ou encore des enregistrements regroupant des locuteurs d’origines diverses (CLAPI et ORFEO). Outre le critère géographique, ces corpus se distinguent sur plusieurs points, plus ou moins corrélés. Le premier point concerne la diversité des situations de parole : tous les corpus contiennent des entretiens à dominante monologique et des conversations (CFPP, CFPB, CFPQ, MPF et OFROM), d’autres y ajoutent des enregistrements de lectures fabriquées pour l’étude de phénomènes phonologiques précis (PFC et IPFC), d’autres encore contiennent des interactions entre pairs recueillies dans des contextes écologiques variés (CLAPI, ESLO, FRAN, VALIBEL). Le second point concerne les objectifs originaux qui ont guidé la constitution de ces corpus, souvent reliés aux préoccupations théoriques des équipes ou des laboratoires à l’origine des projets : étude de la grammaire et de la syntaxe (CFPB, CFPQ, ORFEO), du lexique, de la syntaxe et de la phonologie (OFROM), de phénomènes phonologiques comme le schwa et la liaison (PFC, IPFC), des interactions (CLAPI), des phénomènes discursifs (CFPQ), ou de plusieurs de ces domaines en même temps dans une perspective sociolinguistique (ELSO, FRAN, MPF, VALIBEL). Ces corpus diffèrent également par les supports de transcription et de diffusion choisis. Tous contiennent des transcriptions réalisées avec des logiciels permettant de lire la transcription synchronisée avec le son (Praat, Transcriber) ou la vidéo (Elan, Clan), même si certains abritent encore de la parole transcrite dans des éditeurs de texte, et en cours de numérisation (CLAPI, ESLO, VALIBEL). Un autre point de comparaison concerne les annotations disponibles et diffusées en plus de la transcription. Des corpus comme PFC et IPFC proposent des codages de phénomènes phonologiques, d’autres un codage en parties du discours (CFPP, OFROM, ORFEO, VALIBEL) ou des annotations pour l’étude des interactions (CIEL-F, CLAPI). Enfin, il importe de le souligner, ces corpus se distinguent par leur taille : des CLAPI, ESLO, PFC et VALIBEL contiennent plus d’un million de mots transcrits, alors que les autres sont de taille plus modeste, parce que plus jeunes (CFPP, CFPQ, I-PFC, MPF, ORFEO, CFPB, FRAN, OFROM).

5 Dans un souci de comparabilité et d’homogénéité, nous avons demandé aux auteurs de respecter dans leurs contributions le format suivant : (i) présentation succincte du corpus (bref historique ; nature des données traitées ; description des métadonnées, format des transcriptions et des annotations) ; (ii) exposé des résultats d’une ou de plusieurs études menées sur la base d’une partie au moins des annotations du corpus.

Corpus, 15 | 2016 5

Nous avons regroupé les articles selon le domaine de recherche que les différents auteurs ont choisi de focaliser. La première partie regroupe les contributions portant sur des problèmes méthodologiques associés à la constitution et l’annotation de corpus hétérogènes, du point de vue tant de la diversité des situations de parole que de celle de leur provenance (corpus ESLO, FRAN et ORFEO). La seconde partie regroupe les contributions qui présentent des phénomènes discursifs, abordés dans les présentations de CFPQ, CIEL-F, CLAPI et VALIBEL. Les textes consacrés aux phénomènes phonologiques (corpus PFC et I-PFC), comme le schwa et la liaison, sont regroupés dans la partie 3. La dernière série d’articles présente quant à elle les résultats d’analyses relevant de l’étude du lexique, de la syntaxe et/ou de la prosodie (CFPP, MPF, OFROM, CFPB, FRAN).

BIBLIOGRAPHIE

Bilger M. & Blanche-Benveniste C. (1999). « Français parlé-oral spontané. Quelques réflexions », Revue française de linguistique appliquée 4 : 21-30.

Baude O. (2006). Corpus oraux. Guide des bonnes pratiques. Paris : CNRS Éditions.

Bruxelles S., Mondada L., Simon A. C. & Traverso V. (2009). Grands Corpus de français parlé : Bilan historique et perspectives de recherche (= Cahier de linguistique de Louvain 33/2). Louvain : Presses universitaires de Louvain.

Cappeau P. & Seijido M. (2005). « Inventaire des corpus oraux en langue française », document téléchargeable à l’adresse www.dglflf.culture.gouv.fr.

Cappeau P. & Gadet F. (2007). « Où en sont les corpus sur les français parlés ? », Revue française de linguistique appliquée 12 : 129-133.

Gadet F. (2013). « Des corpus pour les français hors de France. Présentation de la banque de données DGLFLF », document téléchargeable à l’adresse https://halshs.archives-ouvertes.fr/ halshs-00875894.

NOTES

1. Cf. par exemple les projets IRCOM (http://ircom.corpus-ir.fr/site/accueil.php) et ORTOLANG (http://www.ortolang.fr).

Corpus, 15 | 2016 6

AUTEURS

MATHIEU AVANZI Universités de Genève et de Zurich

MARIE-JOSÉ BÉGUELIN Université de Neuchâtel

FEDERICA DIÉMOZ Université de Neuchâtel

Corpus, 15 | 2016 7

Les ESLO, du portrait sonore au paysage digital ESLO: from the sound portrait to the digital landscape

Olivier Baude et Céline Dugua

1 Les Enquêtes sociolinguistiques à Orléans (dorénavant ESLO) forment un grand corpus oral de plusieurs millions de mots. Ce corpus a été réalisé à deux époques importantes de la linguistique contemporaine. La première enquête (ESLO1), élaborée à la fin des années soixante, accompagne la naissance d’une sociolinguistique urbaine fondée sur un grand corpus d’enquêtes, et la seconde (ESLO2), commencée au début des années 2000, a profité du tournant numérique produit par les Digital Humanities en sciences humaines et sociales. Résolument ancrées dans le courant de la sociolinguistique et de la linguistique variationniste, les ESLO forment le socle d’études sur le français parlé à Orléans dans une perspective qui place les données au cœur d’études sur la nature sociale de la langue.

2 Cet article vise à décrire le travail réalisé depuis une dizaine d’années par l’équipe du projet des ESLO en le confrontant à ses cadres théoriques et méthodologiques. Après avoir abordé brièvement l’ancrage sociolinguistique du statut des données et le périmètre du français parlé, nous présenterons le travail réalisé afin de faire de ces corpus un « objet scientifique disponible » et situé.

1. Sociolinguistique et corpus

3 La notion de corpus croise différentes approches parfois relativement éloignées selon qu’on se situe dans une perspective de linguistique de terrain ou de linguistique informatisée. Elle prend néanmoins un sens bien plus défini dans le cadre du programme de la sociolinguistique tel qu’il a été établi dans la seconde moitié du vingtième siècle.

Corpus, 15 | 2016 8

1.1 Nature sociale de la langue

4 La sociolinguistique s’est fondée sur une relecture pertinente de définition même de l’objet de la linguistique et sur la volonté de couvrir l’ensemble du domaine. Pour Labov, la sociolinguistique n’est pas une des branches de la linguistique, et pas davantage une discipline interdisciplinaire : c’est d’abord la linguistique, toute la linguistique – mais la linguistique remise sur ses pieds. Elle se fonde sur l’ambition de remplir dans sa totalité le programme que la linguistique se donne dans sa définition moderne – et de l’outrepasser du seul fait de ne pas réduire son objet. (Encrevé, 1976 : 9)

5 Dans cette perspective, la sociolinguistique définit la langue comme étant partie prise et partie prenante d’un social qui ne peut se réduire à un trésor collectif. Si le social est divisé et lieu de luttes et d’enjeux qui le structurent, la langue en porte, dans sa nature même, les caractéristiques qui font de la variation le principe même de celle-ci : Une partie fondamentale des variations présentées par les paroles individuelles est elle aussi « instituée socialement », et par là même gouvernée par des règles : elle fait partie du système de la langue. Elle trouve normalement sa place dans la « linguistique interne » telle que la définit le CLG : « Est interne tout ce qui concerne le système et les règles […] est interne tout ce qui change le système à un degré quelconque ». (Encrevé, 1976 : 11-12)

6 Cette conception de la variation comme composante inhérente de la langue a une incidence directe sur la définition de l’objet d’étude sur lequel les linguistes doivent se pencher. Si les variations linguistiques sont à étudier au sein du domaine de la linguistique interne, la langue est bien le lieu où productions linguistiques et marché linguistique sont étroitement liés selon une « grammaire de la réception » qui situe la langue, comme le faisait déjà Saussure, dans le circuit de la parole : Ainsi la langue d’un sujet, contrairement au sujet commun, ce n’est pas la langue qu’il parle, c’est la langue qu’il entend. Or que reçoit l’oreille d’un sujet parlant : très précisément ce que la sociolinguistique veut enregistrer et que la linguistique actuelle refuse d’écouter, les multiples paroles dont l’ensemble hétérogène arrivera à former la langue de la communauté. (Encrevé, 1976 : 7)

7 Ainsi, la communauté linguistique doit être saisie en tant qu’organisation concrète structurée et structurante des dynamiques sociales. C’est bien au cœur de celles-ci, plutôt que dans une recherche illusoire d’une langue stabilisée au sein d’une communauté homogène, qu’il faut aller observer la langue afin d’obtenir l’adéquation observationnelle première que Chomsky lui-même réclamait. Au total, c’est dans le caractère intrinsèquement social de la langue, dans l’intimité du lien entre langue et communauté linguistique socialement qualifiée que Weinreich, Labov et Herzog (1968) voient la source première et le moteur du changement linguistique. La communauté linguistique, rappellent-ils, est une organisation sociale concrète. Elle est donc, ex definitio, profondément hétérogène, divisée, hiérarchisée, structurée par des dynamiques sociales antagoniques. La variation et l’hétérogénéité linguistique d’une part, la variation et l’hétérogénéité sociale de l’autre, ne sont alors que les deux aspects du même réel social. C’est ainsi parce qu’il n’existe jamais de communauté homogène parfaitement stable qu’il n’existe jamais de langue homogène parfaitement invariante et stable. (Laks, 2013 : 41)

8 Là encore, la langue ne peut se définir en dehors d’un réel social qu’il convient d’appréhender pour toute étude sur la langue. Selon Bourdieu, l’expression linguistique résulte d’une production émanant d’un habitus linguistique confronté à un marché

Corpus, 15 | 2016 9

linguistique (Bourdieu 1984 : 121). Il en découle que l’acquisition du langage met en jeu des intériorisations socialement réglées. Ainsi, comme le souligne Encrevé : Aussi la grammaticalité est-elle toujours de nature sociale quant à son origine concrète pour un sujet : elle est toujours reçue et acquise assortie de sanctions sociales, dont la nature et l’importance varient avec le marché de la langue en cause – corrections, reprises, réprimandes dans la famille ; rire, moquerie de la part des égaux pour les dialectes dominés ; sanctions du marché scolaire, du marché matrimonial, du marché du travail pour les dialectes dominants. (Encrevé, 1976 : 7-8)

9 Il est alors aisé de concevoir le changement linguistique comme un processus résultant d’une lutte au sein de l’hétérogénéité des pratiques linguistiques évaluées socialement. La boucle est bouclée, de l’acquisition du langage au changement linguistique, la sociolinguistique offre un cadre théorique où la nature sociale de la langue est maintenant clairement définie. Cette définition de l’objet de la linguistique par la sociolinguistique se concrétise en premier lieu, et de manière centrale, autour de la question des données.

1.2 Sociolinguistique et données

10 En effet, définir la langue comme un fait social, nécessite de l’observer comme une pratique socialement située. C’est donc au sein même de l’activité sociale qu’elle devient appréhendable : Partie structurée d’un tout qu’elle structure, la langue, en effet, n’est jamais « donnée ». Les « données » de la langue dans son usage quotidien, telle que veut l’étudier Labov, ne sont « produites » qu’au terme d’un long chemin d’aveuglette où se construit pas à pas une science de l’enquête linguistique qui est la première conquête de la sociolinguistique. (Encrevé, 1976 : 13)

11 Pour la sociolinguistique, il ne s’agit pas d’une simple question méthodologique qui déterminerait l’observation des données comme une étape préliminaire à l’analyse scientifique, bien au contraire la définition même des données et des conditions de leur production sont au cœur du travail du linguiste. La première incidence concerne le périmètre des données linguistiques. Comme le souligne Laks (2013), on ne peut concevoir d’analyser des données linguistiques orphelines de l’habitus du locuteur et du marché qui structure ses productions : Observer la variation dans sa systématicité et rendre compte de l’hétérogénéité comme étant structurée impose évidemment d’adopter une méthodologie adéquate. On sait en effet que décontextualisée, l’observation détruit la systématicité des phénomènes variables et les fait paraitre erratiques. Observer les faits linguistiques hors de l’écosystème social qui les conditionne détruit en effet tout ce que la pratique doit précisément à son caractère pratique. C’est la raison pour laquelle l’analyse de la variation systémique commence nécessairement par une réflexion critique sur les observables. (Laks, 2013 : 36)

12 Dans les années soixante-dix, la réflexion sur la place des données a entraîné une véritable science de l’enquête linguistique pour laquelle les avancées de la sociologie à la même époque, depuis Bourdieu, Chamboredon et Passeron en 1968 jusqu’à Beaud et Weber en 1997, ont été déterminantes en ce domaine. Parallèlement et parfois simultanément à l’apport de la sociologie de l’enquête, la naissance du domaine de l’analyse de conversations et les études sur les données « naturelles » ou plus justement sur les données issues de « situations non provoquées par le chercheur » sont

Corpus, 15 | 2016 10

également des éléments essentiels du développement de la science de l’enquête linguistique.

13 Enfin, le troisième domaine constitutif de cette démarche méthodologique et théorique provient de la linguistique de corpus dans son versant « informatique et traitement automatique du langage ».

1.3 Données et posture du chercheur

14 Dans cette perspective, la place des données devient prédominante, et le travail du linguiste ne peut s’affranchir d’une démarche réflexive sur la méthodologie de constitution et d’exploitation des données. Il lui revient alors de rendre explicite ses motivations scientifiques, sa méthodologie de collecte, la description des données et le traitement de celles-ci (Habert, 2005). C’est alors une véritable posture qui se profile sur la base d’une confrontation scientifique qui doit rendre possible la disponibilité des données, y compris pour un retour évaluatif ou contrastif, leur interopérabilité et leur description fine. En outre cette posture ne peut s’affranchir d’une réflexion éthique et juridique (Baude, 2006) sur les données, les locuteurs et le terrain non exempts d’enjeux sociaux.

15 Il s’agit donc de définir une conception de la sociolinguistique et par-delà de la linguistique, à partir de la relation de cette discipline aux données, nécessairement variationnistes et situées. Ceci nécessite que le linguiste sache ce qu’il fait (Gadet, 2007), dans la continuité d’une évolution méthodologique et théorique d’une science de l’enquête à une science du corpus.

16 Les Enquêtes sociolinguistiques à Orléans, qui se concrétisent par un ensemble de deux corpus réalisés à quarante années d’intervalle, offrent l’opportunité d’évaluer, à partir de projets concrets, le cadre de ce positionnement.

2. Le français ordinaire

2.1 La recherche du français parlé

17 ESLO1 a pour origine un projet à finalité didactique. L’équipe constituée à la fin des années soixante autour de Michel Blanc avait comme objectif de réaliser une méthode d’enseignement audiovisuelle du français langue seconde à partir de documents authentiques. Celui-ci est clairement défini dans un court article paru en 1971 (Blanc & Biggs). À « une époque où le rôle essentiel de la langue parlée dans l’enseignement d’une langue étrangère » venait d’être acquis, il a fallu « constituer un ensemble cohérent de matériaux vivants, rassemblés de manière systématique » valable « à la fois pour l’application pédagogique et pour la recherche sur la langue parlée ». Partant du constat qu’une collection ordonnée de documents de ce type n’était pas disponible, l’équipe a entrepris de collecter un vaste corpus représentatif du français parlé à partir d’une enquête ciblée sur une ville « moyenne » française exempte de caractéristiques trop marquées.

18 La démarche a d’emblée été résolument ancrée dans le champ de la sociolinguistique et la variation fut au cœur du travail de définition de la représentativité du corpus : Selon nous une recherche sociolinguistique impliquait une étude de la langue dans sa diversité plutôt que comme un tout homogène et figé. En effet, même si on étudie

Corpus, 15 | 2016 11

un état de langue à un moment précis de l’histoire, il n’empêche qu’il offre une variété à plusieurs niveaux : différences entre les générations, différences dialectales entre communautés, différences entre les milieux sociaux, différences liées aux conditions de production du discours. (Blanc & Biggs, 1971 :16)

19 Cette prise en compte de la diversité n’exclut pas, bien au contraire, la recherche d’une langue partagée par une communauté linguistique. C’est ainsi que le projet s’est orienté vers la réalisation du portrait sonore de la ville d’Orléans. Il s’agissait d’observer et de capter à un moment précis, dans un lieu restreint, la dynamique des pratiques linguistiques partagées par les habitants d’une cité. Le corpus est donc constitué d’une collection d’entretiens de locuteurs socialement situés et catégorisés, mais aussi d’enregistrements variés donnant accès au « français parlé dans une ville moyenne par la population de la ville à une époque précise » (Blanc & Biggs, 1971).

2.2 La découverte du français entendu

20 La grande originalité pour l’époque et le parti pris très fort choisi par l’équipe ont été de définir les pratiques linguistiques communes non pas par les productions de locuteurs types mais par l’hétérogénéité des pratiques linguistiques entendues dans la ville. Comme le soulignent Blanc & Biggs, « C’est une communauté d’auditeurs qui est construite, autant qu’une communauté de locuteurs, à notre connaissance pour la première fois en France […] On ne cherche pas “cet individu mythique, l’Orléanais moyen” » (Blanc & Biggs, 1971 : 23). On est ici dans la même perspective de la sociolinguistique que celle défendue par Encrevé, quelques années plus tard, quand il reprend l’affirmation de Saussure selon laquelle la langue comme objet de la linguistique se situe dans le circuit de la parole, pour préciser immédiatement que pour Saussure la langue est entièrement, et exclusivement, du côté de l’audition, de la réception : on peut la (la langue) localiser dans la partie déterminée du circuit (de parole) où une image auditive vient s’associer à un concept ; c’est par le fonctionnement des facultés réceptives et coordinatives que se forment chez les sujets parlants des empreintes qui arrivent à être sensiblement les mêmes pour tous. Ces deux points sont manifestement reliés : seule l’audition met le sujet en contact avec la masse parlante. Ainsi la langue d’un sujet, contrairement au jugement commun, ce n’est pas la langue qu’il parle, c’est la langue qu’il entend. (Encrevé, 1977 : 6)

21 Nous le verrons dans le chapitre consacré à l’architecture des corpus des ESLO, ce cadre théorique et ses incidences méthodologiques apportent une très forte identité à l’ensemble du projet.

2.3 La linguistique du français parlé d’ESLO1 à ESLO2

22 Entre les deux enquêtes ESLO1 et ESLO2, la linguistique française a bénéficié des très précieux travaux de Blanche-Benveniste et de l’école du GARS sur la description du français parlé. Ces études, principalement grammaticales, ont incontestablement marqué le champ de la discipline. Or, comme ces travaux du GARS reposent essentiellement sur l’analyse de corpus, on peut s’attendre à une avancée importante sur la description du français parlé et, simultanément, sur la méthodologie de corpus entre les années soixante et les années deux mille dix. Si l’avancée a été majeure et déterminante pour les travaux sur la syntaxe du français, elle n’a apporté qu’une contribution très faible à la linguistique de corpus ou plus exactement à la linguistique

Corpus, 15 | 2016 12

sur corpus. La relation relativement distante entretenue entre les travaux du GARS et la sociolinguistique explique ce rendez-vous manqué.

23 Quatre disciplines vont avoir une incidence plus forte dans la même période sur les corpus de français parlé. Discipline compagne, la sociologie va opérer un lourd travail sur le recueil des données et sur la méthodologie d’entretien qui reste une part importante des corpus oraux. Parallèlement, la linguistique de l’interaction et plus particulièrement l’Analyse de conversations va se développer très fortement et proposer une nouvelle approche du recueil de données « non provoquées par le chercheur ». Ensuite, le domaine de l’acquisition du langage fournira une méthodologie très rigoureuse de grandes bases de données partagées (volet français du programme CHILDES, notamment pour ce qui concerne l’adoption d’un format et d’un codage communs (MacWhinney, 2000)) de corpus de productions d’enfants. Enfin, la recherche en technologies de la parole, de la reconnaissance à la synthèse en passant par la traduction repose sur le traitement de données orales massives.

24 La reprise du projet ESLO1 par l’équipe du CORAL (devenue LLL), en 2004, avec comme perspective de rendre disponible l’intégralité du corpus1 et d’en constituer un nouveau, devait nécessairement tenir compte des avancées apportées par ces disciplines.

25 Un bref bilan de l’impact de celles-ci révèle la qualité du travail précurseur des auteurs d’ESLO1 et facilite la reprise du projet avec une forte continuité, même si plusieurs choix sont caractéristiques de l’évolution d’ESLO2.

26 Outre le soin apporté à la technique de conduite d’entretiens, les principales évolutions concernent l’intérêt accru pour assurer une représentation de l’hétérogénéité du panel de locuteurs et des situations enregistrées (cf. chapitre sur l’architecture du corpus en infra) et pour la description des langues en contact avec le français.

2.4 Conserver et diffuser le français ordinaire

27 Le bouleversement le plus fort concerne un élément peu fréquent jusqu’à très récemment dans les projets sur les corpus de français parlé : celui de la conservation et de la diffusion.

28 Pourtant, sur ce point aussi, ESLO1 était totalement précurseur.

29 Alors que, dix ans auparavant, les responsables du Français fondamental effaçaient les enregistrements réalisés dans le cadre de ce projet d’ampleur internationale (Abouda & Baude, 2007), les auteurs d’ESLO1 décidaient d’apporter un soin particulier au catalogage de leurs enregistrements afin d’en assurer la meilleure diffusion. Ainsi, un des six objectifs d’ESLO1 était de : préparer et publier un catalogue descriptif et analytique des documents sonores et écrits, afin de les rendre disponibles aux chercheurs, notamment dans les domaines de la linguistique, de la sociologie et de la pédagogie des langues. (Lonergan, Kay & Ross, 1974 : 2)

30 Cette volonté affichée dès l’origine du projet aura une forte incidence sur son développement. Elle porte la marque d’une relation particulière aux données et au rôle de leur exploitation partagée dans la constitution d’un savoir collectif. C’est également une reconnaissance de la légitimité de la langue parlée comme objet scientifique et patrimonial. L’ESLO deviendra alors une référence sous le nom du Corpus d’Orléans et

Corpus, 15 | 2016 13

voyagera de la France à l’Angleterre, des Pays-Bas à la Belgique, au gré des nombreux travaux de chercheurs dans une discipline en plein développement.

3. Le corpus des ESLO

3.1 Un très grand corpus

31 Le corpus des ESLO2 a comme objectif d’être un très grand corpus de français parlé constitué de plusieurs centaines d’heures d’enregistrements afin d’atteindre une masse de 10 millions de mots.

32 Il est composé du corpus ESLO1, qui est un corpus clos, réalisé entre 1968 et 1971, et qui comprend 470 enregistrements d’une durée totale de 318 heures, ce qui représenterait, selon l’estimation de l’époque, 4,5 millions de mots3.

33 Le corpus ESLO2, en cours de réalisation, affiche un objectif de plus de six millions de mots pour 450 heures d’enregistrements.

34 Réunis dans une même base de données comprenant les enregistrements, leur transcription orthographique et les métadonnées décrivant les documents, le contexte d’enregistrement et les locuteurs, le corpus des ESLO est actuellement le plus grand corpus de français parlé disponible pour la recherche en linguistique.

35 L’objectif du projet n’est pas de produire un corpus représentatif, mais d’offrir un réservoir de corpus conçu dans un souci de représentativité des pratiques linguistiques d’une communauté d’auditeurs dans une ville donnée, à des moments distincts. La constitution d’un sous-corpus d’études à partir de ces données reste à la charge du chercheur dans une démarche où la sélection des données est une étape fondamentale de l’analyse. Il revient alors aux auteurs des ESLO de rendre disponibles les données tout en les situant à la fois dans le cadre de leur contexte de production par les locuteurs et de celui de production par l’équipe scientifique, y compris dans ses aspects et contraintes technologiques.

36 Il ne s’agit donc pas de produire un corpus de masse de données sans en préciser l’architecture et les cadres théoriques qui la conditionnent.

3.2 Architecture du corpus

37 La composition du corpus a subi une évolution sensible entre ESLO1 et ESLO2.

38 Comme nous l’avons indiqué, le corpus ESLO1 correspond déjà à une prise en charge des variations linguistiques selon différents axes. Cette recherche de la variation s’est concrétisée par une architecture qui, en donnant une place centrale aux entretiens en face-à-face, a néanmoins intégré sept autres modules dédiés à la diversité des situations de production de discours : – Interviews sur questionnaires (interviews en face-à-face sur des questionnaires standardisés, avec un échantillon statistique aléatoire, choisi d’après la liste INSEE du recensement de la population 1968). 157 enregistrements, 182,5 heures. – Opérations sur le vif : contacts (prises de contact, reprises de contact, ouverture et clôture des entretiens enregistrés à l’insu du témoin). 55 enregistrements, 12,5 heures.

Corpus, 15 | 2016 14

– Opérations sur le vif : témoins en situations sociales ou professionnelles (enregistrements de témoins INSEE dans des situations sociales ou professionnelles, faits en l’absence des chercheurs). 16 enregistrements, 14,5 heures. – Communications téléphoniques. 50 enregistrements, 2,15 heures. – Interviews sur mesure (entretiens avec des individus choisis selon leur rôle dans la « microsociété » orléanaise). 45 enregistrements, 48,33 heures. – Conférences-débats (conférences-débats ou discussions à plusieurs participants, les dernières comportant souvent des témoins INSEE). 26 enregistrements, 34,15 heures. – Enregistrements divers (enregistrements divers comportant des témoins inconnus, visites d’atelier, marchés, magasins, etc.). 84 enregistrements, 14,33 heures. – CMPP (interviews au Centre médico-psychopédagogique, parents d’élèves et assistante sociale). 37 enregistrements, 10 heures.

39 L’ensemble de ces modules est décrit dans le catalogue original (Lonergan, 1974 : 1) et présenté sur le site de diffusion du corpus ESLO4.

40 L’architecture va considérablement évoluer dans le cadre du corpus ESLO25 afin de prendre en compte l’avancée méthodologique et théorique réalisée entre 1968 et 2008. Par exemple, l’évolution technologique a une forte incidence sur la collecte des corpus oraux. Si les auteurs d’ESLO1 se félicitaient de disposer de matériel d’enregistrement peu volumineux (de la taille d’une petite valise), et léger (à peine 7 kg), l’équipe d’ESLO2 dispose d’un matériel numérique offrant les possibilités d’équiper des locuteurs de micro-cravates HF pour une qualité d’enregistrement de tout premier ordre. Ainsi, pour l’un des modules qui consiste à enregistrer l’intégralité de ce qu’une personne entend pendant 24 heures, les locuteurs sont équipés d’un micro les accompagnant dans toutes les activités de la vie quotidienne, de la toilette à la soirée entre amis en passant par l’activité professionnelle et les conversations familiales.

41 Cette évolution technologique s’accompagne d’un engouement fort pour la captation d’enregistrements les plus diversifiés dans des situations non provoquées par le chercheur selon les objectifs de l’Analyse de conversations.

42 L’objectif de dresser un portrait sonore ne peut donc se résumer à la collecte d’entretiens selon un échantillonnage sociologique. Il convient également d’élaborer une architecture de corpus qui permet de rendre compte de la diversité des situations de production et d’audition. Force est de constater qu’ESLO1 était balbutiant sur cet aspect. Si les entretiens ont été réalisés avec beaucoup de rigueur, les autres types d’enregistrements sont très souvent de très mauvaise qualité et correspondent à des objectifs peu maîtrisés. La tentative d’enregistrer la même personne dans diverses situations s’est réduite à de simples tests sur quelques locuteurs. ESLO2 a donc comme ambition de présenter une forte évolution de la méthodologie de collecte de situations variées et représentatives des pratiques d’une communauté.

43 C’est toute l’architecture du corpus qui doit être modifiée afin de prendre en compte une grande diversité de situations de productions linguistiques tout en les situant au sein d’un marché linguistique plus général.

44 Le premier effet de ce changement est de pondérer la place des entretiens par rapport à d’autres types d’enregistrements. Les graphiques suivants qui expriment en nombre d’heures et en pourcentage la place de chacun des modules pour les deux corpus, rendent compte de ce changement.

Corpus, 15 | 2016 15

Figure 1. ESLO1

Figure 2. ESLO2

3.3 Catégorisation des modules

45 L’architecture d’un corpus ne peut se résumer au pourcentage des genres, styles ou situations représentées. Elle nécessite également une réflexion sur la pertinence de ces catégories au sein d’une structure globale.

46 Ainsi, assurer la collecte de la diversité des pratiques linguistiques répond à un objectif d’enquête sociolinguistique et de description linguistique. Le conditionnement en corpus numérique du résultat de cette collecte nécessite un travail de catégorisation

Corpus, 15 | 2016 16

des modules constituant l’architecture du corpus. Cette catégorisation se doit d’être explicite et disponible à des fins de traitement des données. La classification habituelle dans les corpus de français parlé repose sur une opposition simpliste entre discours public et discours privé décrivant le niveau de formalité des énoncés.

47 Ainsi, le Corpus de référence du français parlé, réalisé par Claire Blanche Benveniste et l’équipe DELIC à partir de 1998, repose sur une structure en trois modules : parole privée, parole professionnelle et parole publique. Cette distinction est assez rudimentaire si on se réfère aux travaux de l’analyse de conversations ou même à la description des registres de langue (Koch & Oesterreicher, 2001).

48 Le corpus ESLO2 est l’occasion de tenter une description des registres, styles ou types de situation en partant des caractéristiques a priori et, a posteriori, des différents modules.

49 Chaque module est décrit a priori, c’est-à-dire avant la collecte et non sur la base d’une analyse du contenu, selon les critères suivants : – Degré de planification du discours (en opposant le registre « spontané » de la conversation ordinaire à celui de conférences où le discours est écrit), – Degré d’interactivité (du monologue au dialogue et autres conversations relevant d’un travail conséquent d’interaction), – Degré de distance sociale entre les interactants (à partir des critères traditionnels de la sociologie : âge, sexe, niveau d’études, profession), – Degré de convergence (de la polémique au consensus), – Degré de formalité du cadre (au sens de Goffman, chaque situation pouvant se définir selon un cadre social impliquant des statuts, rôles et comportements langagiers).

50 Chacun de ces critères est évalué sur une échelle de 0 à 10, et le module peut être visualisé selon la forme obtenue par un graphique en radar :

Figure 3. Les différents modules constitutifs de l’architecture ESLO2

Corpus, 15 | 2016 17

51 Cette démarche permet de décrire l’architecture du corpus en affinant une prise en compte des axes traditionnels qui situent un contexte de production de discours selon le degré de formalisme de la situation sociale d’une part et le degré de planification de l’énoncé d’autre part.

Figrue 4. Les différents discours selon les axes classiques

52 Cette représentation de l’architecture du corpus répond à deux objectifs. Premièrement, il s’agit de définir avec précisions les différents modules qui composent le corpus complet en situant les situations enregistrées selon les critères de la sociologie et de la pragmatique. Cela répond à une conception des pratiques linguistiques comme relevant systématiquement d’un contexte, qui n’est autre qu’un marché linguistique au sein duquel les locuteurs mobilisent des comportements langagiers dans un but d’interaction.

53 Deuxièmement, l’évaluation des modules selon différents critères permet un travail réflexif sur une définition a priori et un constat a posteriori à partir des données précises de la situation enregistrée. Ainsi, si le module « entretien » répond globalement à une définition selon les critères présentés, celle-ci va être pondérée pour chaque entretien. L’évaluation de la distance sociale et du degré d’interactivité peut par exemple être très différente d’un entretien à l’autre et déboucher sur une représentation proche d’une conversation ordinaire dans un cas ou d’un discours public ou médiatique dans un autre.

54 In fine, cette réflexion sur l’architecture du corpus permet de concevoir ESLO2 comme un corpus ouvert sans pour autant le réduire à un empilement, opportuniste et sans fin, d’enregistrements variés.

Corpus, 15 | 2016 18

3.4 État du corpus

55 L’ensemble des enregistrements est maintenant numérique. L’intégralité des enregistrements ESLO1 a été numérisée dans le cadre du dépôt du fonds à la Bibliothèque nationale de France. ESLO2 est nativement collecté en numérique à l’aide de différents matériels selon les contraintes des modules6. Si ESLO1 est un corpus clos, la collecte d’ESLO2 continue à la date de la rédaction de cet article.

56 Tous les enregistrements sont catalogués et indexés (cf. chapitre suivant), et la transcription de l’intégralité des corpus est en cours.

57 Les opérations de formatage, catalogage et transcription sont excessivement lourdes, ce qui explique le peu de corpus d’envergure disponibles. Face à cette difficulté, les chercheurs se replient souvent vers un usage du corpus restreint à leur recherche. La particularité forte du projet des ESLO est au contraire de maintenir un objectif scientifique clairement identifié tout en attribuant au corpus une valeur patrimoniale et scientifique qui dépasse le cadre du projet initial. Il en résulte un vaste chantier de traitement du corpus qui sera détaillé dans la dernière partie de cet article. Nous pouvons néanmoins faire état de l’avancement de ces opérations. Ainsi, au 1er mai 2015, le corpus des ESLO est composé de :

Figure 5. Composition d’ESLO

Enregistrements Transcrits

Nb. Heures Nb. Heures

ESLO1 468 318 336 274

ESLO2 590 266 583 259

TOTAL 1 058 584 919 533

4. Un corpus pour les humanités numériques

4.1 Le temps des humanités numériques

58 Le projet de diffusion des ESLO au début des années 2000 est contemporain de la mutation des sciences humaines et sociales dans ce qu’on appelle dorénavant le tournant des Digitals Humanities ou humanités numériques, voire humanités digitales (Le Deuff, 2014)7. Les discussions sur ce que sont les humanités numériques sont vives, et la définition reste très ouverte. Il ne s’agit pas d’entrer ici dans une vaste discussion sur la pertinence d’une approche en termes de naissance d’une discipline, d’une trans- discipline ou d’une appropriation d’outils numériques par des disciplines traditionnelles, nous nous contenterons de constater que la linguistique est en première ligne d’un questionnement sur les conditions de constitution, de diffusion et de partage d’un savoir transformé par le croisement de l’informatique, du numérique et des arts et lettres, au sein des sciences humaines et sociales. Ces grands principes ont été définis dans le Manifeste des Digital Humanities8.

Corpus, 15 | 2016 19

59 D’une manière plus concrète encore, nous présentons ici les principales caractéristiques qui inscrivent le projet des ESLO dans cette approche des corpus en sciences humaines et sociales. Le soin apporté à la diffusion d’ESLO1, en 1974, en réalisant un « catalogue descriptif et analytique des documents sonores et écrits, afin de les rendre disponibles aux chercheurs (Lonergan, 1974 : 2) » peut être interprété comme la première pierre posée dans l’édifice d’un corpus qui dépasse les enjeux de l’étude des auteurs. La seconde pierre viendra de l’équipe de Piet Mertens et du projet ELICOP, quelque trente ans plus tard, en rendant accessible une partie du corpus après un lourd travail de normalisation des conventions de transcription et même d’annotations morphosyntaxiques contenues dans des balises au format SGML. Ce travail s’appuie sur les perspectives dressées par la linguistique de corpus telle qu’elle est définie par Habert, Nazarenko & Salem en 1997, mais n’est pas encore directement orienté vers un traitement d’ensemble.

60 C’est à partir de 2004, avec la numérisation d’ESLO1 et le souhait de rendre le corpus intégralement disponible pour des usages scientifiques mais aussi culturels, que l’édifice s’ancrera définitivement dans les humanités numériques.

4.2 L’interopérabilité et l’archivage

61 La question de la réutilisation d’un corpus n’est pas anodine et ne va pas de soi. Il ne s’agit pas ici d’affirmer que toute recherche linguistique doit s’appuyer sur un corpus et que tout corpus peut être réutilisé pour d’autres recherches. Rien n’est moins sûr, mais, dans le cas des ESLO, c’est un parti pris affirmé par les différents auteurs du projet. Le périmètre du projet est de fait vaste, il s’agit de produire le portrait sonore d’une ville en faisant l’hypothèse que le corpus produit peut être utile à diverses recherches en linguistique, sociologie, histoire, didactique, et acquiert ainsi une dimension patrimoniale qui a également pour effet de légitimer le français tel qu’il est parlé dans sa très grande diversité.

62 L’objectif affirmé est donc de disposer de données répondant à un critère d’interopérabilité. Celui-ci se concrétise à différents niveaux.

63 Premièrement, les enregistrements sont conservés dans un format numérique selon les recommandations d’une structure internationale, l’International Association of Sound and Audiovisual Archive9.

64 Deuxièmement, les documents sont systématiquement accompagnés de métadonnées descriptives. Le choix retenu est celui du format DUBLIN-CORE Open Language Archives Community10. Il s’agit d’un choix minimal qui a été repris dans le cas de diffusions liées à d’autres objectifs. Ainsi, le format CMDI11 est celui utilisé dans la perspective européenne CLARIN, le format EAD12 par la BNF pour l’intégration à son catalogue Archives et Manuscrits, et l’EDM dans le cadre de la bibliothèque européenne Europeana13.

65 Troisièmement, les enregistrements sont transcrits et synchronisés avec le signal sonore selon des conventions minimales14 répondant à un format interopérable. Le format choisi est un format XML qui est ensuite repris pour un enrichissement en TEI (TEIML15). Les transcriptions sont segmentées en unités prosodiquement, syntaxiquement et sémantiquement cohérentes afin d’assurer une synchronisation à l’aide de jalons temporels fréquents. La transcription proposée repose sur des conventions minimales. À ce stade, il s’agit de répondre à un simple objectif de

Corpus, 15 | 2016 20

navigation dans le corpus. Pour toute analyse ultérieure, une reprise de la transcription avec des conventions répondant aux cadres théoriques du chercheur est indispensable.

66 L’ensemble de ces choix permet l’utilisation d’un service d’archivage. Expérimenté dans le cadre du projet pilote sur l’archivage de l’oral par le TGE ADONIS puis poursuivi par la TGIR HUM-NUM, les données (enregistrements, transcriptions et métadonnées) sont confiées à la plateforme Cocoon16, qui en assure le stockage sécurisé sur la grille Huma- Num hébergée au centre de calcul de l’IN2P3. Pendant cette phase, Cocoon assure des services de contrôle de la qualité des données puis verse les données au Centre informatique national de l’enseignement supérieur pour une conservation intermédiaire, avant de rejoindre les Archives nationales pour un archivage définitif. Parallèlement, les bandes magnétiques originales ont été confiées au service sonore du département de l’audiovisuel de la BNF.

67 Les opérations d’archivage sont également l’occasion d’attribuer un identifiant unique et pérenne à tous les documents constitutifs du corpus.

4.3 Les aspects juridiques

68 La diffusion du corpus est bien évidemment liée à des aspects juridiques. Sur ce point, le projet a bénéficié du travail diffusé par le Guide des bonnes pratiques 200617.

69 Le choix de l’équipe a été d’apporter beaucoup d’attention à une démarche éthique en recueillant le consentement éclairé de toutes les personnes enregistrées18. Les enregistrements et les transcriptions sont également anonymisés et les données personnelles conservées dans une base de données séparée.

70 Les données sont diffusées sous licence Creatives Commons19 (BY NC SA : Attribution, pas d’utilisation commerciale et partage dans les mêmes conditions) : le titulaire des droits autorise l’exploitation de l’œuvre originale à des fins non commerciales, ainsi que la création d’œuvres dérivées, à condition qu’elles soient distribuées sous une licence identique à celle qui régit l’œuvre originale.

4.4 Le signalement et la diffusion

71 La conservation des données étant assurée à différents niveaux (stockage sécurisé, conservation intermédiaire et archivage pérenne), et les aspects juridiques ouverts à une large diffusion, il faut en assurer l’accès pour différents usages.

72 Sur ce point, le soin apporté à l’interopérabilité devient crucial.

73 Les données ESLO sont accessibles sur un site dédié au projet20, géré par l’équipe du Laboratoire ligérien de linguistique et hébergé sur la grille Huma-Num.

74 Le site, réalisé à l’aide du CMS Joomla et intégrant une application, a été conçu en trois parties : – Une interface « back office » qui permet la gestion du corpus. Cette interface permet, à l’aide de formulaires, de renseigner les métadonnées et dispose de fonctionnalités pour attribuer aléatoirement les identifiants anonymes, transférer les fichiers sonores et les transcriptions sur la plateforme Cocoon et pour accéder à une base de données mysql qui contient les transcriptions et les métadonnées. – Une interface d’accès aux corpus avec des outils spécifiques. L’accès aux corpus se fait par une recherche des documents dans leur intégralité, sous la forme d’un catalogue ou

Corpus, 15 | 2016 21

par la recherche d’une chaîne de caractères au sein des transcriptions. Un outil de requête permet de croiser les critères de recherche sur les transcriptions avec les informations sur les documents et les locuteurs.

75 Un second outil offre la possibilité d’écouter l’enregistrement synchronisé sur le signal.

76 Enfin, l’ensemble des documents est téléchargeable directement soit pour tout utilisateur du site soit pour un utilisateur ayant signé une convention lorsqu’il y a des restrictions juridiques. – La dernière fonctionnalité du site est d’offrir un contenu éditorial principalement orienté vers les documents méthodologiques : conventions et guides de transcriptions, documents techniques et juridiques, documents scientifiques.

77 Cette diffusion du corpus par un site spécifique répond principalement aux objectifs du Laboratoire ligérien de linguistique. La gestion des données, selon de bonnes pratiques d’interopérabilité et d’archivage, permet un signalement et une diffusion beaucoup plus large.

78 Ainsi, la plateforme Cocoon propose un entrepôt exposant les métadonnées en Open Archive Initiative. Le corpus des ESLO est donc signalé par tout instrument reposant sur un moissonnage en OAI. C’est notamment le cas de la plateforme ISIDORE21, qui permet la recherche et l’accès aux données numériques en sciences humaines et sociales. Au 1er mai 2015, une recherche sur ESLO dans le moteur d’ISIDORE apporte 2 001 réponses, soit l’ensemble des documents disponibles à ce moment-là dans la collection ESLO de l’entrepôt Cocoon.

79 Comme ESLO existe également sous la forme de bandes magnétiques originales conservées et décrites par la BNF, le corpus est également signalé dans ses catalogues.

80 Enfin, le corpus des ESLO a été naturellement intégré à l’EQUIPEX ORTOLANG22 dont l’objectif est de gérer une « infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés ».

4.5 Le web de données

81 Les réflexions sur la structuration des données et des métadonnées et la gestion de la diffusion du corpus des ESLO permettent un travail exploratoire dans le cadre du web de données (ou web sémantique). Cette étape concrétise la volonté de construire un corpus réutilisable pour une grande variété d’usages. Le web de données vise à publier des données structurées sur le web, afin de les relier entre elles et donc d’enrichir un réseau d’informations. Elle nécessite l’utilisation, dans un format spécifique, de vocabulaires, référentiels et ontologies facilitant le liage des données.

82 Nous pouvons citer quelques exemples d’expérimentations en cours auxquelles participe ESLO : – la plateforme ISIDORE, qui repose sur les principes du web de données, – data.bnf.fr, le projet qui donne accès aux données contenues dans ses catalogues et dans Gallica, – le programme Sémantisation du Corpus de la parole du ministère de la Culture, – le projet « Cabinet de curiosités des langues de France », réalisé dans le cadre de l’appel à propositions « services culturels innovants du ministère de la Culture ».

Corpus, 15 | 2016 22

83 Ces différents projets sont trop récents pour en tirer un premier bilan. Un seul exemple peut néanmoins démontrer l’intérêt de rendre un corpus disponible selon les pratiques en vigueur dans le domaine du web de données. Une recherche sur le terme « abattoirs » permet, par l’outil data.bnf.fr, de signaler, d’écouter et de télécharger l’enregistrement d’ESLO consacré à l’entretien d’un boucher d’Orléans, et la même requête sur ISIDORE permet de trouver une correspondance entre cet enregistrement et un entretien sur le même thème réalisé par des sociologues à Toulouse, dans les années 1960.

5. Conclusion

84 Le corpus des ESLO a été réalisé par des linguistes et il a donné lieu à de très nombreux travaux en linguistique. Après les différentes recherches en phonologie, syntaxe, prosodie, lexique, et autres domaines engendrés par ESLO1, l’équipe d’ESLO2 réalise différentes études directement issues d’une analyse du corpus ou fondées sur une comparaison avec d’autres corpus23. À partir d’ESLO1, une méthode d’apprentissage des langues particulièrement innovante24 a été réalisée et des travaux sont en cours de réflexion dans le cadre d’un usage didactique du corpus ESLO2.

85 On peut donc considérer que l’objectif d’obtenir un portrait sonore d’une communauté d’auditeurs d’une même ville est une source importante d’études linguistiques et d’applications liées.

86 Il convient néanmoins d’être prudent, ce portrait sonore ne peut se résumer à des enregistrements divers et variés sans un cadre théorique qui fait de la linguistique de corpus une discipline qui doit entendre autant si ce n’est plus, la sociolinguistique que la linguistique outillée par l’informatique.

87 Le tournant des humanités numériques est l’occasion de repenser cette définition de la linguistique sur corpus afin de définir une véritable science des données linguistiques. Face à ce défi, le linguiste doit maîtriser l’ensemble de la chaîne qui le conduit à travailler, exploiter et diffuser ces données collectées qui ne lui sont jamais « données ». Il est aussi important qu’il prenne conscience que cette science relève d’un domaine au sein duquel il n’est pas le seul acteur.

BIBLIOGRAPHIE

Site ESLO : http://eslo.huma-num.fr

Abouda L. & Baude O. (2009). « Du français fondamental aux ESLO », in Bruxelles, Mondada, Simon, Traverso (éd.) Grand corpus de français parlé, Bilan historique et perspectives de recherche. Cahiers de linguistique, Revue de sociolinguistique et de sociologie de la langue française 33/2, Louvain : EME, 131-146.

Abouda L. & Baude O. (2007). « Constituer et exploiter un grand corpus oral, choix et enjeux théoriques : le cas des ESLO », in actes du colloque Corpus en lettres et sciences sociales, Des

Corpus, 15 | 2016 23

documents numériques à l’interprétation. Colloque d’Albi, Langages et signification, juin 2006, Presses universitaires de Toulouse : 161-168.

Baude O. & Bergounioux G. (à paraître). « L’ESLO : une enquête en son temps », in Linguistique de corpus : une étude de cas, La recette de l’omelette, dans l’enquête socio-linguistique à Orléans (ESLO). Paris : Champion.

Baude O. & Lacheret A. (à paraître). « The collection of data for the Rhapsodie Treebank : typological criteria and ethical issues », in A. Lacheret, S. Kahane & P. Pietrandrea (éd.) Rhapsodie : a Prosodic and Syntactic Treebank for Spoken French, coll. Studies in Corpus Linguistics. Amsterdam : Benjamins.

Baude O. & Dugua C. (2011). « (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf, linguiste ? », Corpus 10 : 99-118.

Baude O. & Dugua C. (2015). « Usage de la liaison dans le corpus des ESLOs : vers de nouveaux (z) ouvrages de référence ? », in Dostie & Hedermann (éd.) La dia-variation en français actuel. Bern : Peter Lang, 349-371.

Baude O. (coord.) (2006). Corpus oraux, guide des bonnes pratiques. Paris et Orléans : Éditions du CNRS et Presses universitaires d’Orléans.

Beaud S. & Weber F. (1997). Guide de l’enquête de terrain : produire et analyser des données ethnographiques. Paris : La Découverte.

Bergounioux G., Baraduc J. & Dumont C. (1992). « L’étude sociolinguistique sur Orléans (1966-1991) : 25 ans d’histoire d’un corpus », Langue française 93 : 74-93.

Biggs P. & Dalwood M. (1976). Les Orléanais ont la parole : Teaching Guide and Tapescript. Londres : Longman (Livre du maître).

Biggs P. & Dalwood M. (1976). Les Orléanais ont la parole. Londres : Longman (Livre de l’élève).

Blanc M. & Biggs P. (1971). « L’enquête sociolinguistique sur le français parlé à Orléans », Le français dans le monde 85 : 16-25.

Blanche-Benveniste C. et al. (1990). Français parlé. Études grammaticales. Paris : CNRS.

Bourdieu P., Chamboredon J.-C. & Passeron J.-C. (1968). Le Métier de sociologue. Paris : Mouton de Gruyter/Bordas.

Bourdieu P. (1984). « Le marché linguistique », Questions de sociologie. Paris : Editions de Minuit.

De Jong D. (1988). Sociolinguistic aspects of French Liaison, Academisch proefschrift. Amsterdam : Vrije Universiteit Amsterdam.

Équipe DELIC (2004). Autour du Corpus de référence du français parlé (= Recherches sur le français parlé n° 18). Aix-Marseille : Publications de l’université de Provence.

Encrevé P. (1976). « Présentation », in W. Labov, Sociolinguistique. Paris : Éditions de Minuit.

Encrevé P. (1977). Linguistique et sociolinguistique. Langue française 34.

Eshkol-Taravella I., Baude O., Maurel D., Hriba L., Dugua C. & Tellier I. (2012). « Un grand corpus oral “disponible” : le corpus d’Orléans 1968-2012 », Ressources linguistiques libres, Traitement automatique des langues 52/3 : 17-46.

Gadet F. (2007). La variation sociale en français. 2e édition. Paris : Ophrys.

Habert B., Nazarenko A. & Salem A. (1997). Les Linguistiques de corpus. Paris : Armand Colin.

Habert B. (2005). Instruments et ressources électroniques pour le français. Gap, Paris : Ophrys.

Corpus, 15 | 2016 24

Jacobson M. & Baude O. (2012). « Corpus de la parole : collecte, catalogage, conservation et diffusion des ressources orales sur le français et les langues de France », Ressources linguistiques libres, Traitement automatique des langues 52/3 : 47-69.

Koch P. & Oesterreicher W. (2001). « Langage oral et langage écrit », in Lexicon der Romanistischen Linguistik, tome 1-2. Tübingen : Max Niemeyer, 584-627.

Laks B. (2013). « Why is there variation instead of nothing », Language Sciences 39 : 31-53.

Labov W. (1976). Sociolinguistique. Paris : Éditions de Minuit.

Le Deuff O. (dir.) (2014). Le Temps des humanités digitales. Limoges : FYP éditions.

Lonergan J., Kay J. & Ross J. (1974). Étude sociolinguistique sur Orléans, catalogue des enregistrements. Colchester : Multigraphié.

MacWhinney B. (2000). The CHILDES Project : Tools for Analyzing Talk. 3rd Edition. Mahwah, NJ : Lawrence Erlbaum Associates.

Mertens P. (2002). « Les corpus de français parlé ELICOP : consultation et exploitation », in J. Binon et al. (éd.) Tableaux vivants. Opstellen over taal-en-onderwijs aangeboden aan Mark Debrock. Leuven : Universitaire Pers.

Mullineaux A. & Blanc M. (1982). « The problems of classifying the population sample in the socio-linguistic survey of Orléans (1969) in terms of socio-economic, social and educational categories », Review of Applied Linguistics 55 : 3-37.

NOTES

1. Un travail remarquable avait déjà été réalisé dans le cadre du projet ELILAP-ELICOP : ELILAP 1980-1983, puis LANCOM 1993-2001 (voir Mertens, 2002). 2. Cf. Baude & Dugua, 2011. 3. Environ 70 % du corpus présente une qualité acoustique suffisante pour une transcription. 4. http://eslo.huma-num.fr/ 5. http://eslo.huma-num.fr/index.php/pagecorpus/pagepresentationcorpus 6. Principalement : enregistreurs Marantz PMD 661 MKII + micro-cravates AKG C417L, TASCAM DR100, Edirol R09 : http://eslo.huma-num.fr/ index.php/pagemethodologie?id=70. 7. Le Deuff, O. (dir.) (2014). Le temps des humanités digitales, la mutation des sciences humaines et sociales. 8. http://tcp.hypotheses.org/318 9. http://www.iasa-web.org/ : Wave, stéréo, 16 bits, 44100 Hz. 10. http://www.language-archives.org/OLAC/metadata.html 11. http://www.clarin.eu/content/component-metadata 12. http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_ead.html 13. http://pro.europeana.eu/share-your-data/data-guidelines/edm-documentation 14. http://eslo.huma-num.fr/index.php/pagemethodologie?id=71 15. Norme ISO/CD 24624 en cours d’élaboration. 16. http://cocoon.huma-num.fr/exist/crdo/ 17. Baude et al., 2006. 18. http://eslo.huma-num.fr/index.php/pagemethodologie?id=69 19. http://creativecommons.fr/licences/les-6-licences/ 20. http://eslo.huma-num.fr/ 21. http://www.rechercheisidore.fr/

Corpus, 15 | 2016 25

22. https://www.ortolang.fr/ 23. Comme, par exemple, les travaux sur la liaison dans ESLO, PFC et d’autres corpus (Baude et Dugua, 2015). 24. Biggs & Dalwood (1976).

RÉSUMÉS

Cet article souhaite porter un regard réflexif sur le projet scientifique de constitution et d’exploitation d’un grand corpus de français parlé, les Enquêtes sociolinguistiques à Orléans, né à l’aube de la sociolinguistique et qui se développe au tournant méthodologique et épistémologique des digital humanities. Quels objectifs ? Quelles données ? Quels traitements ? Ce sont les questions qui guident la réflexion proposée ici afin d’apporter une contribution à l’élaboration de nouvelles pratiques scientifiques dans une perspective variationniste contemporaine.

This article is an analysis of the constitution and the exploitation of a large corpus of spoken French: Les Enquêtes sociolinguistiques à Orléans (ESLO). This corpus has been created from the beginnings of sociolinguistics and now it evolves with digital humanities, methodological and epistemological specificities. Which objectives? Which data? Which analysis? These are the questions that guide our thinking in order to contribute to the elaboration of new scientific practices in a variationnist perspective.

INDEX

Mots-clés : sociolinguistique, corpus, linguistique variationniste, digital humanities Keywords : sociolinguistic, corpora, variationnist linguistic, digital humanities

AUTEURS

OLIVIER BAUDE Laboratoire Ligérien de Linguistique, UMR 7270

CÉLINE DUGUA Laboratoire Ligérien de Linguistique, UMR 7270

Corpus, 15 | 2016 26

Le Corpus FRAN : réseaux et maillages en Amérique française Connecting networks of North

France Martineau et Marie-Claude Séguin

NOTE DE L'AUTEUR

Cet article a reçu l’appui du projet Le français à la mesure d’un continent : un patrimoine en partage (dir. F. Martineau, CRSH/GTRC). Nous remercions Jérémie Beauchamp, Mélissa Chiasson et Jade Dumouchel-Trudeau, assistants au projet à l’Université d’Ottawa, pour l’aide au repérage des données sur des variables.

1 Notre objectif est d’exposer dans cet article les principes qui ont prévalu à l’élaboration du corpus FRAN (Français d’Amérique du Nord) développé dans le cadre du projet Le français à la mesure d’un continent : un patrimoine en partage, basé à l’Université d’Ottawa. Dans un premier temps, nous présentons le projet Le français à la mesure d’un continent, l’équipe de nature interdisciplinaire, ses objectifs et ses questions de recherche, en particulier en ce qui a trait au développement des communautés francophones nord- américaines. Puis nous présentons le Corpus FRAN, premier corpus panfrancophone en ligne portant sur l’Amérique française, son architecture et les protocoles de transcription de données. Enfin, nous illustrons les types de recherches qui peuvent être menées, en montrant comment une perspective par réseaux et maillages permet un regard novateur sur les usages, d’abord à partir d’une étude de variable, stratifiée socialement (la première personne du singulier du verbe aller, comme auxiliaire du futur périphrastique) sur le terrain montréalais d’Hochelaga-Maisonneuve puis à partir d’un survol d’une deuxième variable, la conséquence (so, donc, alors, (ça) fait que), révélatrice de comportements linguistiques différents dans des communautés en contexte minoritaire et en contexte majoritaire.

Corpus, 15 | 2016 27

1. Le projet Le français à la mesure d’un continent

2 Le projet Le français à la mesure d’un continent : un patrimoine en partage1 est un projet international, subventionné, en 2011, pour une durée de sept ans par le Conseil de recherche en sciences humaines du Canada, dans le cadre du programme des Grands travaux de recherche concertée. Il est constitué de deux grands axes de recherche qui se répondent et s’entrecroisent.

Axe 1 – Histoire sociale et Identités des communautés francophones : les idéologies linguistiques

3 Déterminer comment les idéologies, les représentations et les pratiques autour de la langue ont structuré et structurent encore les rapports à l’intérieur des groupes francophones, et entre groupes francophones, anglophones et allophones.

Axe 2 – Le français en Amérique du Nord : variétés du français en contexte majoritaire et minoritaire

4 Par l’entremise d’une comparaison panlectale et diachronique, déterminer ce qui caractérise les usages linguistiques des francophones en Amérique du Nord ; évaluer les effets linguistiques du contact ; déterminer quelles sont les modalités d’appropriation du français par les non-francophones.

5 L’équipe réunit des chercheurs de plusieurs disciplines (linguistique, histoire, sociologie, anthropologie, ethnologie, géographie, littérature et archivistique), provenant de 44 universités. Le cœur de l’équipe scientifique réunit 13 chercheurs, provenant de France (Françoise Gadet, Université Paris Ouest Nanterre La Défense ; André Thibault, Paris Sorbonne), des États-Unis (Hélène Blondeau, University of Florida ; Sylvie Dubois, Louisiana State University) et du Canada (Mourad Ali-Khodja & Annette Boudreau, Université de Moncton ; Mireille Tremblay, Université de Montéal ; Jean-Pierre Le Glaunec & Wim Remysen, Université de Sherbrooke ; Paul Cohen, University of Toronto ; Raymond Mougeon, York University ; Yves Frenette, Université de Saint-Boniface ; & France Martineau, Université d’Ottawa, directrice), auxquels se joint une coordonnatrice de recherche, Marie-Claude Séguin, de l’Université d’Ottawa.

6 Du point de vue des idéologies et représentations, notre démarche consiste à croiser différents terrains d’observation en Amérique du Nord et différentes périodes, de façon à permettre de saisir les éléments que partagent les diverses communautés quant à leurs rapports aux idéologies et aux représentations linguistiques, ainsi que ce qui les distingue en fonction des événements politiques, sociaux, juridiques, économiques, religieux et culturels propres à chacun des contextes. Ainsi, en Amérique du Nord, les discours sur la langue ont fortement contribué à construire chez les locuteurs des représentations ambivalentes à l’égard du français parlé. Les archaïsmes, associés par l’élite à l’authenticité du vernaculaire franco-canadien, ont été reconnus comme légitimes en raison de leur filiation avec le français parlé en France, alors que les anglicismes ont été rejetés, parce qu’ils symbolisaient l’assimilation à la culture dominante (Bouchard, 2002 ; Boudreau, 2009 ; Boudreau & Ali-Khodja, 2009 ; Remysen, 2010). À un niveau macro-sociétal, ces représentations sont par ailleurs liées à

Corpus, 15 | 2016 28

l’idéologie de l’État-nation (Gellner, 1989 ; Hobsbawm, 1992 ; Anderson, 1996). En effet, en tant que formes politico-culturelles et souvent dans une grande proximité au discours religieux, les États-nations ont mobilisé au cours de leur construction à la fois un « travail des langues » et un « travail sur les langues », l’un comme l’autre impliquant qu’à un territoire donné soit associée une langue particulière.

7 Du point de vue des usages, le projet s’intéresse à la rencontre de groupes francophones avec d’autres groupes francophones (laurentien, acadien, européen) ou groupes linguistiques (anglophones, amérindiens, notamment) à divers moments et à différentes périodes en Amérique du Nord. Même si tous les linguistes admettent que le contact linguistique joue un rôle dans la variation et le changement linguistique, le poids relatif des facteurs externes et internes reste à être vérifié. Un même phénomène linguistique peut être compris comme provoqué/ facilité par le contact entre groupes linguistiques, ou bien découler de l’effet d’une dynamique interne (Mougeon & Beniak, 1991 ; Mougeon, Nadasdi & Rehner, 2005 ; Poplack & Levey, 2011). Les faits de variation sont partie prenante de variétés, même si la fluidité de la langue et du changement qui lui est associé correspondent moins à des communautés définies par des frontières géopolitiques qu’à des réseaux sociaux (en particulier familiaux) à l’intérieur desquels la langue ou les langues du locuteur sont transmises. Notre approche se distingue d’approches plus traditionnelles de la variation en dégageant, dans nos études de terrains, à la fois les réseaux sociaux qui définissent des communautés au sens large et des variables sensibles à la mixité sociale et culturelle qui permettent de mesurer le degré de cohésion sociolinguistique d’une communauté et les changements qui la traversent (Gadet & Martineau, 2012).

2. Le Corpus FRAN

2.1 Structure du Corpus FRAN

8 Le Corpus FRAN assure un ancrage empirique commun aux deux axes, favorisant ainsi le dialogue interdisciplinaire et une approche globale de la variation linguistique ainsi que des représentations sur la langue. Le corpus est établi de façon à permettre une comparaison panlectale des variétés de français d’Amérique du Nord dans une perspective à la fois diachronique et synchronique. L’objectif est de comprendre l’évolution de communautés, des réseaux qui se sont tissés et des effets sur la langue et les représentations linguistiques générées. En ce sens, il était important de baser le Corpus FRAN sur un nombre de communautés choisies selon leur ancrage historique et les contacts avec d’autres groupes francophones, anglophones et allophones ; ont été choisies, en Acadie, Moncton et Baie Sainte-Marie ; au Québec, Montréal et en particulier deux quartiers pour les enquêtes modernes, soit Hochelaga-Maisonneuve et Saint-Michel/Montréal-Nord, ainsi que Chicoutimi et Gatineau ; en Ontario, Welland, Windsor et Hearst ; dans l’Ouest canadien, Saint-Boniface au Manitoba ; aux États-Unis, Gardner et Waterville en Nouvelle-Angleterre et en Louisiane, la Nouvelle-Orléans et Lafourche ; en France, Paris et Rouen. À ces terrains se greffe, pour l’éclairage apporté sur les origines du français colonial, le français des Antilles. Trois grands ensembles forment ce corpus et permettent de créer des ponts entre les deux axes du projet, et entre les perspectives diachronique et synchronique.

Corpus, 15 | 2016 29

2.1.1 Corpus historiques

9 Les corpus historiques sont constitués de correspondance privée (lettres, journaux personnels) qui permettent de retracer des marques de la langue parlée chez des scripteurs malhabiles (Schneider, 2002 ; Martineau, 2007 ; Ernst, 2010 ; van der Wal, Rutten & Simons, 2012) et qui font ainsi le pont avec des corpus oraux modernes pour l’étude de la variation linguistique. Nous avons aussi examiné la correspondance du clergé et de la presse de façon à cerner les idéologies linguistiques qui s’y déploient ; ce corpus répond ainsi à ceux constitués par les entrevues modernes des personnalités (voir en 2.1.3). À ces corpus nous avons ajouté des enquêtes de nature dialectologique et sociolinguistique sur les langues créoles et le français des Antilles qui constituent un apport précieux à la connaissance du français parlé au début de la colonisation, dans la suite de travaux de ce type (Poirier, 1979 ; Chaudenson, Mougeon & Béniak 1993 ; Thibault, 2008).

2.1.2 Corpus patrimoniaux

10 L’établissement d’ententes avec des chercheurs a permis l’apport de corpus patrimoniaux recueillis dans le dernier quart du XXe siècle (corpus Lefebvre- Drapeau sur le quartier Centre-Sud à Montréal ; corpus Fox-Smith sur la Nouvelle- Angleterre ; corpus S. Dubois sur la Louisiane ; corpus Boudreau-Dubois & Marie- Marthe Roy sur Moncton ; corpus Mougeon sur Welland 1975). Cette avancée unique dans le partage de corpus a enrichi le corpus FRAN et permet la préservation de ces corpus et leur diffusion plus large au sein de la communauté scientifique. Ces corpus permettent des comparaisons en temps réel avec nos corpus modernes sur plusieurs décennies (1970-2014) pour suivre l’évolution de la langue.

2.1.3 Corpus modernes

11 Pour sonder l’ensemble des pratiques linguistiques, les nouveaux corpus sont de trois types. Tout d’abord, des entrevues auprès de personnalités (des leaders dans la communauté) ont été effectuées dans des communautés en contexte minoritaire, là où l’insécurité linguistique est souvent aiguë (Francard, 1994). Ces entrevues nous permettent de cerner les représentations et les pratiques linguistiques. Ensuite, des entrevues de nature variationniste ont aussi été effectuées de façon à cartographier les usages linguistiques selon des paramètres sociolinguistiques (âge, classe sociale, éducation, etc.). Le corpus recueilli dans la métropole montréalaise permet une comparaison avec la situation linguistique à Paris, autre métropole francophone. Le choix de Welland et de Montréal nous permet également de jeter les bases d’une comparaison en temps réel avec nos corpus patrimoniaux des années 1970 versés au Corpus FRAN. Enfin, nous avons aussi effectué des entrevues de nature écologique, c’est-à-dire des enregistrements recueillis dans des situations naturelles, sans la présence d’un enquêteur (p. ex. autour d’un repas de famille ou entre amis), de façon à examiner toute la palette variationnelle de locuteurs pour qui le français alterne souvent avec d’autres langues (anglais surtout, et aussi langues de migration) (Gadet, 2013).

12 Le choix de mener des entrevues auprès de membres des élites (« personnalités ») œuvrant dans plusieurs sphères d’activité et d’intégrer dans nos questionnaires

Corpus, 15 | 2016 30

d’enquêtes variationnistes un module sur les attitudes linguistiques a permis de cerner au présent l’état de ces représentations linguistiques, tout en reconstituant les parcours sociobiographiques de ces personnes, leurs conditions de socialisation, leurs rapports au français et à l’anglais, ainsi que leurs pratiques dans leur domaine d’activités respectif. Ces entrevues sont riches d’enseignement ; on constate ainsi, en comparant des entrevues de personnalités de Welland 1975 à celles effectuées en 2013, que la communauté n’est plus divisée sur la question de la scolarisation des enfants en français et de la scolarisation dans les deux langues. Le principe de l’instruction totalement en français, qui n’était soutenu que par une minorité en 1975 (minorité issue principalement de l’élite), est maintenant accepté par l’ensemble des parents (Mougeon, 2012).

13 Le Corpus FRAN est le premier corpus librement accessible en ligne documentant le français sur plusieurs terrains en Amérique du Nord, à partir de ressources orales et textuelles et un profil sociohistorique. C’est aussi un outil précieux pour la francophonie en dehors de l’Amérique du Nord par les réponses qu’il permet d’apporter sur des enjeux partagés, comme le contact de langues, la palette variationnelle des locuteurs et la mobilité sociale et géographique. Au Corpus FRAN s’ajoutent le corpus MCVF (Martineau, 2010), qui porte sur la période médiévale au français classique, également accessible en ligne, et le Corpus LFFA (Martineau, 2005-), qui porte sur la correspondance familiale de scripteurs lettrés et peu lettrés du français classique au début du XXe siècle, ainsi que sur des entrevues de nature ethnologique effectuées en Amérique du Nord, corpus en cours de mise en ligne ; ces trois corpus réunis permettent une interrogation depuis l’ancien français jusqu'à la période contemporaine, avec stratification sociale et régionale.

2.2 Transcription, alignement texte/son et protocole

14 Les entrevues de personnalités et les entrevues patrimoniales sont transcrites avec MS Word, mais nous avons opté, pour les nouvelles entrevues variationnistes et les entrevues écologiques, pour un système de transcription d’alignement texte/son avec Praat (Boersma & Weenink, 2001-) et ELAN (Wittenburg, Brugman, Russel, Klassmann & Sloeutjes, 2006), en harmonie avec les développements récents en sciences du langage.

2.2.1 Les avantages de l’alignement texte/son

15 L’alignement texte/son à l’aide de Praat ou ELAN2 présente plusieurs avantages par rapport à la simple transcription séquentielle dans un programme de traitement de texte, surtout en ce qui a trait à l’efficacité de la production des transcriptions, à l’analyse ultérieure des textes et aux liens directs que l’on peut établir entre le sonore et l’écrit.

16 En effet, l’alignement texte/son favorise la production rapide et efficace de la transcription d’enregistrements, en permettant la segmentation en intervalles de quelques énoncés tout au plus, sans que cela affecte pour autant la piste sonore originale. Le travail du transcripteur/vérificateur est facilité du fait qu’il peut réécouter un intervalle en boucle, tout en se concentrant sur une quantité de texte très restreinte. L’annotation à niveaux multiples (multi-tier annotation), c’est-à-dire la fonction permettant la superposition de plusieurs niveaux de texte, accélère davantage le processus de transcription en ce qu’elle permet d’utiliser une seule piste de texte par

Corpus, 15 | 2016 31

participant, ce qui est particulièrement utile dans le cas d’entrevues écologiques où il y a présence de multiples participants. De plus, l’annotation à niveaux multiples peut être mise à contribution afin de promouvoir la communication entre les différents acteurs intervenant dans la création d’une transcription. Par exemple, un transcripteur qui aurait confirmé l’orthographe particulière d’un nom propre peut indiquer, sur une piste dédiée à cet effet, la source d’information qu’il a utilisée. Finalement, la contiguïté de l’affichage visuel de la piste sonore avec sa transcription peut éventuellement contribuer à désambiguïser un son ou des paroles, quand le transcripteur possède des aptitudes lui permettant d’analyser les oscillogrammes et les spectrogrammes.

17 En sus de l’exécution expédiente des transcriptions, l’annotation à niveaux multiples permet de préparer le document pour les analyses linguistiques. Notamment, les niveaux d’annotation peuvent être employés pour le repérage de variables ou d’unités linguistiques (par exemple, des anglicismes, des formes verbales ou des phénomènes, comme la liaison) ou encore pour préparer le texte à l’indexation morphosyntaxique ou lexicale.

18 Finalement, l’alignement du texte et du son permet d’établir des marqueurs temporels dans la transcription, ce qui peut servir, d’une part, à documenter les phénomènes extralinguistiques ayant une portée sur l’enregistrement ou la transcription et, d’autre part, à l’ajout éventuel d’un lecteur audio intégré à une page web qui permettrait d’entendre des sections d’enregistrement.

2.2.2 Les protocoles de transcription : pour qui et pour quoi ?

2.2.2.1 Le protocole de transcription des enregistrements

19 À l’instar des protocoles de transcription du VALIBEL3 (Dister, Francard, Feron, Giroul, Hambye, Simon & Wilmet, 2006) et du PFC (Durand, Laks & Lyche, 2009), le protocole élaboré par le projet (Martineau, 2011-) adopte une orthographe traditionnelle, sans « aménagement graphique »4 qui ferait de la transcription qu’elle ne tiendrait « ni tout à fait de l’oral, ni tout à fait de l’écrit » (Dister & Simon, 2007).

20 Le protocole du projet a été conçu de façon à promouvoir une interrogation rapide et ergonomique du corpus. Il a comme visée de répondre aux besoins d’utilisateurs intéressés à la morphosyntaxe, au lexique et, de façon plus générale, aux variétés de français nord-américaines. Les seuls éléments phonétiques pris en considération lors de la transcription sont les liaisons non standard (p. ex. : Je suis Tun homme riche) et la prononciation des consonnes finales (p. ex. : bouT, faiT, genS), que nous considérons comme des phénomènes morphophonétiques lexicaux. Autrement, la représentativité morphosyntaxique est respectée dans son intégralité, dans le sens où les paroles des locuteurs sont reproduites fidèlement et ce, indépendamment de leur impropriété perçue par les prescriptivistes. À titre d’exemple, les formes verbales non standard comme « ils jousaient » (‘ils jouaient’) et « ils sontaient » (‘ils étaient’) sont transcrites telles quelles ; l’omission de « ne » et de « que » est respectée ; des lexèmes récurrents dans certaines variétés sont transcrits sans normalisation, par exemple, « astheure » en français laurentien (et non ‘à cette heure’), « marabouse » (féminin de ‘marabout’, qui est invariable) en français acadien, « ployer » (pour ‘plier’) en français cajun.

21 Les protocoles de transcription énumérés en début de section et celui du projet Le français à la mesure d’un continent ont également ceci en commun qu’ils incluent des mesures pour noter les amorces, les répétitions, les pauses, et les chevauchements,

Corpus, 15 | 2016 32

quoique la notation soit différente. Ils divergent cependant en ce qui a trait à la démarcation des énoncés pour former ce qu’on appelle, à défaut d’un terme plus approprié, une « phrase ». Nous avons opté pour accepter une certaine délimitation sommaire des éléments phrastiques, mais avons toutefois limité les éléments de ponctuation au point et au point d’interrogation.

22 Étant donné qu’un des axes de recherche du projet porte sur les variétés de français en contexte majoritaire/minoritaire et les effets linguistiques du contact entre les communautés, certains éléments susceptibles d’intéresser les usagers du Corpus FRAN ont été étiquetés directement dans le texte. C’est le cas des mots anglais et des anglicismes (ceints de guillemets français), des calques et des extensions sémantiques (ceints de chevrons) et des mots étrangers (ceints d’accolades). Il est à noter que ce repérage initial ne remplace pas la recherche exhaustive que doit effectuer le chercheur chevronné ; son utilité consiste à attirer l’attention sur ces phénomènes ainsi qu’à permettre à notre moteur de recherche, PhiloLogic, de dégager une liste de toutes ces occurrences en entrant l’un ou l’autre de ces codes dans le champ de recherche des mots.

2.2.2.2 Le protocole de retranscription de manuscrits

23 La retranscription des manuscrits (lettres, journaux) s’effectue selon un protocole dont la directive première est de retranscrire le texte exactement tel qu’il apparaît. Ainsi, l’orthographe, même si elle dévie des normes modernes ou de l’époque, la grammaire, la ponctuation, les coquilles, l’agglutination des mots et autres phénomènes propres à l’écriture sont-ils inchangés par rapport à l’original. Ceci inclut l’utilisation du caractère < ſ > (s long) et des majuscules considérées « inopportunes » selon les standards actuels. Les caractères raturés, soulignés ou supérieurs sont également représentés tels quels sur l’écran.

24 Quant aux éléments hors teneur de la lettre, dont sa mise en page, ils ne sont pas représentés à l’écran par PhiloLogic. Les alinéas, les marques de sceau, l’écriture perpendiculaire dans la marge et autres éléments similaires sont toutefois attestés par le biais d’une note du transcripteur placée entre crochets.

2.3 L’interface PhiloLogic

25 Afin de rendre accessible le corpus FRAN à la communauté internationale, nous avons implanté sur notre serveur le logiciel PhiloLogic et développé une interface qui tient compte de paramètres sociohistoriques5. Les corpus ont été anonymisés et sont accessibles par mode d’interrogation de type concordance ; les corpus des personnalités ne sont pas accessibles en ligne pour des raisons éthiques, l’anonymat des locuteurs étant difficile à préserver en raison de la nature des entrevues, mais peuvent être consultés au laboratoire Polyphonies du français (directrice F. Martineau), à l’Université d’Ottawa. Des corpus patrimoniaux, notamment ceux pour lesquels nous n’avons pas l’autorisation de mettre en ligne, et des bases de données sont aussi accessibles au laboratoire.

Corpus, 15 | 2016 33

2.3.1 Liste des textes disponibles et accès au Corpus FRAN

26 Une liste de tous les documents disponibles pour interrogation est disponible sur le site web. Elle inclut le titre du document et sa forme (type entrevue, lettre, etc.), ainsi que le lieu et la date de sa création. L’internaute désirant avoir accès à ces documents doit faire une demande d’accès au Corpus FRAN et s’engager à respecter les conditions d’utilisation.

2.3.2 PhiloLogic et son interface

27 PhiloLogic est un moteur de recherche développé à l’Université de Chicago, dans le cadre du projet ARTFL6 (American Research on the Treasury of French Language) et du DLDC7 (Digital Library Development Center). Le projet Le français à la mesure d’un continent a reçu une subvention de la Fondation canadienne pour l’innovation (FCI) destinée à adapter le gratuiciel et son interface aux spécifications particulières que requiert l’interrogation de notre corpus.

28 L’interface du moteur de recherche PhiloLogic permet la recherche de mots ou d’expressions. Il est possible de raffiner la recherche en choisissant des filtres qui s’appliquent soit au document, soit à l’individu qui est à la source du document. Les critères de recherche relatifs aux documents sont par exemple ceux du sous-corpus (voir Figure 1) auquel il appartient, de son type (voir Figure 2) et de son origine géo- temporelle (voir Figure 3).

Figure 1. Filtres de recherche pour les documents : critère sous-corpus

Figure 2. Filtres de recherche pour les documents : critère type de document

Corpus, 15 | 2016 34

Figure 3. Filtres de recherche pour les documents : critère province de création

29 Les critères de recherche relatifs aux locuteurs et aux scripteurs, quant à eux, sont de nature socio-économique et permettent, en sus des critères biographiques de base comme le sexe et le lieu et la date de naissance, l’ajout de filtres comme l’occupation, les langues parlées, lues et écrites, ainsi que le niveau d’éducation le plus élevé. Il est possible de jumeler certains critères, par exemple l’occupation et le niveau d’éducation, afin de situer socialement les documents issus des locuteurs/ scripteurs que l’on veut interroger.

2.3.3 La recherche avec le moteur PhiloLogic

30 Il est possible d’effectuer la recherche d’un mot ou d’une expression avec ou sans filtre. La fonction recherche de mots similaires permet de repérer à la fois les formes standards des mots et celles dont l’orthographe n’est pas moderne (p. ex. : « françois » pour ‘français’) ou non régulière (p. ex. dans le cas des écrits des peu lettrés) (voir Figures 4 et 5).

Figure 4. Recherche de(s) mot(s) : Recherche de mots similaires

Corpus, 15 | 2016 35

Figure 5. Recherche de mots similaires à « françois » : résultats

31 De plus, différents opérateurs de recherche sont disponibles afin d’élargir le champ de recherche ou de le restreindre. Par exemple, si on cherche toutes les déclinaisons d’un verbe, comme le verbe « aimer », on écrira « aim* » dans le champ de recherche pour obtenir « aime, aimes, aimons, aimez, aiment, etc. » (voir Figure 6). Cette recherche ne remplace pas une réelle lemmatisation (qui permettrait par exemple de trouver toutes les formes irrégulières du verbe « aller ») mais permet néanmoins de ratisser assez large.

Figure 6. Trois premiers résultats de la recherche avec l’opérateur * (aim*)

32 Une liste de ces opérateurs (caractères wildcard) se trouve en fenêtre contextuelle dans l’interface. Il existe également une fenêtre contextuelle pour afficher une version abrégée du protocole de transcription.

2.3.4 Les résultats de recherche

33 L’interface de recherche permet l’affichage des résultats de deux manières. Par défaut, on obtient l’occurrence recherchée en concordance, c’est-à-dire accompagnée des lignes de textes immédiatement adjacentes. PhiloLogic fournit aussi la référence du texte et, au bas de la page, la bibliographie (voir Figure 7).

Corpus, 15 | 2016 36

Figure 7. Affichage des résultats en mode concordance

34 Il est aussi possible de faire une requête pour les résultats en affichage KWIC (Key Word in Context), comme démontré plus haut dans la Figure 6.

3. Variation et changement : deux études de cas

3.1 La variable du futur périphrastique à Hochelaga-Maisonneuve, Montréal8

35 Les locuteurs francophones de l’est de Montréal, majoritaires depuis l’urbanisation du territoire à la fin du XIXe siècle (Linteau, 2012), ont créé un milieu qui s’est transformé au fil du temps en une zone de mixité sociale où les pratiques culturelles et langagières s’entremêlent, et les contacts avec les locuteurs anglophones ne sont pas absents. Nous présentons les premiers résultats d’une étude qui s’est intéressée aux trajectoires géographiques, familiales et sociales d’un groupe de douze locuteurs âgés de Hochelaga-Maisonneuve (HOMA), quartier ouvrier de l’est de Montréal, qui a connu dans la dernière décennie une gentrification (Martineau, Blondeau & Frenette, 2014 ; Gadet & Martineau, 2014). La variable de la 1re personne de l’auxiliaire aller employé comme auxiliaire du futur périphrastique (je vais/ je vas/m’as partir) est un bon analyseur sociolinguistique de la variation diastratique et diatopique (voir entre autres Martineau & Mougeon, 2005 ; Martineau, 2009, 2012). En français canadien, trois variantes coexistent pour marquer la première personne du futur périphrastique : je vais, associé au français soutenu (1a), je vas, associé à un emploi familier et même neutre (1b), et m’as, associé au français populaire (1c). En français continental, la variante m’as est pour ainsi dire inexistante, ce qui a pour effet que la variante je vas est généralement associée à un français familier ou populaire/régional9. (1) a. Je vais partir. b. Je vas partir. c. M’as partir.

36 À partir de l’analyse de cette variable, en particulier de l’emploi de m’as, nous montrons comment les réseaux qu’ont tissés les locuteurs permettent de comprendre les continuités/ ruptures linguistiques et les alliances communicationnelles entre locuteurs dans un quartier dit culturellement homogène.

Corpus, 15 | 2016 37

37 La Figure 8 montre la fréquence d’emploi des trois variantes chez les locuteurs âgés interrogés.

Figure 8. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller, auxiliaire du futur périphrastique chez douze locuteurs âgés d’Hochelaga-Maisonneuve à Montréal

Je vais Je vas M’as Total

18,8 % 70 % 11,2 % 100 % (39/207) (145/207) (23/207) (207/207)

38 Comme le montre la Figure 8, les locuteurs âgés que nous avons interrogés affichent une fréquence élevée de l’emploi de la variable je vas (70 %) ; rien d’étonnant donc puisqu’au Québec – et plus généralement dans le parler laurentien – c’est la variante par défaut à l’oral. La variante m’as est la moins fréquente, et ce, même dans un quartier populaire. Ces données, lorsqu’on les compare à des locuteurs nés à la fin du XIXe siècle, montrent que la variante m’as a subi un déclin progressif (je vais 0,3 % ; je vas 60,1 % ; m’as 39,6 %, Martineau, 2014). Cette tendance vers une régression de l’emploi de la variante la plus associée au parler populaire est confirmée par l’étude de Sankoff & Thibault (2011), qui comparent le corpus de Montréal 1971 à celui de 1984. Dans le premier, le pourcentage d’emploi de m’as est de 30,7 % (177/576), alors que dans le second, il n’est plus que de 15,9 % (217/1368). Dans leur corpus recueilli en Estrie à Stanstead en 2001, les auteures montrent que le pourcentage est encore plus bas (12,2 % 19/156), résultat qui se rapproche des chiffres révélés par la Figure 8. Lorsqu’on ne considère que le groupe des jeunes, comme l’ont fait Martineau, Blondeau & Frenette (2014) à partir du corpus d’Hochelaga-Maisonneuve, l’emploi de m’as est encore plus bas, soit à peine 1 % des occurrences, sans doute en partie en raison d’un effet de la gentrification du quartier (voir aussi, pour des résultats similaires chez les jeunes, Martineau & Dumouchel-Trudeau, 2013, pour la ville de Gatineau, située au Québec à la frontière avec Ottawa, en Ontario). Ces résultats doivent évidemment tenir compte d’autres facteurs, comme la classe sociale ou le sexe, mais il n’empêche que cette variante m’as semble avoir connu une régression depuis le début du XXe siècle, et ce, même dans des quartiers à caractère ouvrier comme Hochelaga-Maisonneuve, comme le démontrent nos résultats à la Figure 8. Mais ce tableau cache une grande hétérogénéité entre locuteurs qui ne peut se comprendre que par une étude du parcours sociobiographique des locuteurs et de leur position dans le réseau social de leur communauté. Nous nous arrêterons sur trois locuteurs, habitant à quelques rues les uns des autres, mais dont les réseaux, les parcours et les aspirations sont bien différents.

39 Le premier locuteur, Gérard, est retraité et a été contremaître dans une usine située dans le quartier. Il a vécu sa jeunesse dans un quartier ouvrier en périphérie de Montréal, puis a déménagé dans le quartier Hochelaga-Maisonneuve lorsqu’il s’est marié. En cela, il correspond au profil ouvrier de Hochelaga-Maisonneuve, bien que le poste qu’il a occupé ait impliqué des responsabilités importantes. La Figure 9 montre les résultats pour la variable à l’étude.

Corpus, 15 | 2016 38

Figure 9. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller, auxiliaire du futur périphrastique chez le locuteur Gérard, d’Hochelaga-Maisonneuve

Je vais Je vas M’as Total

7,4 % 77,7 % 14,9 % 100 % (2/27) (21/27) (4/27) (27/27)

40 Les usages linguistiques de Gérard montrent un emploi fréquent de la variante neutre je vas, en accord avec les fréquences moyennes du quartier. Ce serait donc le locuteur type du quartier, ce qui est appuyé par le fait qu’il est d’ailleurs très bien réseauté dans le quartier et membre de plusieurs organismes bénévoles. En accord avec ce milieu ouvrier qui connaît des racines militantes à la cause souverainiste et à la protection du français dans la sphère publique, Gérard est sensible au statut du français au Québec. Il dira ainsi : « On appelle ça une shop en anglais, mais c’est modèlerie en français ».

41 Le second locuteur, Jacques, connaît Gérard et habite à quelques rues de chez lui. Mais, contrairement à Gérard, pour Jacques, son usage le plus fréquent est je vais, en rupture avec les ‘normes’ de son quartier, comme le montre la Figure 10.

Figure 10. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller, auxiliaire du futur périphrastique chez le locuteur Jacques, d’Hochelaga-Maisonneuve

Je vais Je vas M’as Total

53,3 % 46,7 % 0 % 100 % (8/15) (7/15) (0/15) (15/15)

42 La position sociale de Jacques est assez semblable à celle de Gérard, en ce sens qu’il a occupé au cours de sa vie un poste à responsabilité, celui de commis pharmacien. Il n’appartient toutefois pas au même monde ouvrier que Gérard. Même s’il a vécu, à partir de sa prime enfance, dans le quartier de Hochelaga-Maisonneuve, contrairement à Gérard, qui s’identifie à l’élément ouvrier et œuvre dans des groupes communautaires, Jacques est très conscient de sa position sociale. Il se dit pharmacien alors que, même s’il a sans doute travaillé très fort à la pharmacie, il n’en a pas le titre et a été commis à la pharmacie. Il a le sentiment d’être le gardien du passé glorieux du quartier et réagit fortement lorsqu’il y a migration de quartiers plus pauvres vers son quartier. (2) Pis d’autant plus on euh je me souviens parce qu’à partir des années soixante et dix euh moi j’avais pas vu ça dans le quartier ici en pharmacie des poux. Mais c’est drôle quand même c’était une coïncidence peut-être mais on a vu une épidémie de poux arriver en même temps que ces euh (phrase non terminée) Ça c’est une affaire qui m’avait marqué à l’époque on en parlait souvent. L’épidémie de poux là quand ça a commencé dans ces on appelait ça euh oui ça a changé de façon radicale le quartier.

43 On ne peut pas associer Jacques à la nouvelle gentrification du quartier. C’est essentiellement un petit ouvrier dont les aspirations sont à la fois celles de son quartier, auquel il est très attaché, mais qu’il idéalise. Comme Gérard, il présente une très grande sensibilité au statut du français dans la métropole montréalaise et il exige de se faire servir en français, partout où il va.

Corpus, 15 | 2016 39

44 Contrairement à Gérard et à Jacques, le troisième locuteur, Lucien, n’a pas de racines aussi profondes dans le quartier. C’est un enfant de migrant. Son père est né en France, à Carnières, département du Nord de la France et arrive à Montréal à l’âge adulte au début du XXe siècle, peut-être en rupture sociale avec une famille de notaires bien établie dont il était issu. Sa mère est de Québec. Lucien a habité Montréal toute sa vie, surtout dans l’est ouvrier, mais il n’a pas vécu toute sa vie dans Hochelaga- Maisonneuve. Il représente le groupe d’invasion d’habitants des quartiers pauvres vers Hochelaga-Maisonneuve qu’a décrit Jacques.

45 Dans son entrevue, Lucien marque clairement sa rupture avec le passé français de son père, comme l’illustre le passage suivant : (3) Pis euh les « chum »s à mon père ils venaient chez nous pis ils me disaient « Comment ça fait tu parles pas français ? » J’ai dit « Moi si je parle français icitte m’as me faire tuer. » Parce que les/ les/ les gars je me tiens avec là c’est pas des/ c’est pas des gars qui/ c’est des gars qui sacraient pis des gars qui parlaient mal pis en tout cas. Pis si je parle français ils vont prend/ me prendre pour une tapette.

46 Lucien ne participe pas activement aux activités du quartier. C’est un marginal, côtoyant parfois la violence. Son emploi de la variante m’as, comme le montre la Figure 11, beaucoup plus élevé que dans le quartier Hochelaga-Maisonneuve, ou qu’au Québec, reflète cette marginalité, sa rupture avec le passé français de son père, mais aussi sa rupture avec le quartier Hochelaga-Maisonneuve.

Figure 11. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller, auxiliaire du futur périphrastique chez le locuteur Lucien, d’Hochelaga-Maisonneuve

Je vais Je vas M’as Total

0 % 15,3 % 84,7 % 100 % (0/13) (2/13) (11/13) (13/13)

47 Cette étude de la variable de la première personne du singulier du futur périphrastique, en particulier de m’as, montre qu’en dehors des questions de classes sociales ou de territoires (que ce soit quartier, ville ou région), il est nécessaire de tenir compte des réseaux, auxquels se sentent liés ou pas les individus. Dans Hochelaga-Maisonneuve, l’emploi de m’as correspond à ce que l’on trouve généralement ailleurs dans les parlers laurentiens, mais lorsqu’on examine de plus près les données, il devient évident que des locuteurs habitant la même rue, qui ont le même âge, qui sont issus de mêmes conditions sociales, et qui se côtoient sans doute dans les dépanneurs du coin, peuvent avoir des usages très différents selon leur parcours de vie et leurs réseaux sociaux. De même, les jeunes, qu’ils soient de Montréal ou de Gatineau, ont plus en commun du fait d’appartenir à la même génération, ouverte à une certaine mondialisation et à la standardisation du français, ce qui explique à la fois leur fréquence très basse d’un trait comme m’as, non seulement associé au parler populaire mais aussi au parler laurentien, et leur intégration de termes anglais, même lorsqu’ils vivent dans des contextes où le français est majoritaire et a un statut officiel, comme c’est le cas au Québec.

Corpus, 15 | 2016 40

3.2 La variable de conséquence (so, ça fait que, donc, alors) : français en contexte minoritaire et majoritaire

48 Le Corpus FRAN, en plus de permettre des études sur des facteurs externes comme le sexe, l’âge, la classe professionnelle, l’éducation, permet également de comparer des communautés en contexte minoritaire et majoritaire, dans des situations linguistiques à différents pôles de la restriction linguistique. Par exemple, à Welland et à Moncton, le français est en contexte minoritaire. Mais tandis qu’à Moncton il se trouve dans une province officiellement bilingue (le Nouveau-Brunswick), ce n’est pas le cas de Welland, qui se trouve dans une province officiellement unilingue anglophone (l’Ontario). Dans une métropole comme Montréal, le français est en contexte majoritaire, autant dans des quartiers à forte densité francophone comme Hochelaga-Maisonneuve que dans des quartiers multiculturels comme Montréal-Nord, où il coexiste avec des langues issues de l’immigration ; à Gatineau (Québec), ville frontalière avec Ottawa, en Ontario, le français est en contact étroit avec l’anglais. Aux États-Unis, comme en Louisiane ou en Nouvelle-Angleterre, il est en étiolement, et parlé presque exclusivement par la génération la plus âgée.

49 On peut faire l’hypothèse que ces contextes variés auront une influence sur les usages, qu’ils soient associés au français canadien traditionnel, ou au contact étroit avec l’anglais. La variable de la conséquence, en emploi interphrastique, est particulièrement intéressante, car elle permet de tester notamment la présence d’innovations comme so (4a), dans des communautés en contact étroit avec l’anglais, innovations qui pourraient être absentes en français québécois, ainsi que la présence de variantes vernaculaires comme (ça) fait que (4b) ou de variantes plus formelles attestées en québécois (donc et alors, 4c, d) (les exemples sont tirés de Mougeon, Nadasdi & Rehner, 2009). (4) a. je suis pas une jaseuse so c’est un peu difficile b. je trouve ça pas mal théorique à Ottawa (ça) fait que j’irais plutôt faire mon bac en psychologie c. je suis pas une personne gênée alors j’y réponds t’sais d. elle a trois mois de convalescence donc j’ai eu beaucoup d’ouvrage

50 Les études de Dessureault-Dober (1974) et Thibault & Daveluy (1989) sur le français montréalais montrent a) l’absence de la variante so dans cette variété de français b) l’emploi plus marqué de (ça) fait que dans la classe ouvrière et dans un registre informel c) l’emploi d’alors par les classes socialement plus élevées d) le caractère très marginal de donc, renvoyé au style hyperformel (voir Mougeon, Nadasdi & Rehner, 2009). La comparaison de ces résultats en contexte majoritaire avec différentes études de Mougeon (Mougeon & Béniak, 1991, Mougeon, 2006) en contexte franco-ontarien, montre que a) (ça) fait que demeure associé à la classe ouvrière et est un trait de locuteurs pour qui le français est d’usage courant (les locuteurs non restreints) (Mougeon & Béniak, 1991, Mougeon, 2006) b) alors que so est absent des études de Dessureault-Dober et de Thibault & Daveluy sur le français québécois, cette variante est surtout présente chez les locuteurs franco-ontariens de la classe ouvrière (Mougeon & Beniak, 1991 ; Golembeski, 1998 ; Mougeon, 2006) et chez les locuteurs semi-restreints, c’est-à-dire ceux qui font un emploi presque égal du français et de l’anglais, et les locuteurs restreints, c’est-à-dire ceux qui sont anglo-dominants (Mougeon & Beniak, 1991 ; Golembeski, 1998 ; Mougeon, 2006) c) alors et donc sont employés par les locuteurs socialement plus élevés (Mougeon & Beniak, 1991 ; Mougeon, 2006) mais aussi

Corpus, 15 | 2016 41

par des locuteurs restreints (Mougeon, 2006). Dans ce dernier cas, l’emploi de variantes formelles s’explique par le fait que les locuteurs s’expriment généralement en français dans un contexte scolaire. Comme le notent Mougeon et collaborateurs (2009), « l’emploi de so par les adolescents franco-ontariens, et en particulier par les locuteurs semi-restreints et restreints, symboliserait leur identité bilingue et l’importance de l’anglais dans leur vie quotidienne. » L’étude de Mougeon et collaborateurs (2009) sur le parler d’adolescents de la communauté francophone dominante, comme Hawkesbury, montre toutefois une progression de la variante so et une raréfaction de la variante alors, deux aspects qui distinguent les usages des jeunes franco-ontariens de cette communauté de Québécois, si on s’en tient aux études faites sur les corpus montréalais de 1971 et 1984. La variable de la conséquence a également été examinée dans la variété acadienne par Wiesmath (2006), qui montre que les variantes (ça) fait que, so et alors sont utilisées tandis que donc est rare. Toutefois, dans le corpus de , « so y est généralisé et n’alterne avec aucun des équivalents français » (p. 100).

51 L’intérêt d’examiner cette variable de façon panlectale dans des corpus francophones nord-américains est multiple ; a) à la fois pour situer la variante so, associée aux contextes où le français est minoritaire, et pour vérifier si cette variante, qui semble jouir d’un prestige voilé chez les francophones en milieu minoritaire, a progressé en contexte majoritaire, dans un contexte où la mondialisation et les échanges sont plus importants ; b) pour mesurer la compétition entre alors et donc, la seconde variante étant très formelle, et vérifier si, en contexte de standardisation, non seulement en milieu minoritaire où cet effet est lié à des locuteurs restreints ou non restreints parlant le français à l’école, mais aussi en contexte majoritaire où le français se standardise, la variante alors régresse au profit de donc ; c) mesurer l’emploi de (ça) fait que, lié au milieu ouvrier, et sa diffusion dans les communautés en milieu minoritaire et majoritaire.

52 Nous avons donc relevé la variable de conséquence en contexte interphrastique dans différents sous-corpus du Corpus FRAN, à la fois en contexte majoritaire et minoritaire, de façon à dégager certaines tendances. La recherche est à l’étape exploratoire étant donné que le Corpus FRAN est encore en cours de construction et que toutes les entrevues ne sont pas recueillies ou transcrites. Les différents emplois de cette variable sont un indice de la vitalité du français vernaculaire ((ça) fait que), des emprunts intersystémiques et de la perception qui peuvent y être associées (comme so), ainsi que de tendances vers la standardisation (alors, donc). Les résultats sont présentés dans la Figure 12.

Figure 12. Fréquence d’emploi de quatre variantes de la conséquence dans différentes communautés nord-américaines dans le corpus FRAN10

Ça fait que/fait Alors Total Terrain So (%) Donc (%) que (%) (%) (%)

16,06 51,93 1,30 30,71 100 Minoritaire (333/ (1077/ (27/ (637/ (2074) 2074) 2074) 2074) 2074)

Corpus, 15 | 2016 42

77,91 20,18 Gardner, Massachusetts 1,62 0,29 100 (529/ (137/ (22 locuteurs) (11/679) (2/679) (679) 679) 679)

73,76 14,07 Lafourche, Louisiane 9,89 2,28 % 100 (194/ (37/ (9 locuteurs) (26/263) (6/263) (263) 263) 263)

Moncton, Nouveau-Brunswick 2,41 97,59 0,00 0,00 100 (6 locuteurs) (2/83) (81/83) (0/83) (0/83) (83)

26,02 1,81 44,14 Welland, Ontario 28,03 100 (273/ (19/ (463/ (23 locuteurs) (294/1049) (1049) 1049) 1049) 1049)

67,72 0,12 16,47 15,68 100 Majoritaire (1114/ (2/ (271/ (258/ (1645) 1645) 1645) 1645) 1645)

Hochelaga-Maisonneuve, Montréal, 0,08 19,58 18,30 62,04 100 Québec (1/ (244/ (228/ (773/1246) (1246) (22 locuteurs) 1246) 1246) 1246)

Montréal, Québec 98,58 0,00 1,42 0,00 100 (4 locuteurs) (139/141) (0/141) (2/141) (0/141) (141)

Montréal-Nord, Québec 94,81 0,65 2,60 1,95 100 (2 locuteurs) (146/154) (1/154) (4/154) (3/154) (154)

20,19 25,96 Gatineau, Québec 53,85 0,00 100 (21/ (27/ (10 locuteurs) (56/104) (0/104) (104) 104) 104)

53 On peut, à partir de la Figure 12, faire une première distinction entre les milieux où le français est minoritaire (hors Québec) et où il est en contexte majoritaire (au Québec) ; à Montréal et à Gatineau, situés au Québec, il y a quasi-absence d’emploi de so dans les entrevues et la variante ça fait que/fait que est la plus courante ; nos locuteurs sont de tous groupes d’âge, et la présence de ça fait que est ainsi répartie dans tous les groupes d’âge. C’est donc dire que les locuteurs de notre corpus de Gatineau, même s’ils habitent à la frontière avec Ottawa, en Ontario, où le français est en contexte minoritaire, se comportent comme des locuteurs en contexte majoritaire ; géographiquement, ils sont plus près d’Ottawa, mais linguistiquement, ils appartiennent au couloir Gatineau-Montréal. On remarque aussi un emploi relativement important de la variante alors dans certaines communautés minoritaires et majoritaires (Gardner, Lafourche, Welland, Gatineau, Montréal à Hochelaga- Maisonneuve) tandis que la variante donc semble plutôt limitée aux communautés majoritaires. Ce résultat est à contraster avec ceux obtenus par Mougeon et

Corpus, 15 | 2016 43

collaborateurs (2009) qui montrent que dans le parler d’adolescents franco-ontariens, là où le français est majoritaire, comme à Hawkesbury, donc est une variante relativement peu employée (14 % en 1975 ; 8 % en 2005) tandis que alors est pour ainsi dire inexistant (p. 157 ; p. 162-163), données qui vont dans le même sens que les nôtres auprès de communautés majoritaires adultes. Par contre, en milieu minoritaire, donc serait moins bien installé que alors, comme nos données révèlent pour Gardner, Lafourche et Welland ; Mougeon et ses collaborateurs (2009) montrent toutefois à Pembroke, dans leur corpus adolescents de 2005, une remontée de donc, peut-être due à l’effet de l’école chez de jeunes adolescents pour qui il s’agit du principal lieu de socialisation en français.

54 Ce que nos résultats montrent également, c’est la différence entre les milieux en contexte minoritaire. Dans deux milieux où le français est en étiolement et parlé par des locuteurs âgés, à Garner et à Lafourche, c’est la variante anglaise so qui domine, suivie de la variante alors associée à la formalité ou au code écrit. La variante la plus courante du français laurentien, ça fait que/fait que, est peu utilisée, bien qu’elle se maintienne à Lafourche. Ces résultats vont dans le sens des résultats des études de Mougeon et ses collaborateurs (2009), qui ont montré que ça fait que est un trait des locuteurs pour qui le français est d’usage courant, ce qui n’est le cas ni en Louisiane ni en Nouvelle-Angleterre. En ce sens, Moncton se distingue de la Nouvelle-Angleterre et de la Louisiane, puisque l’emploi de so est presque catégorique, avec un emploi marginal de ça fait que mais aussi un emploi inexistant de alors ou de donc, contrairement à Gardner, Welland et Lafourche, qui présentent encore un emploi variable de ces variantes. En ce sens, nos données de Moncton ressemblent à celles de Wiesmath (2006) pour le chiac où la variante so a supplanté toutes les autres. Welland se détache des autres communautés minoritaires examinées. En effet, contrairement à ces dernières, so est en forte compétition avec la variante traditionnelle (ça) fait que à Welland, qui est presque autant utilisée ; les deux variantes vernaculaires se font compétition, avec un pourcentage plus important d’emploi de so chez les plus jeunes (47,1 % vs 22,3 % chez les plus âgés) et de (ça) fait que chez les plus âgés (32,3 % chez les plus âgés vs 3,2 % chez les plus jeunes). Cette tendance selon laquelle l’emploi de so serait en progression chez les locuteurs les plus jeunes va dans le sens des données relevées pour Hawkesbury, selon les études de Mougeon et ses collaborateurs (2009). La variante alors est la variante la plus utilisée, contrairement aux autres communautés minoritaires où so domine. On peut s’interroger sur cette robustesse de alors à Welland tandis que cette variante est en régression dans les milieux majoritaires, mais aussi, comme l’ont montré Mougeon et ses collaborateurs (2009) pour Pembroke, dans certains milieux minoritaires ; ces résultats devraient être explorés en examinant notamment des facteurs de formalité et de statut des locuteurs en fonction de leur restriction linguistique. Il y aurait donc des configurations linguistiques différentes du français en milieu minoritaire, notamment entre des milieux comme Moncton et Welland, cette dernière communauté présentant encore une robustesse de la variante traditionnelle.

55 Un dernier commentaire sur le quartier multiculturel de Montréal-Nord. Les résultats laissent entrevoir la richesse des corpus provenant de locuteurs issus de l’immigration, dans les grandes métropoles francophones comme Montréal ou Paris. Les locuteurs interrogés, tous deux jeunes, présentent des traits semblables à ceux des jeunes Québécois, c’est-à-dire avec une nette préférence pour l’emploi de la variante (ça) fait

Corpus, 15 | 2016 44

que/fait que. Il faut dire que l’un des deux jeunes est une locutrice née à Montréal d’un père d’origine libanaise avec qui les liens n’ont pas été étroits alors que sa mère est d’origine québécoise. Le deuxième locuteur est sans doute plus typique du milieu multiculturel ; d’origine haïtienne, il présente vraiment un réseau d’amis québécois et haïtiens. On sait que la communauté haïtienne est très vivante à Montréal et bien intégrée à la communauté francophone montréalaise ; la fréquence élevée d’un trait associé au français laurentien comme la variante (ça) fait que signale cette intégration linguistique.

4. Conclusion

56 L’avancée des technologies numériques permet de croiser des données sur de grands ensembles linguistiques, de façon à faire émerger les convergences et les divergences entre les communautés et à mettre en évidence la variation linguistique. L’Amérique française est un véritable laboratoire linguistique par sa longue histoire (plus de quatre siècles), par l’étendue de son territoire dont les frontières ont été remodelées au fil du temps, par le statut du français qui y est différent selon les pays, les provinces et les communautés. Le Corpus FRAN est le premier corpus en ligne à englober le fait français nord-américain de façon aussi vaste, à la fois de façon synchronique et diachronique, en s’intéressant à la fois aux usages et aux représentations de la langue. Les résultats préliminaires présentés ici montrent comment ce corpus permet des études sur les réseaux et les communautés et dégage des pistes de réflexion sur ce qui définit une variété linguistique, au-delà des étiquettes commodes de variété acadienne ou laurentienne, de variété en contexte minoritaire ou majoritaire.

BIBLIOGRAPHIE

Anderson B. (1996). L’Imaginaire national. Réflexions sur l’origine et l’essor du nationalisme. Traduction de l’anglais par Pierre Emmanuel Dauzat. Paris : La Découverte.

Boersma P. & Weenink D. (2001-). Praat : doing phonetics by computer [Programme d’ordinateur]. Dernière mise à jour : 7 septembre 2015. http://www.praat.org/.

Bouchard Ch. (2002). La Langue et le nombril : histoire d’une obsession québécoise. Montréal : Fides, coll. « Nouvelles études québécoises ».

Boudreau A. (2009). « La construction des représentations linguistiques : le cas de l’Acadie », in F. Martineau, R. Mougeon, T. Nadasdi & M. Tremblay (éd.) Revue canadienne de linguistique 54, 3 : 439-459.

Boudreau A. & Ali-Khodja M. (éd.) (2009). « Le français en milieu minoritaire », Langage et société 129 : 3.

Chaudenson R., Mougeon R. & Beniak E. (1993). Vers une approche panlectale de la variation du français. Paris : Didier Érudition.

Corpus, 15 | 2016 45

Dessureault-Dober. D. (1974). Étude sociolinguistique de (ça) fait que : « coordonnant logique » et « marqueur d’interaction », Thèse de doctorat, Université du Québec à Montréal.

Dister A. & Simon A. C. (2007). « La transcription synchronisée des corpus oraux. Un aller-retour entre théorie, méthodologie et traitement informatisé », Arena Romanistica 1, 2 : 54-79.

Dister A., Francard M., Geron G., Giroul V., Hambye Ph., Simon A. C. & Wilmet R. (2006). « Conventions de transcription régissant les corpus de la banque de données VALIBEL », http:// valibel.fltr.ucl.ac.be.

Durand J., Laks B. & Lyche Ch. (2009). « Le projet PFC : une source de données primaires structurées », in J. Durand, B. Laks et Ch. Lyche (éd.) Phonologie, variation et accents du français. Paris : Hermès, 19-61.

Ernst G. (2010). « ‘qu’il n’y a orthographe ny virgule encorre moins devoielle deconsol et pleinne delacunne’: la norme des personnes peu lettrées (XVIIe et XVIIIe siècles) », in M. Iliescu, H. Siller- Runggaldier & P. Danler (éd.) Actes du XXVe Congrès international de linguistique et de philologie romanes, Innsbruck 2007, vol. 3. Berlin : De Gruyter, 543-551.

Francard, M. (éd.) (1994). L’Insécurité linguistique dans les communautés francophones périphériques, avec la collaboration de Geneviève Géron et Régine Wilmet, vol. 1, Cahiers de l’Institut de linguistique de Louvain 19, 3-4, 1993 [paru en 1994] ; vol. 2, Cahiers de l’Institut de linguistique de Louvain 20, 1-2.

Gadet F. (2013). « Les lieux du style en français oral contemporain », in Sld M.-G. Boutier, P. Hadermann & M. Van Acker Helsinki (éd.), La Variation et le changement en langue (langues romanes), Helsinki : Société Néophilologique, 7-20.

Gadet F. (2003). La Variation sociale en français. Paris : Ophrys.

Gadet F. & Martineau F. (2014). « Le maillage du français en Amérique du Nord, dans un cadre de francophonie », in 10e Colloque international « Français du Canada – Français de France » L’Amérique francophone – Carrefour culturel et linguistique, Trêves, 19-22 juin 2014.

Gadet F. & Martineau F. (2012). « Le français panfrancophone saisi à travers un maillage de réseaux », Cahiers de linguistique, Construction des connaissances sociolinguistiques. Du terrain au positionnement théorique 38, 2 : 63-88.

Gellner E. (1989). Nations et nationalisme. Traduction de l’anglais par Bénédicte Pineau, Paris : Payot.

Golembeski D. (1998). French Language Maintenance in Ontario, Canada : A sociolinguistic portrait of the community of Hearst. Thèse de doctorat, Indiana University.

Hobsbawm E. (1992). Nations et nationalisme depuis 1780. Traduction de l’anglais par Dominique Peters. Paris : Gallimard.

Linteau P.-A. (2012). « The francophone reconquest of Montreal : the early years », atelier Urban Francophone Language Practices in North America : A Comparative Perspective, Sociolinguistics Symposium 19, Berlin, août.

Martineau F. (2014) « Le français des pionniers de la Saskatchewan : quelques pistes de réflexion », in S. Hallion & R. Papen (éd.) À l’ouest des Grands Lacs : communautés francophones et variétés de français dans les Prairies et en Colombie-Britannique. Québec : Les Presses de l’Université Laval, coll. « Voies du français », 155-188.

Corpus, 15 | 2016 46

Martineau F. (2012). « Les voix silencieuses de la sociolinguistique historique », Cahiers de linguistique. Construction des connaissances sociolinguistiques. Variation et contexte social, 38, 1 : 111-135.

Martineau F. (dir.) (2011-). Corpus FRAN Corpus du français d’Amérique du Nord, élaboré dans le cadre du projet Le français à la mesure d’un continent : un patrimoine en partage. www.continent.uottawa.ca.

Martineau F. (dir.) (2010). Le Corpus MCVF (Modéliser le changement : les voies du français). www.voies.uottawa.ca.

Martineau F. (2009). « Vers l’Ouest : les variétés laurentiennes », in L. Baronian & F. Martineau (éd.) Le français, d’un continent à l’autre. Québec : Presses de l’Université Laval, coll. « Voies du français », 291-325.

Martineau F. (2007). « Variation in Usage from the 18th to the 19th Century », Multilingua 26, 2-3 : 203-227.

Martineau F. (dir.) (2005-). Le Corpus LFFA (laboratoire de français familier ancien). www.polyphonies.uottawa.ca.

Martineau F., Blondeau H. & Frenette Y. (2014). « Francophonie montréalaise : évolution des pratiques linguistiques en contexte », Les Métropoles francophones en temps de globalisation, 5-7 juin 2014.

Martineau F. (dir.) (2014) en collaboration avec M.-Cl. Séguin, A. Bertrand, J. Dumouchel-Trudeau, R. Mougeon & D. Thomas. « Protocole de transcription du projet GTRC Le français à la mesure d’un continent : un patrimoine en partage », version 3.0.

Martineau F. & Dumouchel-Trudeau J. (2013). « Enquête écologique à Gatineau, le français autour de la table », Panel Pratiques et idéologies linguistiques en Amérique du Nord : Des réalités en tension ?, ACFAS, Québec, 7-8 mai 2013.

Martineau F. & Mougeon R. (2005). « Vais, vas, m’as in spoken French : a diachronic and dialectal perspective », Linguistic Symposium on , Austin, février 2005.

Mougeon R. (2012). « La communauté francophone de Welland durant les années 1970 : le début de l’érosion linguistique et culturelle ? », Communication au Centre de recherches en civilisation canadienne-française, Université d’Ottawa, 27 mars.

Mougeon R. (2006). « Diversification du parler des adolescents franco-ontariens : le cas des conjonctions et locutions de conséquence », Cahiers de la Société Charlevoix 7 : 231-276.

Mougeon R., Nadasdi T. & Rehner K. (2009). « Les conjonctions et locutions de conséquence dans le parler des adolescents franco-ontariens de Hawkesbury : variation sociostylistique et changement linguistique (1978-2005) », in F. Martineau, R. Mougeon, T. Nadasdi & M. Tremblay (éd.) Le français d’ici : études linguistiques et sociolinguistiques sur la variation du français au Québec et en Ontario. Toronto : GREF, 145-184.

Mougeon R., Nadasdi T. & Rehner K. (2005). « Contact-induced linguistic innovations on the continuum of language use : The case of French in Ontario », Bilingualism : Language and Cognition 8, 2 : 99-115.

Mougeon R. & Beniak É. (1991). Linguistic Consequences of language contact and restriction : The case of French in Ontario, Canada. Oxford : Oxford University Press.

Corpus, 15 | 2016 47

Poplack Sh. & Levey S. (2011). « Variabilité et changement dans les grammaires en contact », in F. Martineau & T. Nadasdi (éd.) Le français en contact. Québec : Presses de l’Université Laval, coll. « Voies du français », 247-280.

Remysen W. (2010). « L’évaluation des emplois canadiens à l’aune de leurs origines françaises : le point de vue des chroniqueurs de langage », in C. LeBlanc, F. Martineau & Y. Frenette (éd.) Vues sur les français du Canada. Québec : Presses de l’Université Laval, coll. « Voies du français », 241-266.

Poirier Cl. (1979). « Créoles à base française, français régionaux et français québécois : éclairages réciproques », Revue de linguistique romane 43 : 400-425.

Sankoff G. & Thibault P. (2011). « Sur les traces de m’as en français québécois de 1971 à 2001 », in F. Martineau & T. Nadasdi (dir.) Le français en contact : Hommages à Raymond Mougeon. Québec : Presses de l’Université Laval, coll. « Voies du français », 351-354.

Schneider E. (2002). « Investigating variation and change in written documents », in J. Chambers, P. Trudgill & N. Schilling-Estes (éd.) The Handbook of Language Variation and Change. Oxford/ Cambridge : Blackwell, 67-96.

Thibault A. (2008). « Français des Antilles et français d’Amérique : les diatopismes de Joseph Zobel, auteur martiniquais », Revue de linguistique romane 72 : 115-156.

Thibault P. & Daveluy M. (1989). « Quelques traces du passage du temps dans le parler des Montréalais, 1971-1984 », Language Variation and Change 1, 1 : 19-45.

Van der Wal M., Rutten G. & Simons T. (2012). « Letters as loot : Confiscated letters filling major gaps in the history of Dutch », in M. Dossena & G. Del Lungo Camiciotti (éd.) Letter Writing in Late Modern Europe. Amsterdam : John Benjamins, 139-161.

Wiesmath R. (2006). Le français acadien. Analyse syntaxique d’un corpus oral recueilli au Nouveau- Brunswick/ Canada. Paris : L’Harmattan.

Wittenburg P., Brugman H., Russel A., Klassmann A. & Sloeutjes H. (2006). ELAN : a Professional Framework for Multimodality Research, Max Planck Institute for Psycholinguistics, The Language Archive, Nijmegen. [programme d’ordinateur]. Dernière mise à jour : version 4.7.3. http:// tla.mpi.nl/tools/tla-tools/elan/.

NOTES

1. www.continent.uottawa.ca 2. Le choix du logiciel est laissé au responsable de terrain d’enquête, puisque ELAN permet la conversion des formats de transcription depuis ou vers Praat. 3. Variétés linguistiques du français en Belgique. 4. Terme utilisé par Gadet (2003) et qui désigne les mécanismes servant à représenter certains aspects phonétiques de la parole dans l’écrit, p. ex. une apostrophe correspondant à la syncope d’un schwa. 5. http://continent.uottawa.ca/fr/corpus-et-ressources-electroniques/corpus/ 6. https://artfl-project.uchicago.edu/ Nous tenons à remercier Mark Olsen pour son appui dans le développement de PhiloLogic pour les besoins du projet. 7. http://dldc.lib.uchicago.edu/ 8. Cette section provient en partie de deux communications, l’une présentée à Paris au colloque Les métropoles francophones en temps de globalisation (Martineau, Blondeau & Frenette, 2014) et

Corpus, 15 | 2016 48

l’autre à Trêves au colloque international « Français du Canada – Français de France » L’Amérique francophone – Carrefour culturel et linguistique, (Gadet & Martineau, 2014). 9. Nous avons exclu de notre étude la variable de aller, verbe de mouvement (je vas/je vais), qui ne fait pas intervenir la variante m’as. 10. Les corpus font tous partie du Corpus FRAN (dir. F. Martineau). Ils sont constitués des sous- corpus suivants : Gardner : Corpus Jane Smith-Cynthia Fox 2005 enrichi (Fox, Smith & Martineau, 2013) ; Lafourche : Corpus Sylvie Dubois de la paroisse Lafourche 1997 enrichi (Dubois & Martineau, 2013) ; Moncton : Corpus Marie-Marthe Roy 1976 enrichi (Roy & Martineau, 2012) ; Welland : Corpus Welland France Martineau-Raymond Mougeon, 2011 ; Hochelaga-Maisonneuve : Corpus Hochelaga- Maisonneuve Hélène Blondeau-France Martineau-Mireille Tremblay, 2012 ; Montréal : Corpus France Martineau, 2012 CIEL-Québec, corpus CIEL international sous la conduite de Françoise Gadet ; Montréal-Nord : Corpus MOMU Hélène Blondeau-Mireille Tremblay 2013 ; Gatineau : Corpus Martineau, 2012, CIEL-Québec, corpus CIEL international sous la conduite de Françoise Gadet. Nos résultats sont présentés à titre indicatif ; le dépouillement présente un nombre important d’occurrences, qui permettent de brosser un premier tableau de pourcentages. Une étude de nature statistique pourrait venir valider les différences significatives entre communautés.

RÉSUMÉS

Cet article présente le Corpus FRAN, premier corpus panfrancophone en ligne sur les variétés de français nord-américaines, élaboré dans le cadre du projet international Le français à la mesure d’un continent (dir. F. Martineau). Il présente d’abord les grandes questions théoriques qui sous- tendent le projet et l’élaboration du Corpus FRAN, puis discute de l’architecture du Corpus FRAN ainsi que de l’interface élaborée pour son interrogation et du protocole de transcription. La configuration du Corpus FRAN, couvrant plusieurs siècles et plusieurs communautés, permet des recherches croisées qui sont susceptibles de mettre en évidence les convergences et divergences entre ces communautés et d’examiner le parcours particulier des locuteurs et scripteurs. Nous illustrons les perspectives qu’ouvre le Corpus FRAN sur la variation et le changement linguistiques par l’étude de deux traits typiques du français nord-américain : la variante m’as (et les variantes associées je vas et je vais) et les variantes de la conséquence ça fait que et so (et les variantes associées alors et donc).

This article aims to introduce Corpus FRAN, the first online pan-francophone corpus pertaining to North American , developed as part of the international project Le français à la mesure d’un continent (F. Martineau, dir.). We begin by stating the general theoretical questions underlying the project as a whole, and the development of Corpus FRAN in particular. We continue with a discussion of the architecture of the corpus, its transcription protocols, and the user interface. Corpus FRAN was designed so as to cover several centuries and different communities. It features a mode of crossed interrogation allowing the study of converging and diverging trends within and between communities, as well as insights into the life paths of speakers and writers. We illustrate some of the research possibilities afforded by the corpus with the study of two variants that are typical of North American French: m’as (and the related variants je vas and je vais) and the variants of consequence ça fait que and so (and the related alors and donc).

Corpus, 15 | 2016 49

INDEX

Keywords : corpus linguistics, digital humanities, varieties of French, sociolinguistic variation, consequence discourse markers, semi-modal “aller” Mots-clés : linguistique de corpus, humanités numériques, variétés de français, variation sociolinguistique, la variable de conséquence, « aller » semi-auxiliaire

AUTEURS

FRANCE MARTINEAU Université d’Ottawa

MARIE-CLAUDE SÉGUIN Université d’Ottawa

Corpus, 15 | 2016 50

Le projet ORFÉO : un corpus d’étude pour le français contemporain The ORFEO project: a study corpus for contemporary French

Christophe Benzitoun, Jeanne-Marie Debaisieux et Henri-José Deulofeu

1. Introduction

1 Le projet ORFÉO (Outils et recherches sur le français écrit et oral) est un projet financé par l’Agence nationale de la recherche (ANR 12-CORP-0005) et qui a été retenu dans le cadre de la campagne Corpus, données et outils de la recherche en sciences humaines et sociales 2011. Le projet a démarré en février 2013. Dans cet article, nous présenterons les objectifs généraux du projet, le traitement en cours des données orales (collecte, harmonisation, métadonnées), l’état du travail sur l’enrichissement des données par des annotations syntaxiques et la plate-forme d’interrogation. Dans le texte ci-dessous, nous abordons uniquement la composante orale du projet ORFÉO.

2. Les objectifs généraux du projet

2 ORFÉO a pour objectif de mener différentes études comparatives sur des données de genres variés (notamment écrit vs oral) sur un corpus préalablement outillé. La constitution du corpus, et notamment des données secondaires, est la tâche la plus importante. Les corpus que nous rassemblons sont des corpus existants libres de droits ou mis à disposition par les ayants droit. Les données secondaires sont de nature diverse : métadonnées, transcriptions harmonisées, alignement texte et son, annotations morphosyntaxiques (PoS), syntaxiques, sémantiques, conversationnelles, prosodiques, segmentations en unités « élémentaires » de texte (macro-syntaxe). Corpus et données seront accessibles au travers d’une plate-forme d’interrogation permettant une sélection par les métadonnées et des recherches à l’aide de requêtes simples (chaîne de caractères ou expressions régulières) ou complexes (requêtes sur les différents niveaux d’annotation). Les utilisateurs seront guidés dans la sélection et

Corpus, 15 | 2016 51

l’utilisation des outils par l’accès à des analyses pilotes relevant de différents domaines de la linguistique : morphosyntaxe, sémantique, analyse du discours et des interactions. La plate-forme permettra ainsi un accès unique à un corpus d’étude comportant plusieurs millions de mots (3M à l’oral et 6M à l’écrit).

3 L’enrichissement des données proposées par des annotations morphosyntaxiques et en dépendances permettra d’interroger sur des structures complexes qu’un accès par concordancier basique ou par expressions régulières simples ne permet pas d’atteindre de façon satisfaisante. Un travail de thèse (Bérard, 2012) portant sur les structures dites « de contrôles à distance » telles que : (1) qu’est-ce que vous voulez que j’y fasse (2) l’hypothèse que je crois qu’on peut avancer (3) c’est où qu’il faut qu’elle se présente

4 a montré que les résultats pertinents d’interrogation d’un corpus de 2M de mots sont multipliés par six grâce au recours à des données annotées. Au-delà des progrès envisagés dans l’analyse, le projet relève d’un enjeu politique majeur pour la linguistique de corpus. Il s’agit, d’une part, de mutualiser les résultats de recherches antérieures, conçus dans le cadre des ANR Rhapsodie, Annodis et Decoda et, d’autre part, de donner à la linguistique de corpus un outil de travail conforme aux standards internationaux.

3. Les partenaires du projet

5 Le projet est rendu possible par la collaboration de 7 laboratoires français : LATTICE (U. Paris 3/Ens.-UMR 8094), MoDyCo (Université Paris Ouest Nanterre La Défense - UMR 7114), ATILF (U. de Lorraine-UMR 7118), LORIA (CNRS -UMR 750), LIF (Université Aix- Marseille-UMR 7279), ICAR (U. Lyon 2-UMR5191), CLLE-ERSS (U. Toulouse-UMR 5263) et de chercheurs étrangers (Suisse, Belgique, Japon). La complémentarité des recherches impliquant des linguistes et des informaticiens aboutit à une répartition des tâches fonctionnelle au regard de la chaîne de traitement des données : – La mise en forme des ressources s’effectue au sein de l’ATILF (sous la responsabilité de C. Benzitoun et d’E. Jacquey, avec la collaboration de L. Bérard), qui est chargé de l’unification des formats (données + métadonnées), de l’uniformisation des conventions de transcription et de leur correction. – L’alignement automatique au phonème des données orales relève du Loria (resp. C. Cerisara) et permettra des analyses prosodiques fines. Deux outils ont été développés : le LASTAS (Loria Automatic Speech-Text Alignment Software) dédié au traitement de précision de courts segments et JTrans dédié au traitement de longs fichiers de parole. – Les corpus oraux n’étant pas ponctués, un premier logiciel de calcul de frontières d’énoncé a été développé au sein de Modyco (Wang, 2013, Wang et al., 2014), dans le cadre d’un stage de travail de master. Mais, compte tenu de la grande diversité des types de texte (cf. infra), l’équipe a dû revenir à un système de segmentation manuelle. Cette segmentation est nécessaire au parseur syntaxique qui ne peut calculer de dépendances qu’au sein de segments clairement délimités. – Les annotations morphosyntaxiques (PoS) et les annotations en dépendances, inspirées en partie de l’annotation en dépendance développée dans le cadre du projet Rhapsodie (ANR Rhapsodie, 2008-2012, sous la direction d’A. Lacheret) sont le résultat

Corpus, 15 | 2016 52

d’une étroite collaboration entre les linguistes et les informaticiens de l’équipe TALEP (F. Bechet, A. Nasr, Carlos Ramisch, J. Deulofeu, et A. Valli), au sein du LIF.

6 L’ensemble de ces outils devraient être testés dans le cadre d’études pilotes développées au sein des laboratoires CLAPI et CLLE-ERSS, portant sur des phénomènes linguistiques sensibles aux effets de genre : les formes non canoniques de « noyaux macrosyntaxiques », la famille des constructions « modales » et les marqueurs d’attitude, la famille des constructions avec réalisations de place syntaxique par listes (p. ex. : j’ai vu un oiseau une sorte de pélican) ou avec « effet deux points » (p. ex. : il y a un truc chez Marie elle est renversante) et les structures de clause linking. Dans ce cadre, certaines sous-parties du corpus doivent être enrichies d’annotations macrosyntaxiques (F. Sabio), d’annotations en relations de discours (M. Ho-dac), en références et coréférences (F. Landragin) et d’annotations « interactionnelles » (V. Traverso).

4. Le traitement des données orales

7 La partie orale de la base ORFÉO provient de la mutualisation d’un ensemble de corpus, déjà diffusés pour certains. La totalité des transcriptions était donc existante avant le lancement du projet, mais devait être harmonisée et complétée. Le résultat constitue une large couverture en termes de situations de parole : réunions de travail, entretiens, interviews, réunions publiques, contes, récits, conversations téléphoniques, etc. Au total, plus de 2 000 locuteurs sont représentés dans les enregistrements, provenant de trois pays francophones : Belgique, France et Suisse. Différentes étapes ont été suivies entre la réception des données et leur future diffusion.

8 Le premier problème auquel l’équipe a été confrontée réside dans l’hétérogénéité des formats des données collectées (txt, doc, xml, etc.) qui ont dû être transformés en un format unique : Transcriber (.trs). Certains formats ont été par ailleurs conservés pour l’alignement automatique (voir infra). Les conventions de transcription étaient également fort hétérogènes. Les transcriptions ont dû être uniformisées afin de permettre l’interrogation de l’ensemble. La convention retenue est celle de l’orthographe standard, qui facilite la lecture et les annotations automatiques. La plupart des systèmes produisent en effet de meilleurs résultats sur des données linguistiques respectant les conventions orthographiques standard. Un système de balise a permis de séparer texte et commentaires (événements extralinguistiques, rires, commentaires, pauses, etc.).

9 Le travail le plus important a été celui de correction des transcriptions qui a porté sur une grande partie de la base. Un grand nombre de transcriptions ont été revues par deux personnes différentes. Ce travail est extrêmement chronophage (plus d’une heure pour vingt-cinq minutes de transcription). Il ne garantit pas l’absence d’erreur mais le haut niveau de qualité des transcriptions proposées. Parallèlement à la phase de correction, une partie manuelle du travail d’homogénéisation a été menée. Une partie des corpus a également fait l’objet d’un alignement manuel texte/son afin de faciliter l’alignement ultérieur. La tâche de correction a été couplée au repérage des segments à anonymiser et à l’enrichissement des métadonnées par la rédaction d’un bref résumé du contenu. L’ensemble des transcriptions a été hébergé sur un système de versionnage et mis à jour au fur et à mesure de l’avancement du travail.

Corpus, 15 | 2016 53

10 L’équipe a également développé un outil permettant de soustraire automatiquement des fichiers sonores les passages non transcrits qui peuvent se situer en début, en fin, mais aussi au cours de l’enregistrement. Après avoir repéré les sections non transcrites (marquées préalablement par des sections « nontrans » dans le logiciel Transcriber), l’outil supprime les passages en question du fichier son, insère une balise correspondant à la durée retranchée et recalcule automatiquement l’alignement texte/ son pour la suite de la transcription. Au final, les fichiers sons correspondent exactement aux passages transcrits. La démarche évite le risque de diffusion de données sensibles non anonymisées.

11 Après correction, le LORIA a procédé à l’alignement texte/son automatique à l’aide des outils LASTAS et JTrans1. Le logiciel JTrans prend en entrée des fichiers au format trs ou TextGrid (Praat, Boersma & Weenink 2015). Les fichiers peuvent comporter un alignement sommaire préalable, mais ils peuvent également ne pas être alignés du tout avant traitement. L’alignement automatique se fait au mot et au phonème. Les principales difficultés d’alignement se situent au niveau des chevauchements de parole. En sortie, le logiciel génère plusieurs fichiers TextGrid, dont l’un est utilisé pour l’étape ultérieure, à savoir celle de l’anonymisation.

12 L’anonymisation des fichiers son s’est faite à partir de l’alignement automatique. Un fichier au format TextGrid a été généré comportant deux tiers (tierces ?) : un tiers (une tierce ?) comportant exclusivement le mot-clef « buzz », en lieu et place de chaque portion à anonymiser, et un second tiers comportant les parties à anonymiser lisibles (afin de faciliter la phase de vérification de l’alignement). Une réécoute systématique a permis de vérifier que les parties discursives en question correspondaient bien au signal sonore. Dans le cas contraire, un réalignement manuel a été effectué. Les fichiers vérifiés ont été ensuite traités par le script d’anonymisation élaboré par D. Hirst sous le logiciel Praat.

13 Les transcriptions au format TextGrid alignées texte/ son et anonymisées sont mises ensuite dans un format TEI en vue de la réalisation des annotations automatiques ultérieures, de la génération des divers formats de diffusion et de l’exploitation à l’aide de la plate-forme d’interrogation.

14 Les métadonnées comme les transcriptions étaient très hétérogènes tant au niveau des formats que du contenu. Afin de conserver l’intégralité des informations fournies tout en rendant possible les interrogations sur l’ensemble de la base, deux niveaux ont été distingués. Le premier, purement informatif, représente la transposition des métadonnées initiales, propres à chaque corpus. Elles seront mises à disposition des utilisateurs mais ne permettront pas de construire des requêtes pour constituer des sous-corpus. Le second niveau, propre à ORFÉO, est homogène et commun à l’ensemble de la base et servira à la création de requêtes. L’homogénéisation des métadonnées a nécessité un travail de saisie manuelle, seul garant de la cohérence des dénominations. Cette saisie a été faite à partir de fichiers xml générés automatiquement. Les métadonnées communes ont été corrigées et complétées dans l’éditeur Oxygen, à l’aide d’un schéma de document contraignant la saisie afin de limiter les erreurs.

15 Les principales métadonnées communes que nous avons retenues sont les suivantes : identifiant du corpus, type (oral/écrit), langue, identifiant du fichier, responsable(s), nature (entretien, réunion, transaction, etc.), milieu (professionnel, privé), médium (face-à-face, téléphone, radio, etc.), résumé, date, durée, qualité du son, lieu, nombre de locuteurs, degré de planification (non-planifié, semi-planifié, planifié), conditions

Corpus, 15 | 2016 54

d’utilisation, nombre de mots, identifiant du locuteur, âge, sexe, statut de la langue française, profession, niveau d’études, lieu de naissance. Ces métadonnées seront ensuite validées par les producteurs des ressources puis projetées dans des en-têtes TEI.

16 Ce travail a été possible grâce à l’intervention d’un grand nombre de personnes. En premier lieu, les producteurs des corpus mais aussi les étudiants, qui ont été rémunérés pour réaliser les tâches de corrections, de saisie et d’anonymisation, des membres du laboratoire ATILF (B. Husson, B. Gaiffe, J. Perignon) qui sont intervenus à divers stades et ont assuré, notamment, les aspects informatiques, L. Bérard qui a suivi de près l’ensemble des étapes et a assuré de nombreuses vérifications automatiques et manuelles, des membres du LORIA (C. Cerisara, D. Fohr, O. Mella, D. Jouvet) pour l’alignement automatique, L. Lampen pour la mise en place du système de versionnage et C. Étienne pour le travail de réflexion sur les métadonnées. C. Benzitoun a assuré la coordination de l’ensemble.

17 Nous avons également bénéficié des discussions et des avancées du consortium corpus oraux (IRCOM, France) et du groupe ISO (Europe) pour la TEI. Une table ronde sur les formats de transcription et les métadonnées a été organisée, en juin 2014, par C. Benzitoun, O. Baude, C. Étienne et C. Parisse. Un atelier sur les métadonnées dans les corpus oraux a été présenté dans le cadre de la journée de bilan IRCOM, en septembre 2014, par C. Benzitoun et C. Étienne.

18 Le tableau ci-dessous synthétise les données qui ont été traitées et seront mises à disposition sur la plate-forme Ortolang. Un tableau détaillé sera mis à disposition sur le site du projet2. Il s’agit pour l’instant d’une approximation, les données qui seront diffusées pouvant être légèrement différentes de ce qui est mentionné.

Figure 1. Corpus oraux mis à disposition en fin de projet

Nb. de Identifiant du corpus Taille (mots) Durée fichiers

Corpus d’entretiens 10 13 000 1h

Corpus de référence du 134 440 000 37h français parlé

Corpus de français parlé parisien 34 500 000 40h

C-ORAL-ROM 175 300 000 25h

Corpus d’entretiens 77 728 000 45h (Y. Kawaguchi)

Corpus d’entretiens 37 62 000 5h

Corpus Clapi 14 210 000 16h

Corpus domaine 51 40 000 3h académique (Fleuron)

Corpus réunions 29 200 000 24h

Corpus, 15 | 2016 55

Corpus contes (French Oral Narrative) 87 140 000 16h

Corpus VALIBEL 74 450 000 40h

Corpus TCOF 98 400 000 35h

Corpus OFROM 122 330 000 28h

TOTAL 942 3 813 000 315h

5. Le système d’annotation morphosyntaxique ORFÉO

19 Le système d’annotation syntaxique doit permettre de faire des requêtes sur les textes du corpus enrichis d’analyses en parties de discours et en relations de dépendances. La ressource majeure pour l’entraînement des outils est le French Treebank (Abeillé et al., 2003), conçu à partir de textes écrits. Il n’existe pas de corpus de taille suffisante pour le français oral. Le corpus annoté Rhapsodie (Lacheret-Dujour, Kahane & Pietrandrea, à paraître) ne comporte que 30 000 mots. Le corpus DECODA, que nous utilisons comme ressource auxiliaire, comporte certes 800 000 mots partiellement annotés à la main, mais le caractère particulier de son origine (conversations téléphoniques) ne permet pas de garantir les performances de l’analyseur sur d’autres types de corpus (en particulier de longs monologues). Pour la partie écrite, les performances de notre analyseur sont comparables à celles des autres ressources : 86 % d’analyses correctes en moyenne. Des aménagements ont été nécessaires pour obtenir des résultats comparables sur l’oral. Il reste qu’il convient d’améliorer cette performance, si l’on veut que la ressource serve d’outil à des analyses linguistiques. Une des retombées du projet pourrait être d’ailleurs d’évaluer quel est le niveau de performance des annotations automatiques qui est requis pour rassembler des données fiables en vue d’une analyse linguistique. Les études pilotes prévues dans le projet nous permettront d’évaluer notre outil dans ce sens. Le système d’annotation prévu cherche avant tout à être fiable. Cette recherche de fiabilité peut amener à des analyses qui ne sont pas immédiatement utilisables pour des recherches linguistiques. Cet inconvénient sera en partie supprimé grâce aux corrections automatiques des sorties de l’analyseur pour rapprocher l’annotation des standards de l’analyse linguistique. Il faut enfin signaler que la précision de l’annotation automatique ou semi-automatique n’est qu’un élément de l’efficacité d’un corpus outillé. L’autre est la performance et la facilité d’utilisation du langage de requêtes qui permet de rassembler toutes les configurations répondant à un certain schéma d’annotation. Le projet ORFÉO comporte la construction d’un tel langage. Bien qu’interdépendants dans la pratique, ces deux outils ne relèvent pas des mêmes compétences informatiques. En tout état de cause, si de nombreux corpus oraux ont été automatiquement annotés en parties du discours (PoS), l’annotation automatique en relations de dépendance conçue par le LIF peut être considérée comme pionnière pour le domaine français.

20 Nous commencerons par recenser les difficultés particulières posées à l’annotation automatique par la spécificité des corpus oraux, en indiquant les stratégies mises en

Corpus, 15 | 2016 56

œuvre pour les surmonter. Dans une deuxième partie, nous exposerons les grandes lignes des outils en construction pour l’outillage ORFÉO.

5.1 Les difficultés rencontrées dans l’annotation morphosyntaxique de l’oral spontané

5.1.1 La segmentation

21 Les corpus oraux que nous rassemblons ne comportent pas les marques de ponctuation qui servent de balises pour fixer le domaine d’action des analyseurs à l’écrit. L’analyseur ne peut fonctionner efficacement que sur des segments de taille limitée. Pour le corpus DECODA, constitué de demandes de renseignement téléphoniques, la segmentation en tours de parole suffisait, mais il a fallu créer des balises pour les autres corpus et donc réviser la segmentation de DECODA. Nos tentatives de créer un système de segmentation automatique en unités de texte correspondant aux phrases de l’écrit n’ayant, pour l’instant, pas débouché sur la détermination de balises fiables, nous avons décidé de segmenter à la main 1 000 000 de mots du corpus oral pour tester les outils le plus vite possible. Un guide de segmentation a été écrit pour assurer le maximum de convergence entre les annotateurs. Mais il faut accepter un certain degré de variation. Variation que l’on observe d’ailleurs dans la ponctuation des corpus écrits, et qui ne sera pas normalisée, par exemple dans l’utilisation du point, balise utilisée par les parseurs disponibles (Deulofeu, 2011).

5.1.2 La tokenisation

22 Une source d’erreurs importante tient au regroupement d’ordinaire effectué dès le dictionnaire de plusieurs mots en un seul composé. On relève ainsi dans le dictionnaire LEFFF, qui avait été utilisé tel quel pour le traitement du corpus DECODA, la conjonction composée bien#que. Cette prise de position a priori interdit, de fait, une analyse correcte des séquences où les deux termes du composé doivent être dissociés : par exemple dans je sais bien que tu voulais venir. Pour pallier cette difficulté, nous avons décidé d’organiser de façon originale la chaîne de traitement : il s’agit de retarder la détermination des composés de ce type le plus possible, c’est-à-dire au moment du passage de l’analyseur syntaxique. La composition est considérée comme une relation syntaxique spécifique (dépendance MORPH) que l’analyseur doit apprendre à placer. Les premiers essais dans ce domaine sur diverses conjonctions au départ composées dans le dictionnaire donnent de bons résultats. La démarche sera donc étendue à d’autres cas (déterminants, adverbes).

5.1.3 Analyse syntaxique

23 Il faut distinguer la question des constructions caractéristiques de l’oral spontané et les obstacles que la « performance » met à la bonne reconnaissance des constructions quelles qu’elles soient. Comme exemple du premier cas, on peut prendre la question des périphériques.

Corpus, 15 | 2016 57

5.1.3.1 Traitement des périphériques

24 Dans l’exemple qui suit, on a un groupe nominal, les chaussures, qui ne peut être analysé de façon satisfaisante par aucune des relations existantes dans le jeu des relations syntaxiques standard. (4) toi les chaussures tu aurais jamais dû essayer de faire des économies

25 Nous allons mettre au point une procédure d’évaluation pour choisir entre deux traitements possibles de cette structure : – affecter le ‘hanging topic’ les chaussures de la même relation de dépendance (ajout) que les cas canoniques d’ajout non prépositionnel : la semaine dernière ; – introduire un nouveau lien PERIPH pour les cas de ‘hanging topic’.

26 On rencontre un problème voisin avec des périphériques phrastiques. Ainsi, dans l’exemple suivant, prononcé par un agriculteur qui insiste sur le travail préparatoire à sa participation au Salon de l’agriculture, (5) on part pas à Paris on prend la vache et on y va //

27 on aimerait analyser la séquence comme une parataxe à l’intérieur d’une seule unité de segmentation. Ce qui permettrait d’obtenir directement la bonne interprétation : « on part pas à Paris en se contentant de prendre la vache et d’y aller ». Cette interprétation est impossible si l’on segmente on part pas à Paris comme une unité indépendante. L’analyse syntaxique souhaitable impliquerait donc qu’on établisse une relation de dépendance (PARAtaxe) entre les deux verbes, ce qui n’est pas canonique mais qui permettrait d’analyser la séquence en une seule unité. L’analyse pourrait être étendue aux exemples : (6) il y a trois semaines il est venu (7) elle s’est mariée elle avait trois ans (8) il y a des gens ils n’ont pas de quoi vivre

28 Mais là encore le choix d’une solution implique de tester la capacité pour le programme de reconnaître avec fiabilité les liens modélisant la parataxe. En cas d’échec, on adoptera une analyse sous-spécifiée.

5.1.3.2 Les obstacles aux bons rattachements dans les constructions canoniques

29 Il s’agit de phénomènes liés aux modes de production des énoncés propres à l’oral spontané. Leur point commun est d’introduire des discontinuités dans la régularité des séquences syntaxiques canoniques, soit en créant des séquences agrammaticales (disfluences), soit en éloignant le dépendant de son gouverneur.

5.1.3.2.1 Disfluences

30 Sous ce terme classique, on regroupe des phénomènes qui ne sont pas sans intérêt pour l’analyse linguistique, notamment pour mieux comprendre les conditions d’insertion lexicale dans les positions syntaxiques. Il ne s’agit donc pas d’en perdre la trace. Pour ce faire, nous avons choisi de laisser le programme d’analyse syntaxique décider lui-même du statut de disfluence. La stratégie consiste à rattacher dans le corpus d’apprentissage la partie disfluente à la séquence régulière par un lien arbitraire DISLINK. Comme on le voit dans la figure 5 (ci-dessous) où l’amorce dans le de « enregistré dans le dans le métro » est rattachée à enregistré sans que cela perturbe le bon rattachement du dépendant non disfluent. L’analyseur syntaxique apprend donc à placer le lien DISLINK. Le dispositif

Corpus, 15 | 2016 58

fonctionne bien pour des répétitions de segments courts, qui peuvent être repérés automatiquement. Nous cherchons à l’étendre à d’autres cas, ainsi qu’à donner une représentation moins arbitraire des disfluences. Par exemple en établissant une relation de type coordination entre séquence disfluente et séquence régulière.

5.1.3.2.2 Parenthèses

31 Après une parenthèse, on constate souvent qu’un constituant soit n’est pas rattaché du tout, soit est rattaché à un mauvais gouverneur interne à la parenthèse. Ainsi dans l’exemple suivant qu’ gouverné par a (conscience) est rattaché à tort à ressens : (9) et là on a conscience depuis quelques mois (enfin c’est ce que je ressens) qu’il faudra encore peut-être bien une génération

32 Pour pallier cette difficulté, l’équipe a décidé d’annoter les parenthèses dans le corpus d’entraînement (CE). Leur contenu sera ignoré au cours de l’analyse syntaxique. La solution peut être étendue aux incises (je crois, dit-il) et de façon générale à tous les éléments y compris certains types de disfluences qui viennent s’insérer entre un gouverneur et un dépendant sans être eux-mêmes intégrés à la structure grammaticale de la phrase.

5.1.3.2.3 Énumérations / listes

33 Les énumérations sans coordonnants sont difficiles à analyser, car on ne peut s’appuyer sur un cordonnant pour commander les relations de coordination et, par là même, les rattacher au contexte : (10) ça on n’en veut pas des exécutants et puis qui en même temps sont des pompiers inefficaces et impuissants devant les conséquences de cette politique / la misère /le chômage/ la délinquance

34 Nous avons choisi d’annoter manuellement ces cas par un slash (l’équivalent de la virgule de l’écrit) devant chaque terme de l’énumération, ce qui permet une analyse standard en coordination.

5.2 Organisation de l’annotation automatique

5.2.1 La chaîne de traitement

35 À partir des considérations précédentes, nous avons adopté la chaîne de traitement suivante pour l’oral : – Segmentation – Tokenisation (avec un minimum de mots composés) – Étiquetage en PoS – Lemmatisation – Intégration des informations du dictionnaire de valences3 – Élimination des « parenthèses » – Analyse en dépendances

36 Le dispositif est tel que l’analyseur a accès à une partie de l’information contenue dans Dicovalence (caractéristiques syntaxiques du complément, réalisations possibles en POS, traits sémantiques des compléments (+/- subjonctif) pour désambiguïser certaines séquences.

Corpus, 15 | 2016 59

5.2.2 Analyse morphosyntaxique

5.2.2.1 Méthode

37 Elle consiste à entraîner un programme probabiliste sur un corpus oral segmenté, analysé manuellement en POS et Dépendances (désigné par CE). L’évaluation est faite sur un corpus distinct annoté manuellement (désigné par CT). Le CE choisi pour l’oral est le corpus DECODA. Il est constitué de conversations téléphoniques finalisées. Les tours de parole généralement assez brefs sont utilisés comme segmentation. Une partie du corpus sera re-segmentée à la main.

5.2.2.2 Les jeux d’étiquettes

5.2.2.2.1 Critères de choix

38 Nous avons adapté le jeu utilisé pour DECODA. Plusieurs critères ont guidé le choix des étiquettes. Nous montrons sur quelques exemples comment ils ont été mis en œuvre et articulés.

5.2.2.2.2 Fiabilité des résultats

39 L’analyse de l’item de comme PRE (préposition) ou DET dans : je n’ai pas de feu est l’objet de nombreuses controverses linguistiques. Et son analyse automatique, source de nombreuses erreurs. Nous avons testé deux solutions. Soit distinguer dans le CE l’analyse en PRE et en DET, comme pour DECODA ; soit affecter à de la seule catégorie PRE. La reconnaissance étant meilleure dans le deuxième cas, nous avons décidé de toujours l’analyser comme une PRE, en laissant à l’analyse syntaxique la tâche de distinguer les différentes constructions où entre cette PRE.

40 Nous voulions cependant éviter que ce choix ait des conséquences indésirables dans l’analyse en relations de dépendance. Avec le jeu de relations original, (11) et (12) auraient eu la même analyse en dépendance (complément prépositionnel), et (12) et (13), des analyses différentes, ce qui est contre-intuitif sur le plan linguistique. (11) je mange des amandes (12) je parle des amandes (13) je grille les amandes

41 C’est la raison pour laquelle nous avons introduit la relation SPE (spécifieur). La préposition peut alors être analysée comme spécifieur dans (11), ce qui permet de dire que le complément y est « direct » comme en (13), tandis qu’elle est complément du verbe dans (12), qui présente donc un complément indirect.

5.2.2.2.3 Adéquation avec analyse linguistique admise

42 Comme les autres jeux de catégories et de relations, celui de DECODA reprend assez largement les catégories de la grammaire scolaire. Cette démarche est cohérente avec l’idée que l’analyseur ne fournit pas une analyse définitive des structures, mais permet de rassembler des données servant de base à des analyses qui peuvent être d’orientations théoriques différentes. La grammaire implicite sous-jacente à l’établissement des étiquettes doit donc tendre vers cette Basic Linguistic Theory, dont le descriptiviste Dixon dit qu’elle est la grammaire traditionnelle, moins les erreurs les

Corpus, 15 | 2016 60

plus flagrantes. C’est, en fait, cette direction que nous avons suivie en intégrant à notre grammaire implicite certains acquis de la linguistique descriptive. La différence principale tient à l’articulation catégorie/fonction. La grammaire traditionnelle distingue plusieurs fonctions (épithète, complément de nom) en relation avec les catégories concernées (adjectif, groupe nominal), là où les approches descriptives ne voient qu’une seule relation (complément) pouvant porter sur plusieurs catégories.

43 Ce principe nous a amenés à réduire le nombre de relations par rapport au jeu d’étiquettes DECODA, comme on le verra plus bas ; à supprimer la catégorisation multiple en adverbe, préposition, conjonction, en fonction du contexte pour des mots comme pour, sans, après, au profit de la classification unique comme PRE, adoptée par la linguistique descriptive ; à distinguer la catégorie déterminant (DET) de la relation syntaxique Spécifieur (SPE). Le SPE est le dépendant gauche du N en position sujet. Les DET sont les items qui ne peuvent exercer que cette fonction. Le dépendant SPE peut- être un DET (le livre) un adjectif (quelques livres), une préposition : j’ai de beaux livres… Parfois, le critère d’adéquation descriptive entre en conflit : – tantôt avec celui de fiabilité des résultats produits par l’analyseur.

44 Ainsi, la catégorie PRQ (pronom qu-) est en adéquation avec les descriptions contemporaines en ce qu’elle ne distingue pas pronoms relatifs et pronoms interrogatifs au niveau des POS et efface la distinction entre pronoms (quoi) et adverbes (où) relatifs. Mais nous avons maintenu, malgré son inadéquation descriptive, la double catégorisation traditionnelle de que en PRQ et CSU (conjonction de subordination) et classé qui sujet PRQ pour faciliter la reconnaissance des relatives par rapport aux complétives. En effet, les programmes ne pouvant reconnaître ce qui serait dans certaines analyses linguistiques une catégorie vide, analyser les que dans les relatives comme conjonctions (complémentiseurs) aboutirait à donner la même analyse syntaxique à le fait qu’il a signalé et le fait qu’il ait regretté ça. – tantôt avec celui de la facilité de compréhension par l’utilisateur.

45 En dehors des classes réduites CLI (clitique) et PRQ, on maintient la distinction entre pronom (lui, quelqu’un ) et adverbe (là, quelque part ) sur critère morphologique conformément aux analyses les plus courantes.

5.2.2.3 Jeu d’étiquettes POS

46 L’adaptation du jeu DECODA s’est faite de façon automatique. Le travail principal a été la révision du dictionnaire LEFFF, en particulier pour le traitement des composés. Le tableau ci-dessous présente les étiquettes retenues dans le projet.

Corpus, 15 | 2016 61

Figure 2. Liste des étiquettes retenues

47 La classe interjection regroupe les mots qui ne peuvent avoir de gouverneurs (sauf verbes introducteurs de discours direct), à savoir les interjections classiques (eh, hélas, bof…) et des items qui sont aujourd’hui classés comme particules discursives (euh, ben, voilà…). La performance globale de l’étiqueteur en POS est de 98,25 % conforme aux standards en matière d’analyse de l’oral. L’évaluation a été faite sur une partie de DECODA annotée manuellement.

5.2.2.4 Jeu d’étiquettes des relations de dépendances

48 Nous sommes partis du jeu de relations utilisé pour DECODA, soit :

Figure 3. Relations utilisées pour le corpus DECODA

OBJ objet direct

AFF clitique sans fonction (s’en aller)

D-COORD dépendant de la conjonction de coordination

MOD modifieur (complément autre qu’objet du verbe)

SUJ sujet

Corpus, 15 | 2016 62

ROOT racine de l’énoncé ou absence de gouverneur

MOD_REL lien antécédent relative

AUX lien verbe-auxiliaire

P_OBJ objet prépositionnel

COORD dépendant de la conjonction de coordination

DET déterminant

49 Nous l’avons modifié à la suite de l’évaluation des résultats qui peut être résumée dans le tableau ci-dessous. Le tableau indique d’abord la relation, puis sa fréquence, puis la précision de la reconnaissance, et enfin l’impact de la précision en fonction de la fréquence.

Figure 4. Evaluation des résultats

LABEL FREQ ACC IMPACT

OBJ 19.55 90.51 11.32

AFF 1.20 94.08 0.44

D-COORD 2.31 83.56 2.32

MOD 12.86 75.16 19.52

SUJ 11.37 95.89 2.86

ROOT 26.50 80.83 31.06

MOD_REL 0.65 65.24 1.38

AUX 1.53 98.71 0.12

P_OBJ 4.02 71.30 7.05

COORD 1.41 69.58 2.62

DET 8.39 94.19 2.98

DISFLINK 10.19 70.48 18.41

50 En général, on observe 87 % de bons gouverneurs et 84 % de bonnes étiquettes. (Le corpus d’entraînement et de test est DECODA). Le rappel des résultats pour l’écrit de référence (French Treebank : 87 %).

51 La Figure 5 présente le résultat d’une analyse correcte sous forme tabulaire simplifiée. La première colonne donne l’ordre linéaire des items ; la deuxième, l’item ; la troisième,

Corpus, 15 | 2016 63

le lemme ; la quatrième, la POS ; la cinquième, la position du gouverneur ; et la dernière, la fonction de l’item numéroté dans la première colonne. Cette présentation sera transformée en un format plus classique de Treebank pour l’utilisateur.

Figure 5. Analyse syntaxique d’une portion de DECODA

1 ah ah INT 0 ROOT

2 non non INT 0 ROOT

3 ça ça CLI 7 SUJ

4 a avoir VRB 6 AUX

5 pas pas ADN 7 MOD

6 été être VPP 7 AUX

7 enregistré enregistrer VPP 0 ROOT

8 dans dans PRE 7 DISFLINK

9 le le_ DET 8 DISFLINK

10 dans dans PRE 7 MOD

11 le le DET 12 DET

12 métro métro NOM 10 COMP

52 Ces tableaux permettent notamment de repérer les sources d’erreurs les plus fréquentes. Mais une première source d’erreurs pourrait bien découler d’un fait général : il est difficile d’annoter automatiquement des données très éloignées de celles qui ont été utilisées pour entraîner l’analyseur syntaxique. Des essais sont en cours pour pallier cette difficulté : – Ajouter au Corpus d’entraînement d’autres types de corpus annotés en relations : Rhapsodie, le French Treebank ; – Annoter manuellement un ensemble de « genres » différents pour ré-entraîner le parseur, voire procéder à différents paramétrages.

53 Une deuxième source d’erreurs tient sans doute au nombre de relations à identifier. On trouve ainsi, dans DECODA, pour les dépendances verbales : Pobj ; obj ; mod ; mod_rel. Leur taux de reconnaissance est très variable : 90 % pour obj, mais mod, Pobj et mod_rel ne sont reconnues qu’à moins de 75 %. Nous avons choisi d’éliminer le plus possible les relations à problèmes. Les étiquettes mod, mod_rel, Pobj sont un héritage de la tradition, mais elles représentent en fait une seule relation de dépendance au verbe, les distinctions étant en réalité redondantes avec l’analyse en POS des compléments (NP, PP, ADV…). Nous avons donc réduit toutes ces relations à deux : OBJ pour objet direct et COMP (pour les autres cas). L’utilisation des informations contenues dans le dictionnaire de valences permet ensuite de distinguer sur des bases fiables, parmi les COMP, ceux qui appartiennent à la valence des verbes, seule distinction à la fois

Corpus, 15 | 2016 64

linguistiquement pertinente et utile pour la désambiguïsation des séquences. Nous travaillons donc, pour l’instant, avec le jeu suivant de relations, présentées ici en fonction du gouverneur : – Pour le gouverneur Verbe, on retient les relations de dépendance AUX, COMP et OBJ. – Pour les autres gouverneurs (ADJ, NOM, ADV, PRE…), on utilise SPE et COMP. – Les conjonctions de coordination ont un système particulier de dépendances, elles sont reliées par la relation COOR à leur gouverneur et par la relation COMP à leur dépendant.

54 Des évaluations du nouveau dispositif sont en cours sur une partie segmentée du corpus ORFÉO. Nous constituerons à partir de là une liste de constructions présentant des difficultés d’analyse et donc exigeant un approfondissement du traitement syntaxique.

6. Plate-forme d’accès et de requêtes

55 Le travail est en cours, notamment grâce à Lari Lampen, en contrat d’ingénieur d’études, sous la responsabilité de Kim Gerdes et de Sylvain Kahane. La première tâche a consisté à évaluer les plates-formes actuelles d’interrogation de corpus arborés (treebanks). L’outil Annis, développé actuellement à l’Université de Postdam (Allemagne), a été jugé le plus performant pour le projet, sous réserve de modifications. La première concerne la possibilité d’accepter plusieurs formats qui peuvent être appareillés : TEI, CONLL.

56 La deuxième modification en cours doit permettre de gérer des fichiers à plusieurs stades de développement, avant ou après intégration de certaines annotations, lesquelles peuvent ensuite être modifiées. De même, les formats d’encodage peuvent être amenés à évoluer, notamment lors de l’intégration à la plate-forme Ortolang dans la phase finale.

57 L’interface utilisateur prévoit, outre la constitution d’un corpus de travail à partir des métadonnées des corpus existants, plusieurs niveaux d’interrogation. Un niveau de requête simple aboutira à une consultation « à la Google » et à un tableur présentant des indications statistiques sur la fréquence de l’item choisi. Un niveau intermédiaire sera dédié à la recherche par lemme et POS. Ces deux interfaces constituent une surcouche par rapport à l’interface de requêtes d’Annis, qui permet, elle, des interrogations en dépendances.

58 Par ailleurs, les données seront interrogeables directement par un lien vers les différents corpus sources de la plate-forme. Le principe est que cet outil soit le plus aisé possible à manipuler. Des fenêtres d’aide permettront aux utilisateurs novices de comprendre le fonctionnement des outils mis à disposition (concordancier et requêtes complexes). L’objectif du projet est en effet d’encourager l’utilisation des corpus et des outils, que ce soit à des fins de recherche ou d’enseignement. Au moment de la rédaction de cet article, le projet vient de se voir accorder une prolongation. La plate- forme et les données qui lui sont associées seront donc disponibles courant 2017.

Corpus, 15 | 2016 65

BIBLIOGRAPHIE

Abeillé A., Clément L. & Toussenel F. (2003). « Building a treebank for french », in A. Abeillé (éd.) Treebanks. Kluwer : Dordrecht.

Bawden R., Botalla M.-A., Gerdes K. & Kahane S. (2014). « Correcting and Validating Syntactic Dependency in the Spoken French Treebank Rhapsodie », Proceedings of the 9th Language Resources and Evaluation Conference (LREC), Reykjavik.

Benzitoun C. & Bérard L. (2010). « Mutualisation et uniformisation de ressources de français parlé », Cahiers de praxématique 54-55 : 175-188.

Bérard L. (2014). « Dépendances à longue distance et genres textuels », Actes du Congrès mondial de linguistique française, 2349-2365.

Boersma P. & Weenink D. (2015). Praat : doing phonetics by computer [Computer program]. Version 5.4.18, retrieved 7 September 2015 from http://www.praat.org/.

Botalla M.-A., (2014). Analyse du flux de dépendance dans un corpus de français oral annoté en microsyntaxe, Mémoire de master, Université Sorbonne Nouvelle.

Deulofeu J. (2011). « Peut-on établir un système de ponctuation des transcriptions de textes oraux linguistiquement fondé », Langue française 171.

Groupe ICOR (Bruxelles S., Jouin-Chardon E., Traverso V.) & Guinamard I. « “Du coup” dans l’interaction orale en français : description de ses usages situés à partir d’une base de données multimédia, et considérations didactiques », in Synergie pays riverains du Mékong.

Lacheret-Dujour A., Kahane S. & Pietrandrea P. (en préparation). Rhapsodie : a Prosodic and Syntactic Treebank for Spoken French. Amsterdam : Benjamins.

Nasr A., Bechet F., Favre B., Bazillon T., Deulofeu J. & Valli A. « Automatically Enriching Spoken Corpora with Syntactic Information for Linguistic Studies », in International Conference on Language Resources and Evaluation (LREC), mai 2014.

Wang I. (2013). Segmentation automatique d’un corpus de français oral en unités macrosyntaxiques, Mémoire de master, Université Sorbonne Nouvelle.

Wang I., Kahane S. & Tellier I. (2014). « Macrosyntactic Segmenters of a spoken French Corpus », 9th Language Resources and Evaluation Conference (LREC), Iceland, 1-6.

Liste des corpus oraux constitués et mis à disposition partiellement ou intégralement par les ayants droit :

French Oral Narrative – Janice Carruthers http://frenchoralnarrative.qub.ac.uk/

Corpus du français parisien des années 2000 – Sonia Branca, Serge Fleury, Florence Lefeuvre http://cfpp2000.univ-paris3.fr/

Corpus oral de français parlé en Suisse romande – Mathieu Avanzi, Marie-José Béguelin et Federica Diémoz http://www11.unine.ch/

Corpus de référence du français parlé – Équipe Delic http://sites.univ-provence.fr/~veronis/pdf/2004-presentation-crfp.pdf

Corpus, 15 | 2016 66

C-ORAL-ROM – E. Cresti, M. Moneglia http://lablita.dit.unifi.it/coralrom/

Corpus de langue parlée en interaction – V. Traverso, L. Mondada, S. Bruxelles, C. Étienne, E. Jouin-Chardon, S. Teston Bernard http://clapi.ish-lyon.cnrs.fr/

Corpus VALIBEL – Discours et variation – Anne Catherine Simon http://www.uclouvain.be/valibel

Corpus TUFS – Yuji Kawaguchi http://www.coelang.tufs.ac.jp/multilingual_corpus/fr/index.html? contents_xml=corpus&menulang=en

Corpus Traitement de corpus écrits et oraux (TCOF) – V. André, C. Benzitoun, E. Canut, J.- M. Debaisieux http://www.cnrtl.fr/corpus/tcof/

Corpus Français langue étrangère universitaire, Ressources et outils numériques (FLEURON) – V. André, M. Ciekanski, F. Poncet, J.-M. Debaisieux https://apps.ATILF.fr/fleuron2/ (site en cours d’expérimentation)

Corpus d’entretiens – Ensemble de transcriptions fournies par S. Caddéo, J.-M. Debaisieux, et élaborées dans le cadre d’enseignements

Corpus de réunions de travail – M. Husianycia (élaboré dans le cadre de son travail de thèse) http://www.ATILF.fr/IMG/pdf/theses/These_Husianycia_Magali_2011.pdf

Corpus Rhapsodie - A. Lacheret http://www.projet-rhapsodie.fr/

NOTES

1. Le logiciel JTrans est librement téléchargeable à l’adresse suivante : https://github.com/ synalp/jtrans/releases/latest. 2. http://www.projet-orfeo.fr/ 3. Le dictionnaire choisi est Dicovalence (www.bach.arts.kuleuven.be/ dicovalence/).

RÉSUMÉS

L’article présente le projet ORFEO (outils pour l’étude du Français écrit et oral). Ce projet a consisté à rassembler 4M de mots de Français oral et 6M de mots d’écrit à partir de ressources existantes. Les ressources orales ont été unifiées dans un format trs et alignées avec les fichiers sons au phonème. Les corpus sont présentés avec des métadonnées qui permettent de constituer des sous-corpus d’étude. Les données orales ont été segmentées et annotées en POS et relations de dépendance semi automatiquement. La précision des annotations a fait l’objet d’une

Corpus, 15 | 2016 67

évaluation. L’ensemble est interrogeable à partir d’une plateforme adaptée du logiciel libre ANNIS. La ressource sera mise à disposition en open source courant 2017.

The paper presents the outcomes of the project ORFEO (tools for the study of spoken and written French). The outcomes consist of a 4M words spoken French and 6M written French sampled corpus. Detailed metadata allows the user to build his own study corpus according to his research purposes. Oral resources have been unified under trs. Format aligned with sound files. Spoken data have been segmented and annotated into POS and dependency relations. The precision of these annotations has been evaluated and meets the current standards. Queries are possible through a platform adapted from ANNIS free software. The whole resource will be available during the year 2017.

INDEX

Keywords : equipped corpus, spoken and written French, POS annotation, dependency annotation Mots-clés : corpus outillé, français parlé, français écrit

AUTEURS

CHRISTOPHE BENZITOUN Université de Lorraine, Atilf UMR 7118

JEANNE-MARIE DEBAISIEUX Université Paris 3 Sorbonne Nouvelle, Lattice UMR 8094

HENRI-JOSÉ DEULOFEU Université Aix-Marseille, Lif UMR 7279

Corpus, 15 | 2016 68

Le Corpus de français parlé au Québec (CFPQ) et la langue des conversations familières : Exemple de mise à profit des données à partir d’un examen lexico-sémantique de la séquence je sais pas The Corpus de français parlé au Québec (CFPQ) and the Language of Informal Conversation. An Example of Data Mining Based on a Lexical-Semantic Examination of the Sequence je sais pas

Gaétane Dostie

1 Cet article se déroule en deux temps. Il présente d’abord le contexte général ayant conduit à l’élaboration du Corpus de français parlé au Québec (CFPQ) et les principes méthodologiques ayant présidé à sa confection (section 1). Il illustre ensuite l’intérêt que représente cette ressource documentaire pour l’étude de la langue parlée en contexte informel par le biais d’un examen lexico-sémantique d’une séquence qui y est fréquente, à savoir je sais pas (section 2).

1. Présentation du corpus

1.1 Les corpus lexicaux québécois

2 En 1997, le Secrétariat à la politique linguistique du Québec lançait une vaste entreprise afin de donner accès, à partir d’un portail commun, aux principaux corpus de langue qui avaient été constitués jusque-là dans les universités québécoises. Le projet, du nom de « Corpus lexicaux québécois », prenait fin en 2007. Le site Internet créé reliait désormais entre eux 15 corpus reflétant la langue, d’époques différentes, en usage dans

Corpus, 15 | 2016 69

des genres communicatifs extrêmement variés (p. ex. : textes littéraires parus entre 1837 et 1919, entrevues dirigées et semi-dirigées réalisées entre 1960 et 1990 dans le cadre d’enquêtes sociolinguistiques…).

3 Huit ans plus tard, ce site est toujours accessible et les objectifs poursuivis par ses promoteurs y sont énoncés dans les termes suivants : • Mettre en œuvre des actions concertées visant l’emploi et la qualité du français en usage au Québec. • Instrumenter les chercheurs en vue de permettre une description scientifique du français en usage au Québec. • Favoriser l’élaboration d’ouvrages de référence qui peuvent tenir compte de la réalité linguistique québécoise (faune et flore, géographie, institutions et organisations sociopolitiques, environnement, etc.). • Créer, dans Internet, un réseau de banques de données textuelles représentatives du français en usage au Québec à l’intention des chercheurs québécois et autres internautes de la Francophonie. • Accroître la participation et la visibilité du Québec au sein de la francophonie internationale. Site : Secrétariat à la politique linguistique, Gouvernement du Québec1.

4 La consultation simultanée des corpus ici regroupés se veut simple et efficace. « On peut taper [peut-on lire], par exemple, les mots bozo, bouette, érablière ou ouananiche, et découvrir pour chacun ce qu’en révèlent les différentes sources de ces riches corpus » (site : Secrétariat à la politique linguistique, Gouvernement du Québec).

5 Conformément à ses objectifs, la base de données « Corpus lexicaux québécois » constitue une référence précieuse pour décrire une partie non négligeable du lexique propre à la culture québécoise – notamment, les unités à valeur référentielle comme celles données en exemple ci-dessus. Cependant, elle est moins propice à soutenir les analyses axées sur la langue contemporaine usitée dans les conversations familières. Cette forme de langue, on le sait, foisonne de marqueurs à valeur grammaticale et pragmatique, soit absents des ouvrages de référence, soit décrits de manière plutôt sommaire. À ce chapitre, un exemple récent dans les anales lexicographiques québécoises est celui du dictionnaire Usito (2012-) où, à titre illustratif, les expressions et mots suivants, typiques de la langue de tous les jours, n’ont pas droit de cité : coudon, pis, mets-en, fait que, ben / ben ben…

6 En un sens, on ne peut reprocher à Usito d’ignorer tout un pan du lexique courant, dans la mesure où il vise à « décrire le français standard en usage au Québec », indique-t-on sur son site internet2. Voilà donc qui explique en partie maintes exclusions3, auxquelles il apparaît tout aussi légitime d’accorder priorité.

1.2 Le CFPQ et la langue des conversations familières

7 C’est dans le contexte exposé ci-haut que le projet relatif à la création du Corpus de français parlé au Québec (CFPQ) a vu le jour. Son but, clairement affiché, était de venir appuyer les études sémantiques portant sur le lexique caractéristique de la langue orale familière, notamment les études axées sur les marqueurs à valeur grammaticale et pragmatique. Les travaux entourant la mise en place du corpus ont démarré en 2006 dans le cadre des activités du Centre d’analyse et de traitement informatique du français québécois (CATIFQ) de l’Université de Sherbrooke4.

Corpus, 15 | 2016 70

8 Le CFPQ regroupe aujourd’hui 30 sous-corpus de conversations à bâtons rompus enregistrées sur support audiovisuel ; chacun d’entre eux dure approximativement 1 heure et demie. Au total, 45 heures d’enregistrement ont ainsi été effectuées entre 2006 et 2013, dans diverses régions du Québec. Les différents sous-corpus mettent en scène 3 ou 4 locuteurs qui se connaissent très bien. En tout, 109 locuteurs, dont l’âge va de 15 à 95 ans, ont pris part au projet ; ils discutent librement, dans un lieu familier, de sujets divers (p. ex. : le travail, la maladie, les loisirs, les autres…).

9 Une trentaine d’étudiants assistants ont collaboré aux travaux du CFPQ (enregistrements, transcription, révision, support technique…), et un analyste- informaticien à l’emploi de l’Université de Sherbrooke a assuré la mise en place de la base de données (accessible en ligne) à laquelle nous revenons un peu plus bas.

10 Les transcriptions sont effectuées à l’aide du logiciel Transana, qui permet un alignement du son, de l’image et du texte. Les conventions de transcription, présentées sur le site du corpus, sont relativement standards pour la langue orale. Celles-ci visent à refléter, au mieux, le caractère multimodal des interactions verbales en face-à-face. Ainsi, en plus de noter le matériel verbal (c’est-à-dire les mots selon l’orthographe habituelle), les transcripteurs prennent également en compte le matériel paraverbal (p. ex. : les pauses, la vitesse et le volume de la voix) et le matériel non verbal (les gestes significatifs sur le plan communicationnel, comme hocher la tête négativement ou faire un clin d’œil en signe de complicité).

11 La base de données, créée en 2011, permet actuellement d’effectuer des recherches dans 21 sous-corpus, ce qui correspond à 31 heures et demie de conversations à bâtons rompus. Dans leurs versions transcrites, ces sous-corpus équivalent à 471 575 unités graphiques au sein desquelles figurent 21 016 unités graphiques différentes. Les transcriptions des 9 derniers sous-corpus sont déjà bien amorcées et devraient être disponibles prochainement5. La taille finale du corpus sera alors d’environ 675 000 unités graphiques.

12 Le site Internet du CFPQ présente les métadonnées relatives aux enregistrements (dates, lieux, principaux thèmes abordés…), aux participants (âges, professions/ occupations, scolarité…) et aux transcriptions (dates où elles ont été effectuées, nom des transcripteurs…). À l’exception des informations portant sur les transcriptions, les métadonnées peuvent faire l’objet d’une recherche croisée avec des données dans les fichiers-textes (tous téléchargeables en format PDF). En guise d’exemple, il est possible d’effectuer des recherches combinant l’âge et la scolarité, d’un côté, et tel ou tel marqueur, de l’autre.

13 Par ailleurs, le site présente, par ordre décroissant, les unités graphiques les plus fréquentes sur une base individuelle, de même que les séquences les plus fréquentes où 2, 3, voire 4 unités graphiques apparaissent en cumul. Ainsi, on découvre que c’est ça, parce que et fait que se logent respectivement au premier, deuxième et troisième rangs pour ce qui concerne les séquences les plus fréquentes du corpus composées de 2 unités graphiques. De même, on repère, de manière automatique sur le site, les unités graphiques les plus souvent répétées en contiguïté (de 2 à 5 fois). Sur ce point, il n’y a pas de surprise : non non non non non est la séquence la plus fréquente dans laquelle une même unité figure 5 fois de suite. Elle est suivie de près par oui oui oui oui oui.

14 Ces deux derniers exemples illustrent bien le fait que le CFPQ est un corpus de langue orale typique des interactions verbales spontanées. De ce fait, il constitue un bon

Corpus, 15 | 2016 71

repère pour identifier les marqueurs et les séquences de mots à étudier en priorité, si l’objectif est d’accorder une attention spéciale à la langue des conversations familières, en vue notamment de la voir un jour mieux représentée dans les dictionnaires… Cela dit, dans la mesure où ce dernier point relève pour l’immédiat davantage de l’utopie que de la réalité, nous le laisserons en suspens pour nous attaquer maintenant à notre étude de cas à partir des données prélevées dans le corpus.

2. Je sais pas : de séquence verbale à marqueur discursif

15 Nous présentons dans ce qui suit quelques données quantifiées qui font ressortir l’intérêt d’examiner la séquence morphologiquement complexe je sais pas, en français québécois spontané (section 2.1). Par la suite, nous portons notre attention sur ses emplois verbaux (section 2.2) afin d’établir comment celle-ci a pu en venir à acquérir une valeur qui l’apparente, dans certains contextes, à un marqueur discursif (MD), tel que souligné notamment dans Gauvin 1999, de Sève 2005 et Pop 2009 (voir aussi sur I don’t know en anglais, qui est proche de je sais pas, Diani 2004, Grant, 2010 et Aijmer, 2014). Nous focalisons notre attention, en terminant, sur la valeur discursive associée à l’expression considérée et insistons sur le double rôle qu’elle assume alors : ce rôle est de l’ordre à la fois de la collaboration et de la protection de soi (section 2.3).

16 L’étude d’une séquence telle je sais pas ramène vite à la problématique classique relative à la dissymétrie entre la première personne du présent de l’indicatif et les autres personnes de la conjugaison propre à certains verbes appelés diversement, entre autres, verbes assertifs, verbes parenthétiques et verbes d’attitude propositionnelle, comme je crois que P, je trouve que P et je sais que P (notamment, Urmson 1952 ; Récanati 1984 ; Schneider 2007a, 2007b et 2013). Nous y revenons plus loin.

2.1 Quelques données quantifiées

17 Notre intérêt pour je sais pas (prononcé [ʃepɑ]) vient d’abord d’un constat : sa fréquence d’emploi est particulièrement élevée dans le CFPQ, eu égard à sa morphologie complexe. Ainsi, il s’agit de la séquence la plus fréquente du corpus composée de 3 unités graphiques. On en trouve 705 occurrences, ce qui la place devant les 4 séquences complexes suivantes, elles aussi formées de 3 unités graphiques se succédant dans le texte : en tout cas (576 occurrences), oui c’est ça (352 occurrences), fait que là (332 occurrences) et tout le temps (313 occurrences). De plus, le CFPQ contient 97 occurrences d’une forme équivalente à je sais pas, transcrite je le sais pas (prononcée [ʒəlʃepɑ]), si bien que le nombre total d’occurrences relatif à la séquence en question est en réalité encore plus important (on en dénombre 802 en tout).

18 L’importance quantitative de je sais pas dans le CFPQ et donc, vraisemblablement, dans les conversations à bâtons rompus, se vérifie encore de deux façons : – le plus souvent, (le) sais pas est précédé, dans le corpus, de je et non pas de tu. Il y a en effet 1 050 occurrences de (le) sais pas, ce qui signifie que dans 76 % des cas c’est je qui introduit (le) sais pas et non pas tu. Les séquences il (le) sait pas et on (le) sait pas n’apparaissent, quant à elles, que 7 fois et 38 fois, respectivement ;

Corpus, 15 | 2016 72

– de même, la probabilité est grande pour que pas suive immédiatement je (le) sais. À ce propos, le corpus renferme 900 occurrences de je (le) sais, ce qui revient à dire que pas figure à sa droite dans 89 % des cas6.

19 En somme, ce n’est pas seulement la fréquence élevée de je (le) sais pas qui frappe dans l’ensemble des séquences complexes utilisées dans notre corpus ; c’est aussi – et peut- être même davantage – la forte attirance exercée entre je, (le), sais et pas. De là, on peut supposer que le degré d’« entrenchment » (c’est-à-dire d’enracinement) relatif à la suite considérée est grand, qu’elle est mémorisée en tant que séquence morphologiquement complexe ayant atteint, dans certains contextes, un degré élevé de figement (entre autres, Langacker 1987 : 59-60). Parmi ces contextes se trouvent ceux où elle agit à titre de MD7.

2.2 Je sais pas : séquence verbale

20 Savoir a un potentiel pour la factivité : le locuteur en use, dans certains contextes, en présupposant la véracité de la proposition complément (Kiparsky & Kiparsky, 1970). Nous disons que ce verbe a un potentiel pour la factivité, parce qu’il n’est pas systématiquement employé de manière factive, ce qui en fait un verbe semi-factif (Levinson, 1983 ; Korzen, 2001). Il sera factif notamment dans les contextes positifs comme celui relevé en (1) où la proposition P renvoie à l’idée, présentée comme vraie par J.-M., selon laquelle la prière effectuée par une tierce personne (en l’occurrence, une étudiante prénommée Hasmina) diffère quelque peu de celle faite par les catholiques. (1) M. : non mais [ > elle se décrit comme une bonne musulmane là je veux dire elle respecte ses paRENTS elle respecte t’sais > (.) pis elle fait sa prière sauf que elle elle nous l’a bien dit que genre la priÈre pi :s peu importe les ablutions tout ce qui va avec (.) euh (.) t’sais pour elle c’est comme (.) dans le Coran son interprétation à elle en tout cas c- elle ce qu’elle nous disait c’est que […] J.-M. : mais (.) la prière du vendredi je sais que c’est une priè :re qui est comme un peu différente des autres là (CFPQ, sous-corpus 10, segment 1, p. 3, ligne 5)

21 Savoir perd sa factivité dans certains contextes négatifs 8, dont celui présenté en (2) : nous y trouvons alors la séquence qui nous intéresse particulièrement, c’est-à-dire je sais pas. Dans cet exemple, savoir n’est pas factif puisque J affirme précisément ne pas savoir à quelle heure elle s’est levée, en réponse à la question de K. Notons qu’il refuse la construction complétive *je ne sais pas que P pour des raisons sémantiques évidentes : il serait pour le moins curieux d’affirmer qu’on ne sait pas si ce qu’on présente comme vrai est vrai9. La construction en si P serait en revanche acceptable puisqu’elle donnerait une valeur hypothétique à la subordonnée conformément au sémantisme du verbe lorsqu’il est nié à la première personne du présent de l’indicatif, ce que montre (3). (2) K : [tu t’es levée à quelle heure toi à matin/ J : [(inaud.) J : à quelle heure/ K : hum hum J : je sais pas

Corpus, 15 | 2016 73

C : (RIRE) tard (CFPQ, sous-corpus 17, segment 1, p. 11, ligne 7 ; 8 min, 4 s) (3) VE : je sais pas si ça dérange si on est cinq / (RIRE) (CFPQ, sous-corpus 19, segment 6, p. 54, ligne 26 ; 3 min 18 s)

22 À côté de l’emploi où la séquence je sais pas sert au locuteur à indiquer son ignorance vis-à-vis de la proposition P, comme en (2), on en trouve un second, où elle lui permet cette fois d’indiquer un doute ou une incertitude face à la véracité de cette proposition, comme en (4). Cet emploi n’est donc pas sans rappeler celui illustré en (3), sauf qu’ici, il y a économie de la proposition si P. (4) J : pis le Planétarium K : ouin non tu feras je pense pas que tu vas pouvoir y aller (en souriant et en hochant légèrement la tête négativement) C : > (en souriant légèrement) J : > (en hochant la tête affirmativement) mais si tu te fais refuser (en haussant les épaules comme pour signifier « tant pis ») euh ben tu demanderas à ton prof (en inclinant la tête vers la droite comme pour désigner la personne dont elle parle) (CFPQ, sous-corpus 17, segment 4, p. 43, ligne 15 ; 2 min 40 s)

23 Ainsi, en (4) comme en (2), je sais pas renvoie à l’expression d’un savoir déficient, ce que souligne Diani 2004 pour I don’t know. Par exemple, en réaction à l’affirmation de l’interlocutrice K, selon laquelle il ne sera pas permis à C d’aller au Planétarium, cette dernière utilise je sais pas en (4) pour signaler une incertitude vis-à-vis de ce qui est dit (et non une négation catégorique). Je sais pas est alors proche de formules comportant un modalisateur épistémique du type je suis pas certain ou je suis pas sûr. Dans l’exemple considéré, tout porte à croire que l’incertitude exprimée par C quant à la véracité de P tient au fait qu’elle cherche à ne pas contrer K ouvertement. De ce point de vue, l’usage de la séquence examinée relève d’une stratégie de politesse qui consiste à ne pas afficher de but en blanc son désaccord avec l’interlocuteur afin de ne pas heurter sa face positive (Brown & Levinson, 1987 ; Diani, 2004 ; Aijmer, 2014).

24 De même, en (5), le locuteur S utilise je sais pas pour exprimer une incertitude face à l’affirmation de R et non pour s’y opposer. L’intonation montante, bien notée dans cet exemple par le transcripteur, paraît assez typique de l’emploi discuté. Celle-ci n’induit pas une valeur de question, en ce sens que le locuteur ne se demande pas « s’il sait que P ». Au contraire, l’emploi sous examen paraît davantage correspondre à ce que Kerbrat-Orecchioni (1991) appelle une « quasertion » ou une « semi-question », c’est-à- dire à un acte illocutoire intermédiaire entre l’assertion pure et simple et la question en bonne et due forme. Je sais pas joue ici un double rôle : en premier lieu, il permet au locuteur d’exprimer une incertitude face à ce qui est dit et, en second lieu, il constitue un moyen, peu contraignant pour l’interlocuteur, de tenter de vérifier, sans en avoir l’air, l’exactitude de ses propos, un peu comme un ah bon↑, un ah oui↑ ou un vraiment↑. Nous disons qu’il s’agit d’un moyen peu contraignant d’agir de la sorte, parce que l’interlocuteur peut décider de ne pas réagir à une semi-question, alors qu’il lui serait plus difficile, sur le plan interactionnel, d’ignorer une véritable question sans risque de paraître un tantinet malpoli. Ainsi, R laisse en suspens l’assertion-question de S en (5) sans qu’aucun malaise entre les interactants semble s’installer. (5) [En parlant d’un enfant turbulent dont on est en train de raconter les méfaits, le locuteur dit :] R : il est (.) il est dur pour son corps pis il est dur sur le corps des autres J : oui (dit en riant)

Corpus, 15 | 2016 74

(RIRE GÉNÉRAL) B : sur le corps pis sur le moral S : mais que tu le connaisses tu vas comprendre tout qu’est-ce qu’on te dit/ (.) seigneur […] R : les oreilles [doivent lui siller lui J : [mais il comprendra [pas (.) S : [je sais pas↑ (en réaction à ce que dit Robert) J : il comprendra pas (.) pas parce qu’il est pas fin ↓ mais parce que tout le monde qui le rencontre il trouve qu’il est juste charmant (CFPQ, sous-corpus 15, segment 8, p. 138, ligne 12 ; 4 min 55 s)

25 Dans les exemples précédents, la séquence je sais pas a incontestablement un statut verbal. À ce titre, elle n’est pas figée à la première personne du présent de l’indicatif, si bien qu’on rencontre des emplois tels je savais pas et on sait pas, comme en (6) et (7). En (6), je savais pas nie un savoir, en écho à l’exemple (2) ; en (7), on sait pas indique une possibilité, parallèlement aux exemples (4) et (5). (6) É : ouin ouin il y a juste le : le coussin là (en désignant le coussin sur lequel elle est assise) [le rembourrage là que j’ai fait faire I : [ah ouin/ ah > [ah/ ouais ah/ je savais pas\ É : [mai :s > (CFPQ, sous-corpus 16, segment 1, p. 2, ligne 19 ; 1 min) (7) A : oui apparemment qui q- apparemment qu’ils avaient été averTIS (en pointant son crayon dans les airs comme pour insister sur ses propos) (.) que c’était (.) R : ben c’est possible qu’ils aient pu faire quelques e- éléments de risques additionnels AN : ah ça on peut on sait pas hein / (CFPQ, sous-corpus 20, segment 7, p. 78, ligne 15 ; 1 min 32 s)

2.3 Je sais pas : marqueur discursif

26 Comme cela était à prévoir, le MD je sais pas ne joue pas un rôle au sein de l’énoncé, si bien que sa suppression ne rend pas agrammaticale la répartie du locuteur qui en use10. Ainsi, le segment textuel pis c- me semble ça nous CALME ça fait du bien serait syntaxiquement recevable en (8). (8) M : on s’éVADE là-dedans (.) c’est pas croyable comme on s’évade dans ça (.) des fois là euh : ben là ça fait euh : quasiment six mois que j’ai pas touché à mon piano là mais euh quand ça me le disait là je m’en allais au piano pis j’improvisais là pis t’sais euh t’sais euh •vas-y vas-y° là pis c- je sais pas me semble ça nous CALME ça fait du bien (.) ouin (en hochant la tête affirmativement) (CFPQ sous-corpus 11, segment 5, p. 60)

27 Dans l’emploi considéré, la séquence je sais pas correspond à ce que Schneider 2007a et 2007b appelle une « clause parenthétique réduite » à valeur modale. Elle présente, grosso modo, les particularités sémantiques les plus communes dégagées par Urmson 1952, dans l’extrait suivant, pour ce qu’il nomme « verbes parenthétiques ». They [= parenthetical verbs] themselves have not, in such a use, any descriptive sense but rather function as signals guiding the hearer to a proper appreciation of the statement in its context, social, logical, or evidential. They are not part of the statement made, or additional statements, but function with regard to a statement made rather as ‘READ WITH CARE’ functions in relation to a subjoined notice, or as the foot stamping and saluting can function in the Army to make clear that one is making an official report. Perhaps they can be compared to such stage-directions as

Corpus, 15 | 2016 75

‘said in a mourful (confident) tone’ with reference to the lines of the play. They help the understanding and assessment of what is said rather than being a part of what is said. (Urmson, 1952 : 495-496)

28 Dans ce cadre, je sais pas se loge dans la troisième des 4 classes (concernant les clauses parenthétiques réduites) identifiées par Schneider 2007a et 2007b. Celle-ci réunit des marqueurs mettant en jeu des verbes de croyance qui ont grosso modo comme fonction, selon l’auteur, « d’atténuer directement l’obligation communicative du locuteur ». Cela étant, il reste maintenant à préciser comment s’opère le passage du verbe savoir au je sais pas discursif à portée atténuante.

29 Dans l’un de ses emplois verbaux, nous l’avons vu, la séquence je sais pas permet au locuteur d’indiquer que, pour lui, la proposition P est indéterminée. Lorsque celle-ci fait office de MD, il y a déplacement de l’indétermination : elle se situe non plus vis-à- vis d’une proposition P et donc du dit, mais plutôt vis-à-vis du dire. De ce fait, le locuteur signale, en usant du marqueur, qu’il est engagé dans un processus cognitif relatif à la mise en mots de sa pensée. Il hésite et se demande à voix haute que dire et/ ou dans quels termes. En guise d’exemple, la locutrice VE manifeste explicitement, par je sais pas en (9), qu’elle est en mode réflexif, qu’elle cherche comment poursuivre sa narration. Cela ressort d’autant mieux, ici, que la séquence sous examen est précédée d’une marque d’hésitation explicite (cf. euh) et d’une pause relativement longue (de près de 3 secondes). De plus, les premiers mots qui suivent immédiatement je sais pas ne forment pas un texte fluide. On y retrouve ce que Blanche-Benveniste (1997 : 21) appelle un « entassement paradigmatique » : c’était si est en concurrence, au plan paradigmatique, avec c’est qui est finalement l’option retenue pour l’enchaînement narratif (cf. c’est important de faire des beaux partys de Noël). Ce court extrait montre donc que je sais pas est une trace, parmi d’autres, qui traduit, dans le texte, l’effort cognitif que fournit le locuteur au moment même où il met en mots sa pensée. (9) VE : c’est cool des partys de Noël sérieux c’est comme euh (2,8”) je sais pas je trouve que c’était si c’est important de faire des beaux partys de Noël (CFPQ, sous-corpus 19, segment 6 p. 52, ligne 2 ; 11 s)

30 En affichant ouvertement, grâce à je sais pas, qu’il est en mode réflexif et qu’il est hésitant, le locuteur pose ouvertement un regard critique sur les limites de son savoir : son dit a pour cette raison une allure plus ou moins assurée. Ce faisant, celui-ci collabore honnêtement à l’échange. Il respecte en tous points les maximes conversationnelles du type formulées par Grice 1979 et plus spécifiquement la sous- maxime de qualité que l’auteur énonce comme suit : « N’affirmez pas ce que vous croyez être faux ; n’affirmez pas ce pour quoi vous manquez de preuve » (p. 61). Je sais pas est donc un marqueur foncièrement interactionnel qui s’inscrit dans une démarche collaborative. Par exemple en (10), sa présence illustre le fait que H, sans y avoir réfléchi au préalable, cherche dans le vif de la discussion, une solution au dilemme apparent d’un tiers absent11 : écouter une émission de télévision ou aller à une fête à l’occasion d’un mariage. La solution avancée est qu’il n’y a pas forcément à choisir. Les deux activités sont possibles, si l’émission de télévision est enregistrée ou écoutée lors d’une reprise le lendemain. (10) H : enregistre-le je sais pas ou écoute-le demain là c’est un party qu’il y a à soir là •ah je connais pas ben ben Domingue là° (.) pis ça crime (.) c’est un mariage là (.) en plus c’est la c’était la fin (CFPQ, sous-corpus 14, segment 8, p. 86, ligne 6)

Corpus, 15 | 2016 76

31 En somme, si je sais pas discursif n’est pas nécessaire au plan référentiel, il l’est au plan pragmatique. Voici un dernier exemple qui, à nouveau, le montre bien. En (11), R (un homme dans la soixantaine) rend explicite, par le biais du marqueur, l’effort cognitif qu’il déploie au moment de parole pour exprimer son point de vue sur un sujet délicat relativement aux groupes de jeunes gens dont le pouvoir collectif exerce trop souvent, selon lui, une pression excessive sur les choix individuels. Aussi, en plus d’être un marqueur collaboratif, je sais pas en est-il un foncièrement égotiste. En effet, grâce à lui, le locuteur se prémunit contre d’éventuelles représailles résultant d’une prise de parole qui, autrement, aurait pu être perçue, par l’interlocuteur, comme étant peu réfléchie. (11) R : à un certain moment donné en tout cas je sais pas je vois peut-être ça mal mais moi je me dis là à un certain moment donné une gang ensemble […] une gang ensemble tu sais pas quoi faire […] R : à un certain moment donné il y en a un qui sort quelque chose il sort quelque chose (en claquant des doigts comme pour représenter la rapidité de l’événement dont il parle) […] R : et go pis tout le monde est ensemble pis aïe je peux pas dire non/ écoute je vas avoir l’air d’un maudit pissou pissou (CFPQ, sous-corpus 20, segment 3, p. 28, ligne 19 ; 4 min 32 s)

32 Pour terminer, remarquons que le glissement de savoir à je sais pas discursif a sans doute été facilité par le fait que, dans son emploi verbal, celui-ci renvoie, si l’on en croit Rémi-Giraud 1986, à un savoir où « le sujet reste dans la réalité intérieure d’un processus mental » (p. 250). Or c’est également ce qui se passe, on l’a vu, avec je sais pas discursif. Dans les termes de Rémi-Giraud, savoir1 signifie « avoir dans l’esprit l’acte mental qui permet de former et d’affirmer une phrase (exprimée dans le C.O.D.) » (p. 254). Par comparaison, son synonyme proche, connaître1, renvoie à un « savoir d’expérience lié à l’espace des réalités non linguistiques » ; il signifie « avoir dans l’esprit l’image qui correspond à un objet extérieur (exprimé dans le C.O.D.) » (p. 254). Dans cette veine, pourquoi, à côté de je sais pas discursif, n’a-t-on pas, par exemple, je connais pas discursif ? Une hypothèse plausible est que connaître n’est pas foncièrement tourné vers la pensée mais vers le monde, contrairement au verbe « assertif fort », savoir, tout entier centré sur « le cours ou l’aboutissement [d’un] processus cognitif » (Borillo 1982 : 35) ; cela est aussi le propre de je sais pas discursif12.

3. Conclusion

33 Cette étude avait comme premier objectif de présenter le contexte général ayant conduit à la confection d’un corpus de langue orale usitée au Québec, en contexte informel, dans les années 2000, à savoir le CFPQ. Elle visait également à exposer les grands principes méthodologiques ayant présidé à la constitution du corpus, ainsi que ses principales caractéristiques (allant de l’enregistrement des données sur support audiovisuel à la mise en ligne des transcriptions et à leur interrogation).

34 Le second objectif poursuivi était d’illustrer en quoi un corpus de langue familière comme le CFPQ pouvait s’avérer utile pour choisir et analyser finement nombre d’expressions fréquentes, caractéristiques de la variété diatopique/diaphasique de langue ciblée. De telles expressions sont généralement absentes des dictionnaires, y compris des plus récents.

Corpus, 15 | 2016 77

35 Pour atteindre ce deuxième objectif, l’intérêt s’est porté du côté de la séquence la plus fréquente du corpus composée de 3 unités graphiques, c’est-à-dire je sais pas. Cette séquence est tantôt verbe, tantôt MD. Lorsque je sais pas est verbe, soit il nie catégoriquement un savoir, soit il laisse en suspens sa véracité. Dans ce cas, la séquence considérée n’est pas figée à la première personne du présent de l’indicatif et elle participe au contenu propositionnel de l’énoncé. Le statut de je sais pas se modifie lorsque l’indétermination face à un contenu propositionnel se transpose au plan métadiscursif. La séquence, qui ne joue alors plus un rôle au plan propositionnel ou référentiel, devient syntaxiquement optionnelle. Elle traduit en pareil cas l’effort déployé par un locuteur engagé dans un processus cognitif complexe consistant à mettre en mots sa pensée. Celui-ci hésite : il cherche que dire et/ou dans quels termes s’exprimer. Dans ce cas-ci, je sais pas est employé comme MD.

36 Pour bien faire, il faudrait désormais confronter les résultats obtenus ici pour je sais pas à des données prélevées dans d’autres corpus oraux du français, tels le CFPP2000, ESLO et OFROM. La voie est tracée : nous aurons certainement l’occasion de nous y engager dans une prochaine étude.

BIBLIOGRAPHIE

Aijmer K. (2014). « I don’t know as a marker of youth language », in K. Helgesson et al. (éd.) Fint språk/Good Language. Festskrift till Lars-Gunnar Andersson. Göteborgs : Utgiven i serie vid Göteborgs universitet, 1-14.

Blanche-Benveniste Cl. (1997). Approches de la langue parlée en français. Paris : Ophrys.

Borillo A. (1982). « Deux aspects de la modalité assertive : croire et savoir », Langages 67 : 33-53.

Brown P. et S. C. Levinson (1987). Politness. Some Universals in Language Usage. Cambridge : Cambridge University Press.

De Sève S. (2005). « Quand la morphologie devient une ressource interactive », in D. Banks (éd.) Les marqueurs linguistiques de la présence de l’auteur. Paris : L’Harmattan, 243-254.

Diani G. (2004). « The Discourse Functions of I Don’t Know in English Conversation », in K. Aijmer et A.-Br. Stenström (éd.) Discourse Patterns in Spoken and Written Corpora. Amsterdam : Benjamins, 157-171.

Gauvin K. (1999). Une approche énonciative et interactive de je sais et je sais pas, mémoire de maîtrise. Moncton : Université de Moncton.

Grant L. E. (2010). « A Corpus Comparison of the Use of I Don’t Know by British and New Zealand Speakers », Journal of Pragmatics 42, 8 : 2282-2296.

Grice H.-P. (1979). « Logique et conversation », Communications 30 : 57-72.

Kiparsky P. et C. Kiparsky. (1970). « Fact », in M. Bierwisch (éd.) Progress in Linguistics. A collection of Papers. The Hague : Mouton, 143-173.

Corpus, 15 | 2016 78

Kerbrat-Orecchioni C. (1991). « L’acte de question et l’acte d’assertion : opposition discrète ou continuum ? », in C. Kerbrat-Orecchioni (éd.) La Question. Lyon : Presses universitaires de Lyon, 87-111.

Korzen H. (2001). « Factivité, semi-factivité et assertion. Le cas des verbes savoir, ignorer, oublier et cacher », in H. Kronning et al. (éd.) Langage et référence. Acta Universitatis Upsaliensis : Uppsala, 323-333.

Langacker R. W. (1987). Foundations of Gognitive Grammar. Theoritical Prerequisites, vol. 1. Sandford : Standford University Press.

Levinson St. C. (1983). Pragmatics. Cambridge : Cambridge University Press.

Poirier Cl. (2015). « Un pas en avant, un pas en arrière. Analyse du dictionnaire de l’Équipe FRANQUS », Cahiers de lexicologie 105, 1 : 21-53.

Pop L. (2009). « Quelles informations se pragmatisent ? Le cas des verbes plus ou moins marqueurs », Revue roumaine de linguistique 54, 1-2 : 61-172.

Récanati Fr. (1984). « Remarques sur les verbes parenthétiques », in P. Attal et Cl. Muller (éd.) De la syntaxe à la pragmatique. Amsterdam : Benjamins, 319-352.

Rémi-Giraud S. (1986). « Étude comparée du fonctionnement sémantique et syntaxique des verbes savoir et connaître », in S. Rémi-Giraud et M. Le Guern (éd.) Sur le verbe. Lyon : Presses Universitaires de Lyon, 169-306.

Schneider St. (2007a). Reduced Parenthetical Clauses as Mitigators. A Corpus Study of Spoken French, Italian and Spanish. Amsterdam et Philadelphia : Benjamins.

Schneider St. (2007b). « Les clauses parenthétiques réduites en français, italien et espagnol. Une analyse pragmatique fondée sur des corpus de la langue parlée », in D. Trotter (éd.) Actes du XXIVe Congrès international de linguistique et de philologie romanes. Aberystwyth, 2-5 août 2004, vol. 3. Tübingen : Niemeyer, 423-432.

Schneider St. (2013). « Clauses parenthétiques réduites et type d’interaction verbale. Quelques considérations », in H. Chuquet (éd.) Des sentiments au point de vue : études de linguistique contrastive. Rennes : Presses universitaires de Rennes, 175-194.

Urmson J. O. (1952). Parenthetical Verbs, Mind 61, 244 : 480-496.

Usito 2012-, Équipe Franqus. Sous la direction éditoriale de H. Cajolet-Laganière et P. Martel. Sherbrooke : Éditions Delisme inc.

En ligne : https://www.usito.com. (Consulté le 5 mars 2015).

Corpus

CFPP2000 (Corpus de français parlé parisien des années 2000), Université Paris 3 – Sorbonne nouvelle. Site : http://recherche.flsh.usherbrooke.ca/cfpq/ (Consulté le 21 septembre 2014).

CFPQ (Corpus de français parlé au Québec), CATIFQ, Université de Sherbrooke. Site : http://recherche.flsh.usherbrooke.ca/cfpq/ Sous-corpus 1 à 21 exploités dans le cadre de la présente étude (= environ 31 h ½ d’enregistrement). (Consulté le 21 septembre 2014)

Corpus lexicaux québécois, Secrétariat à la politique linguistique, Gouvernement du Québec, 1997-2007. Site : http://www.spl.gouv.qc.ca/languefrancaise/corpuslexicaux/ (Consulté le 5 mars 2015).

Corpus, 15 | 2016 79

ESLO (Enquêtes sociolinguistiques à Orléans, Université d’Orléans. Site : http://eslo.huma-num.fr/ (Consulté le 21 septembre 2014)

OFROM (Corpus oral de français parlé en Suisse romande), Université de Neuchâtel. Site : http://www11.unine.ch/ (Consulté en 21 septembre 2014).

NOTES

1. http://www.spl.gouv.qc.ca/languefrancaise/corpuslexicaux 2. C’est nous qui plaçons en italiques le terme français standard. 3. Il en va de même pour le traitement plus que minimal de certains mots courants, notamment ceux d’origine anglaise (entre autres, Poirier, 2015). 4. Le projet, dirigé par la signataire du présent article, a reçu l’appui financier de l’Université de Sherbrooke, du Fonds de recherche québécois sur la société et la culture (FRQSC, 2007-2014 ; subvention d’équipe accordée au CATIFQ) et du Conseil de recherche en sciences humaines du Canada (CRSH, subvention individuelle, 2008-2012). 5. Il est prévu que les transcriptions restantes soient accessibles en ligne au plus tard à l’automne 2015. 6. Les pourcentages sont établis sur la base des calculs suivants : – dans le premier cas, 802 occurrences de je (le) sais pas sur 1 050 occurrences de (le) sais pas équivaut à 76 % ; – dans le second cas, 802 occurrences de je (le) sais pas sur 900 occurrences de je (le) sais correspond à 89 %. 7. Dans ce qui suit, nous faisons l’économie du le entre parenthèses pour des raisons de simplicité, étant entendu que les deux prononciations relevées plus haut et transcrites respectivement je sais pas et je le sais pas sont possibles. 8. Nous écrivons que savoir perd sa factivité dans certains contextes négatifs, car celle-ci peut réapparaître à des temps autres que l’indicatif présent, comme à l’imparfait (p. ex. : je savais pas que P) ou au plus-que-parfait (p. ex. : j’avais pas su que P). 9. L’interrogative indirecte du type je ne sais pas à quelle heure (que) je me suis levé est toutefois acceptable, parce que l’affirmation d’un non-savoir porte cette fois sur le syntagme nominal qui suit savoir (cf. à quelle heure) et non sur la complétive. Dans cet exemple, la complétive introduit une idée présentée comme vraie (cf. je me suis levé) car elle n’est pas directement sous la portée de savoir. 10. On le sait, le fait qu’une séquence puisse être omise n’est pas une caractéristique exclusive des MD (par exemple, les adverbes d’énonciation sont également optionnels). Le caractère optionnel d’une séquence n’est donc pas une condition suffisante pour qu’il y ait MD. Il faut plutôt y voir une condition nécessaire (sauf, encore là, dans les cas connus de mots-phrases tels ok ou coudon lorsqu’ils constituent par eux-mêmes une intervention). 11. Dans l’exemple considéré, H fait allusion à un problème rencontré par un ami qui ne participe pas à l’échange. 12. Sur le plan syntaxique, on pourrait encore ajouter que les constructions *connaître que P / *connaître si P n’existent pas. Ce fait, signalé par les chercheures précitées comme étant une conséquence de surface distinguant savoir et connaître, serait donc également en lien avec l’absence de je ne connais pas dans la zone discursive.

Corpus, 15 | 2016 80

RÉSUMÉS

Cet article présente le contexte général ayant conduit à l’élaboration du Corpus de français parlé au Québec (CFPQ) et les principes méthodologiques ayant présidé à sa confection. Il illustre ensuite l’intérêt que représente cette ressource documentaire pour l’étude de la langue parlée en contexte informel par le biais d’un examen lexico-sémantique de la séquence je sais pas. L’intérêt pour cette séquence vient d’abord d’un constat : celle-ci est particulièrement fréquente dans le corpus pris comme cible. En effet, elle y occupe le premier rang, en terme de fréquence, pour ce qui concerne la présence de trois unités graphiques figurant en contiguïté. Ce constat oriente vers l’idée selon laquelle son degré d’« entrenchment » (c’est-à-dire d’enracinement) doit être grand, qu’elle a toute chance d’être mémorisée en bloc dans un certain nombre de contextes, à la manière des séquences complexes ou expressions (semi-)figées. L’attention se focalise sur des exemples où je sais pas agit à titre d’expression verbale, puis d’expression discursive.

This article examines the sequence je sais pas (‘I don’t know’) in the context of its spontaneous usage in . The interest of this sequence of units primarily stems from the observation of its particularly high frequency in the queried corpus, namely the Corpus de français parlé au Québec (CFPQ). Indeed, it is the most frequent sequence of three graphical units that appear in contiguity. This observation suggests that the sequence is strongly “entrenched” and that it is likely to be memorized as a whole in a certain number of contexts, following the example of complex sequences or (semi-)fixed expressions. The article focuses on examples in which je sais pas acts as a verbal expression, and then as a discursive expression.

INDEX

Keywords : corpus linguistics, frequency, congealing, discourse marker Mots-clés : linguistique de corpus, fréquence, figement, marqueur discursif

AUTEUR

GAÉTANE DOSTIE Département des lettres et communications Faculté des lettres et sciences humaines Université de Sherbrooke, Québec, Canada

Corpus, 15 | 2016 81

Corpus international écologique de la langue française (CIEL-F) : un corpus pour la recherche comparée sur le français parlé The international ecological linguistic corpus of French (CIEL_F): A database for comparative research in spoken French

Lorenza Mondada et Stefan Pfänder

1. Introduction

1 Cet article a pour objectif de présenter le travail de constitution du Corpus international écologique de la langue française (CIEL-F) et quelques potentialités, mais aussi défis, qu’il implique pour une analyse comparée du français dans différentes zones communicatives et au sein de différents types d’activités. Pour ce faire, l’article est organisé en deux parties, la première présentant le corpus et le projet qui l’a motivé, et la seconde offrant un exemple d’analyse.

2 Il existe aujourd’hui plusieurs corpus de français oral disponibles, qui ont été conçus à partir d’arrière-plans théoriques et disciplinaires, impliquant par là nécessairement des méthodologies distinctes qui ont des effets sur la manière dont les données sont collectées et transcrites – notamment PFC1 conçu à partir d’un intérêt pour la phonologie du français, ESLO2 à partir d’un projet sociolinguistique, poursuivi à travers deux phases de recueil historiquement bien distinctes (1968 et actuellement), CLAPI3 à partir des principes de la linguistique interactionnelle, VALIBEL4 à partir de la sociolinguistique variationniste, etc. Ces banques de données constituent des corpus d’une richesse importante qui rendent difficile de répéter aujourd’hui les constats sur le manque de données pour le français qui ont émaillé la littérature pendant longtemps. Toutefois, cette richesse de données laisse intacts plusieurs problèmes : les « données » y sont définies de façons très diverses, allant de tâches plus ou moins

Corpus, 15 | 2016 82

écologiques, plus ou moins dialogiques ou monologiques, aux interviews et aux interactions sociales situées ; les enregistrements couvrent de manière très hétérogène les espaces régionaux, nationaux et internationaux où le français est parlé, laissant de nombreuses régions géolinguistiques dans l’ombre, et certains types d’activités y sont sur-représentés (p. ex. : l’entretien ou la conversation), alors que de nombreux autres sont alors plus ou moins totalement ignorés ; les métadonnées documentées sont très diverses ; les transcriptions obéissent à des standards mais aussi à des niveaux de granularités très hétérogènes ; les données sont plus ou moins annotées ou taguées, selon des conventions différentes ; les corpus sont plus ou moins interrogeables, par des outils qui, là aussi, varient énormément dans les types de requêtes qu’ils permettent de formuler. Ce constat met aujourd’hui au centre de l’attention technologique la question de l’interopérabilité des corpus/des banques de données et au centre de l’attention analytique la question de la comparabilité des données.

3 Le corpus CIEL5 a été constitué au sein d’un projet financé par le programme franco- allemand ANR-DFG6, réunissant 5 partenaires : Françoise Gadet (UMR MoDyCO, Paris), Ralph Ludwig (Univ. Halle), Lorenza Mondada (UMR ICAR, Lyon), Stefan Pfänder (Univ. Freiburg-im-Breisgau), et Anne-Catherine Simon (Univ. Louvain-la-Neuve), pendant la période 2008-2012. Le projet répond à une partie des questions évoquées ci-dessus : émanant de linguistes actifs dans les domaines de la grammaire de l’oral, de la sociolinguistique et de la linguistique interactionnelle, il vise un corpus qui puisse permettre d’accéder à des données du français enregistrées dans des conditions écologiques dans différentes aires communicatives, recueillies dans des contextes comparables, renseignées par rapport aux mêmes métadonnées, transcrites avec les mêmes conventions et critères. Les corpus sont réunis dans une banque de données qui réunit les expertises des équipes ayant réalisé la plateforme CLAPI7 (Corpus de langue parlée en interaction) au laboratoire ICAR à Lyon et développé le système [moca]8 (multimodal oral corpora administration) à Freiburg et à Louvain-la-Neuve.

2. Le corpus CIEL : critères de constitution

4 Le corpus CIEL vise à rassembler des données de français recueillies en différents points géographiques sur plusieurs continents, enregistrées dans des conditions écologiques (voir Dister et al., 2008 ; Gadet, Ludwig, Mondada, Pfänder & Simon, 2012).

5 Il s’agit tout d’abord d’un corpus écologique : ce terme renvoie à plusieurs acceptions dans la littérature que le projet CIEL tente d’intégrer et d’articuler (voir Ludwig, Mühlhäusler & Pagel, éds, à paraître). Haugen (1972) est parmi les premiers à utiliser ce terme en linguistique, renvoyant par là à une conception de la langue comme inscrite dans un réseau complexe d’interdépendances, que ce soit avec l’environnement social et naturel ou avec d’autres langues, et dont l’ancrage social se manifeste concrètement dans la communication en situation d’interaction. À partir de Haugen, l’écologie linguistique a pris d’une part au sérieux le concept biologique, en pensant l’évolution linguistique en termes de langue en train de survivre, de se développer ou bien de disparaître ; d’autre part le concept a été utilisé de manière métaphorique pour renvoyer à un système d’interdépendances plus abstrait et aussi davantage orienté vers les dynamiques sociales. L’approche de l’écologie dans le projet CIEL distingue différents niveaux : le niveau macro-écologique reconnaît la formation historique de contextes d’usage du français – comme, par exemple, la francophonie africaine ou le

Corpus, 15 | 2016 83

Levant – ; le niveau méso-écologique tient compte des contextes urbains, régionaux, ou insulaires (cf. infra, les aires communicatives) ; le niveau micro-écologique considère les contextes sociaux et institutionnels d’usage du français, ainsi que les environnements spatiaux et matériels dans lesquels la langue est utilisée comme ressource pour l’interaction sociale située (cf. infra, les types d’activité). Méthodologiquement, la dimension écologique est comprise et implémentée dans le corpus CIEL sous la forme de l’exigence de se doter d’enregistrements de la parole située dans son contexte social ordinaire et routinier, sans qu’elle soit élicitée ou orchestrée par le chercheur (Mondada, 2012).

6 Ces différents principes issus de la notion d’écologie ont été traduits dans le corpus CIEL sous la forme d’une triple exigence : des données naturalistes enregistrées in situ qui documentent une variété de zones communicatives – qui émanent d’une typologie des aires – et des types d’activités distincts – qui émanent d’une typologie des situations d’usage.

7 La typologie des aires communicatives (cf. Gadet, Ludwig & Pfänder 2009) est inspirée d’une révision critique de la question de l’ancrage spatial, géographique et politique des aires linguistiques. L’aire communicative renvoie à un espace qui est moins défini de manière géopolitique ou selon les frontières de l’État-nation, que dans la perspective des locuteurs et de leurs usages, faisant intervenir le prestige, la vitalité, le contact avec d’autres variétés linguistiques, ainsi que la fonctionnalité communicative. La typologie se fonde sur quatre critères : a) l’espace socio-géographique (distinguant entre centres urbains et zones plus périphériques et rurales), b) le contact linguistique (distinguant entre formes de contact dominantes vs non-dominantes, avec une vs plusieurs variétés ; entre contact avec une langue typologiquement proche (européenne) ou non ; et entre contact avec des variétés écrites vs non écrites), c) la dimension fonctionnelle (contemplant les types d’usages, dans différents contextes, formels vs informels, privés vs publics, en situation d’oralité vs de littératie) et d) la dimension de dynamisme langagier (incluant la vitalité vs l’obsolescence de la variété considérée). Sur cette base, différentes aires en Algérie, Antilles françaises, Belgique, Burkina Faso, Cameroun, Canada, Congo, Côte d’Ivoire, Égypte, France, Inde, La Réunion, Maurice, Sénégal, Suisse et Togo ont été documentées.

8 La typologie des activités communicatives a été privilégiée par rapport à un échantillonnage des locuteurs qui régit souvent les enquêtes sociolinguistiques, mais qui soulève de nombreux problèmes dès que l’on pense moins en termes d’individus et davantage en termes d’interactions sociales. Ces activités sont abordées en respectant leur caractère situé : il ne s’agit pas d’activités provoquées ou orchestrées par un enquêteur (cela exclut les entretiens, les données sollicitées ou expérimentales), mais d’activités telles qu’elles se déroulent ordinairement (Mondada, 2012 ; Groupe ICOR, 2010). Le choix des activités s’inspire des travaux de l’ethnographie de la communication, de la linguistique anthropologique et de l’analyse conversationnelle. En particulier, il a été inspiré par la notion de « speech event » de Gumperz (1982) et d’« activity type » de Levinson (1979). Les activités ainsi définies sont à la fois solidement ancrées dans leur contexte et repérables dans des contextes divers. Le corpus a privilégié des types d’activités répondant à une série de critères socio- interactionnels : a) des échanges interactionnels comportant plus de deux et si possible moins de six locuteurs (afin de limiter le risque de schismes conversationnels), b) constituant des activités dont les frontières temporelles et spatiales sont

Corpus, 15 | 2016 84

naturellement identifiées par les locuteurs (comme un repas ou une réunion, délimitées entre un début et une fin vers lesquelles s’orientent les participants), c) ainsi que des activités reconnaissables de manière endogène (émique) par les participants et membres du groupe concerné, d) qu’il est possible de documenter, avec des variations, dans des cultures et des sociétés très différentes, e) et qui permettent d’observer des pratiques langagières et interactionnelles diversifiées (contextes ordinaires informels vs institutionnels, contextes faisant intervenir des groupes de même âge vs différentes générations, interactions plus ou moins ancrées dans le corps et la gestualité, pouvant aussi intéresser l’analyse multimodale). Du point de vue méthodologique, il s’agissait aussi de retenir des types d’activités accessibles à l’enregistrement, ne posant pas de problèmes de confidentialité, et, du point de vue éthique et juridique, pouvant être diffusés (cela motivant l’exclusion de situations impliquant des contenus confidentiels et intimes). Sur cette base, trois types d’activités ont été privilégiés : – conversations durant des repas entre amis ou en famille ; – interactions en contexte professionnel (par exemple réunions) ; – interactions enregistrées sur une radio locale.

9 Pour chaque aire et chaque type d’activité, 3 enregistrements ont été visés – avec actuellement un corpus constitué de 183 enregistrements.

3. Traitement et archivage des corpus : des données aux banques de données

10 Le travail effectué pour réaliser le corpus CIEL implique de nombreux paliers et un réseau de collaborations et d’expertises. Le corpus a été conçu par les 5 équipes en charge du projet. Les données ont été enregistrées en partie par les mêmes équipes en partie par des collaborateurs distribués sur plusieurs continents et qui ont accepté de contribuer au projet. Elles ont été ensuite transcrites, en grande partie par les équipes du projet mais aussi avec l’aide des collaborateurs externes9. Enfin, elles ont été alignées, décrites par des métadonnées et intégrées sous un format XML à la base de données. Chacune de ces étapes suppose un travail de coordination et de standardisation important, qui pose des problèmes conceptuels, méthodologiques et techniques, mais aussi disciplinaires, épistémologiques et humains.

11 Le travail d’enregistrement des données a souvent reposé sur un contact étroit avec les locuteurs sur place et donc sur la collaboration avec des personnes y résidant ou y travaillant. Cela a supposé une réflexion en matière de conception des enregistrements et de recours à des technologies adéquates, implémentée dans un protocole pour le recueil d’enregistrements audio et vidéo (Mondada, 2011). Cela a supposé surtout la formation correspondante des équipes et la résolution de nombreux problèmes techniques, notamment dans les zones les plus périphériques et lointaines, ne disposant pas des mêmes équipements. Les conditions d’accès au terrain sont très différentes d’un contexte culturel à un autre : selon les sites, le fait même d’enregistrer est largement accepté voire banalisé, par les usages de Facebook et par une acceptation tacite de la vidéo-surveillance, ou bien il est rejeté, du fait d’une sensibilisation à la sur- médiatisation des enregistrements de la vie privée et aux violations de l’intimité des personnes, ou encore il fait l’objet de résistances plus ou moins ouvertes, du fait de conceptions très différentes de ce qu’est la sphère « privée ». De même, les possibilités d’enregistrer peuvent fortement varier d’un contexte national à l’autre : par exemple,

Corpus, 15 | 2016 85

dans certains contextes académiques, il est déontologiquement et juridiquement difficile pour les chercheurs d’enregistrer des conversations privées, les interactions institutionnelles étant plus accessibles (Canada), alors que dans d’autres ce sont les interactions institutionnelles et professionnelles qui posent des problèmes de confidentialité (Europe).

12 Le travail de transcription a également reposé sur un travail important d’harmonisation et de standardisation des pratiques et des conventions. Comme on le sait, la transcription repose sur une série de choix qui explicitement ou tacitement reposent sur des modèles et des présupposés théoriques (Ochs, 1979), distinguant souvent des communautés disciplinaires mais aussi, au sein de mêmes traditions épistémologiques, nationales. La démarche d’harmonisation et de standardisation passe donc par des négociations qui sont aussi bien théoriques que pratiques. C’est ainsi qu’une convention a été préalablement discutée entre les équipes du projet (Simon, Gadet, Ludwig, Mondada, Pfänder & Skrovec, 2012) sur la base des bonnes pratiques existantes. Acceptant le caractère fini, sélectif et interprétatif de la transcription comme donnée secondaire – dont le caractère contraignant est relativisé par la possibilité de la vérifier sur la base de l’enregistrement ou donnée primaire –, le projet CIEL a procédé à une transcription fondée sur un certain nombre de principes de base. Parmi eux, citons l’adoption d’une transcription orthographique standard pour faciliter la lisibilité mais aussi l’interrogeabilité des textes, doublée d’une transcription orthographique adaptée pour s’approcher davantage de la production orale enregistrée, ainsi que d’une traduction ou glose pour les passages qui le nécessitaient (dans d’autres langues que le français ou dans des variétés particulières). Ces différentes versions sont toutes accessibles sous le logiciel Praat10, qui permet un alignement entre le signal sonore et les différentes lignes (tiers) de la transcription : cela facilite non seulement l’analyse prosodique, mais surtout permet la multiplication virtuellement infinie des lignes d’annotation pour différentes finalités ; en outre ce format (text-grid) est exportable à la fois comme texte et comme fichier intégrable dans une banque de données. De même, un script Praat a été utilisé pour l’anonymisation (par beepage permettant de garder le même contour prosodique du segment anonymisé) des détails personnels privés évoqués par des participants dans les enregistrements.

13 Chaque enregistrement et sa description ont fait l’objet d’une description sous forme de métadonnées, dont les champs à renseigner ont aussi fait l’objet préalable de discussions et négociations auprès des équipes du projet. Le choix des catégories à renseigner implique non seulement des intérêts de recherche mais aussi et d’abord des présupposés théoriques. Par exemple, loin d’être un simple recueil d’informations objectives sur les locuteurs, les métadonnées révèlent des choix théoriques concernant les dimensions pertinentes pour définir l’identité (culturelle, sociale, linguistique…) du locuteur. Ainsi consigner les langues parlées par le locuteur amène à une discussion sur le statut de catégories telles que « locuteur natif », « langue première », « langue maternelle », « langue seconde » etc. ; consigner son appartenance socio-économique soulève la question de la segmentation et description pertinentes de la structuration sociale d’un groupe ; consigner son appartenance ethnique soulève des problèmes épineux de catégorisation. Ces problèmes ont été discutés dans la littérature (voir par exemple la membership categorisation analysis de Sacks, 1972), mais l’implémentation de ces discussions dans des choix au sein d’une série de métadonnées, elles-mêmes à traduire dans des questionnaires à soumettre sur le terrain, n’est pas un processus

Corpus, 15 | 2016 86

linéaire et évident. En outre, les métadonnées ne concernent pas uniquement les locuteurs et les phénomènes enregistrés, mais documentent également les conditions d’enregistrement et de transcription. Ces renseignements sont une trace importante d’un processus réflexif dont certains détails peuvent se révéler importants lors des analyses. Cela ne fait qu’exhiber la différence radicale entre les corpus que les chercheurs enregistrent pour leurs propres analyses et les corpus que des chercheurs recueillent pour les mettre à disposition de la communauté. Dans ce dernier cas, l’architecture du corpus, et crucialement les métadonnées, construisent la possibilité, qui ne va pas de soi, que l’on puisse procéder à une analyse de données que l’on n’a pas soi-même collectées.

14 Les enregistrements, les transcriptions et les métadonnées ont été ensuite consignés dans une architecture informatique en permettant l’archivage ainsi que l’interrogation, sous la forme d’une banque de données. Celle-ci est accessible à partir de deux interfaces, liées à deux plateformes : CLAPI et [moca].

15 CLAPI est une banque de données de corpus de parole en interaction enregistrées en audio et en vidéo, développée depuis les années 2000 au laboratoire ICAR à Lyon et mettant actuellement librement à disposition de la communauté scientifique 50 heures de données interrogeables, 120 corpus transcrits, 30 heures de données téléchargeables11. CLAPI peut être utilisé comme une archive de corpus, permettant d’en identifier, sélectionner et consulter les données primaires et les données secondaires, alignées sur le même timing, sur la base d’un riche jeu de métadonnées, mais fonctionne surtout comme une banque de données permettant de formuler des requêtes complexes, qui ont la particularité d’intégrer, au-delà des concordanciers habituels, des requêtes combinant recherche de formes linguistiques et de caractéristiques interactionnelles (par exemple : rechercher les occurrences de « non » en début de tour, éventuellement précédées de « euh » et de pauses inter tours et suivies d’un chevauchement par le tour de parole suivant) (voir Bert, Bruxelles, Étienne, Jouin-Chardon, Lascar & Mondada, 2010, pour une présentation). Les requêtes effectuées et leurs résultats peuvent être sauvegardés dans un espace de travail personnalisé de l’usager.

16 [moca] est une plateforme12 qui permet d’administrer des corpus sous forme de fichiers audio et vidéo, et d’importer des fichiers txt/doc, ainsi que Exmaralda, Praat ou ELAN. Les corpus peuvent être recherchés et identifiés sur la base de métadonnées contenant la caractérisation sociolinguistique des locuteurs et les conditions de recueil du corpus. Des requêtes basées sur des suites de caractères permettent d’interroger les transcriptions ; les résultats sont affichés sous la forme de fragments de transcriptions dont le signal est consultable. La spécificité de cet outil est la visualisation des corpus sur une représentation cartographique, permettant de capturer en un coup d’œil la distribution géographique des données ; il permet des recherches complexes et offre aussi la possibilité d’une annotation personnalisée des données par des labels et des étiquettes que l’usager peut créer et qu’il peut ensuite regrouper et sauvegarder sous la forme de sous-corpus (voir Ehmer & Martinez, 2014, pour une présentation).

17 Le projet CIEL a fait le choix de permettre la consultation de ses données par le biais de ces deux interfaces : cela présente l’avantage de multiplier les possibilités quant à l’interrogation des données par des outils ; de profiter de différentes interfaces selon les préférences des usagers ; et d’exploiter les caractéristiques spécifiques des deux plateformes – notamment les requêtes complexes orientées vers la linguistique

Corpus, 15 | 2016 87

interactionnelle de CLAPI, les possibilités d’annotations personnalisées de [moca]. Une des conséquences de ce double choix est aussi une avancée dans la discussion – aujourd’hui fondamentale – sur l’interopérabilité entre bases de données, grâce aux efforts conjoints des informaticiens des deux équipes (Carole Étienne à Lyon et Daniel Alcón à Freiburg).

4. Enjeux analytiques

18 La mise à disposition de corpus est un desideratum fort de la communauté scientifique ; leur mise à disposition avec des outils de requête et d’interrogation potentialise ces corpus et permet des analyses sur de grandes masses de données ; leur structuration – dès la collecte – en un ensemble cohérent permettant différents types de comparaisons représente un apport encore plus crucial. Sur ce dernier point, l’originalité et la valeur du corpus CIEL-F est de mettre à disposition des données interrogeables de manière outillée qui sont fondées sur une conception du terrain, des enregistrements, des métadonnées et de l’architecture de la base de données, elle-même fondée sur la comparaison. CIEL-F permet la comparaison au sein de la même activité communicative, mais aussi entre activités communicatives (p. ex. : est-ce que voilà ou donc sont utilisés de la même manière dans des conversations ordinaires et des interactions professionnelles ? Apparemment cela n’est pas le cas… Groupe ICOR, 2009, Pfänder & Skrovec, 2011), au sein de la même aire communicative mais aussi, et surtout, entre aires communicatives. Ainsi, on peut se demander si une particule ou une construction grammaticale donnée est utilisée de la même manière dans des aires communicatives différentes (voir Skrovec & Pfänder, 2012). La comparaison outillée est un des domaines les plus promettants de la recherche sur grands corpus – permettant d’envisager de revisiter des hypothèses passées non suffisamment documentées empiriquement ainsi que de formuler de nouvelles hypothèses et surtout de nouvelles analyses empiriques, au-delà de ce que l’on a coutume de dire ou de croire concernant, par exemple, la spécificité des variétés de français en Afrique ou la différence entre français canadien et français métropolitain.

19 Dans ce qui suit, nous n’avons pas la prétention d’épuiser une analyse comparative en quelques pages. Nous n’offrons que quelques pistes d’une analyse basée exclusivement sur des données extraites de CIEL-F donnant un exemple de phénomènes et de questions qu’il est possible d’envisager. L’exemple portera sur la forme là : elle présente l’intérêt d’avoir été déjà étudiée dans une littérature substantielle et d’avoir été utilisée pour illustrer la spécificité et les différences entre variétés du français (Italia, 2006, sur là en français du Gabon ; Ludwig & Pfander, 2003, sur là en créole caribéen et en français ; Ploog, 2006, sur là en français d’Abidjan, Queffélec et al., 1997, sur le français en Centrafrique ; Ngamountsika, 2012, sur là en français du Congo ; Wiesmath, 2003, sur là en acadien, Forget, 1989, Vincent, 1981, sur là en français du Canada – sans oublier les travaux sur le français métropolitain, notamment de Barbéris, 1992) –, mais sans avoir pu comparer directement le comportement de la forme dans des aires différentes.

20 Dans ce qui suit, nous nous penchons sur quelques variations, différences mais aussi similarités que l’on peut repérer à propos des emplois de là dans le corpus CIEL-F.

Corpus, 15 | 2016 88

5. Là : des usages locatifs à la grammaticalisation en particule

21 L’intérêt pour l’analyse d’une forme comme là est représenté par le fait qu’il est possible de la trouver dans toutes les positions envisageables au fil des corpus : au début, au milieu et à la fin de clauses comme de tours ; après des noms, des verbes, des connecteurs et autres catégories ; sous la forme d’une seule occurrence ou de deux occurrences répétées… La description fonctionnelle et catégorielle de la forme là correspond à cette richesse positionnelle. La multiplicité des rôles de là a été amplement soulignée par la littérature : là n’est pas uniquement un déictique mais a subi une grammaticalisation en marqueur discursif (aussi appelé là de clôture, Barbéris, 1992). Ainsi, par exemple, la typologie proposée par Ludwig & Pfänder (2003 : 271-275 – visant le français et le créole) identifie 5 types de là : spatial, démonstratif, situativo- temporel, de structuration du discours antéposé et postposé. Ces 5 types, documentés dans le corpus CIEL-F, montrent qu’il existe un continuum allant d’emplois plus clairement spatiaux (c’est là, je vais là, ça et là) à des emplois où là perd son sens spatial pour devenir une particule discursive (l’homme là qui est venu là tu le connais là) – en passant par des emplois où le locatif devient davantage métaphorique et renvoie à un positionnement temporel (arrête là) ou dans l’espace-temps du discours (qu’est-ce que vous dites là ? je termine là).

22 Si l’on se penche sur le corpus CIEL et qu’on y recherche la forme là dans les différents types d’activité et dans la pluralité des aires communicatives documentées, on constate que ces emplois coexistent dans le temps et dans l’espace : dans un même fragment d’interaction, on peut trouver des occurrences de là avec un sens premièrement spatial et avec une fonction de structuration du discours. D’une part, à certains usages locatifs peuvent se superposer des usages interactionnels – comme le montre l’usage de là déictique avec un geste de pointage au service de l’auto-sélection (Mondada, 2007), au service de la structuration de l’activité (Mondada, 2014) ou au service du renforcement de la pertinence conditionnelle de la question (Mondada, à paraître). D’autre part, la coexistence d’usages locatifs et d’usages de là grammaticalisé en particule peut amener les locuteurs – s’orientant ainsi vers la grammaticalisation comme perte du sens sémantique original – à adopter des stratégies de différenciation des deux types de ressources pour continuer à exprimer la dimension spatiale de là.

23 Nous mentionnons ici trois faits qui montrent cette double orientation dans les différentes aires du corpus.

24 La première évidence concerne l’occurrence de deux là successifs, comme dans les exemples suivants : (1) (CA_NB_REP_04) ((en début d’enregistrement)) KAT: on va commencer/ LÀ là\ (2) (CA_QC_REP_01) A: on dirait qu- ils veulent pas qu’on conteste rien parce que il a été éLU- mais: tu sais ça s’arrête pas là là/ (3) (BE_WBR_REP_02) PHI: ben: ils: rentrent chez eux/ hein tous les gens: qui ont un: certain âge/ mais oui mais là LÀ c’était vraiment

Corpus, 15 | 2016 89

JEA: hm PHI: c’était quasi pousser les gens dehors/ quoi (4) (CI_ABJ_REP_02) TAN: [c’est quoi c’est quoi qui est] écrit là là/ (0.9) MAB: quoi/ TAN: mou (5) (FR_MZM) COR: là là c’est un projet on va dire c’est pour nous tesTER hein ça va être pour voir la qualiTÉ: euh: pour voir les délais: euh\ (.) ALI: d’a[ccord]

25 Comme ces exemples le montrent, là peut être dupliqué en début comme à la fin ou en milieu de tour. Une analyse prosodique systématique serait nécessaire ici, ainsi qu’un plus grand nombre d’occurrences pour tirer des conclusions sur des tendances spécifiques aux variétés analysées ; toutefois ces exemples montrent qu’en français d’Europe, du Canada et d’Afrique le double là est observable. La duplication semble traiter le fait que le là particule structurant le discours ayant perdu sa dimension spatiale, un autre là est utilisé pour référer à l’espace.

26 Une autre évidence concerne le fait que dans certaines variétés ce n’est plus là mais là- bas qui est utilisé pour la référence spatiale, comme le montrent les exemples suivants, où là-bas est positionné à la fin du tour ou de l’unité de construction du tour, position souvent occupée par le là de structuration (cf. infra § 6.) : (6) (TP-P-PRO-01) LOC: donc il va faire le feu là-bas (0.5) LOC: comme ça y aura la chaleur- la fumée: qui va chasser les- ces petits insectes-là (7) (SN_DK_REP_01) A: [il est ici//] B: [cela est sûr\] lui aussi:/ il est (en train) de célébrer le mariage là-bas (8) (CI_ABJ_REP_02) A: la semaine (0.4) dernière hein/ dix jours aujourd’hui (0.4) il y a eu un crash là-bas (1.0) A: et puis [aujourd’hui [encore y a y a xxxx (9) (CM_DLA_REP-01) A: c’est elle qui venait là-bas chaque matin/ là

27 Dans le dernier exemple, là-bas est utilisé au sein du tour pour la référence spatiale, alors que là est utilisé à la fin du tour comme particule.

28 La troisième évidence est offerte par l’analyse multimodale – exploitant cette fois le fait que le corpus CIEL-F comprend aussi quelques données vidéo (bien qu’encore trop peu). Ainsi, dans l’extrait suivant, différentes formes de là sont utilisées. Le locuteur les

Corpus, 15 | 2016 90

différencie en utilisant ou non des gestes l’accompagnant – ce qu’il fait pour le là spatial, alors qu’il ne le fait pas pour le là grammaticalisé en particule : (10) FR_LIO 1 ROG: .h parce que tu vois moi y en a un 2 ou deux/ qui m’ont demanDÉ/ euh: sur 3 les questions de réglementation:/ (0.3) 4 .h d’avoir aussi/ (.) euh:: les textes/ 5 et des fois la discussion autour du 6 texte/ et la compréhension du texte 7 (0.3) 8 ROG: .h 9 BER: [ouais] 10 ROG: [et je] me dis que le- du coup le 11 → petit: texte *là #(0.4) .h* qu’on a *paume latérale* fig #fig.1 12 mis dans la pochette/ l’arrêté du 13 vingt-deux juin avec rénovation BAFA 14 B A F D/ (0.3) .h au MOINS repren- 15 en reprenant la partie animateur

Fig. 1

16 euh::(0.4) .h [euh:m:] 17 BER: [ils l’ont/ la] 18 partie [animateur/ 19 ROG: [ouais ouais] ouais y- je 20 → leur ai mis [la com]plète là# fig #fig.2 21 BER: [d’accord]

Corpus, 15 | 2016 91

Fig. 2

((6 lignes omises)) 28 ROG: et j- et avec le TExte/ ça peut être 29 → pas mal de faire cet exercice-là (0.5) 30 parce que ça fait à la fois une 31 compréhension un peu: d’un texte 32 de loi/ 33 (0.7) 34 BER: ouais [ouais] 35 ROG: → [et puis] euh:: c’est celui-là 36 (0.8) 37 BER: ouais c- enfin c’est vraiment celui/ 38 que j’ai en tête hein 39 (1.6) 40 ROG: → c’est l’arrêté du vingt-deux juin °là°# fig fig.3#

Fig. 3

29 Dans cet extrait, plusieurs occurrences de là sont observables : lignes 8-9 ROG mentionne à nouveau (cf. le début de l’extrait) ce petit texte là et fait un geste co- occurrent avec la forme là (Fig. 1), qui en souligne le caractère spatial et référentiel. Plus loin quand, en réponse à la question de BER, ROG dit je leur ai mis la complète là (14-15) il ne fait en revanche aucun geste (à ce moment-là il est en train de commencer à se tourner vers ses dossiers, Fig. 2). Les occurrences de là avec démonstratif (23, 27) ne sont pas non plus accompagnées de gestes. Le dernier là est produit avec une voix faible, donc minimisé vocalement, pendant que ROG est tourné vers ses dossiers : là aussi il ne fait aucun geste. Ainsi on peut remarquer que quand là est spatial (9), il est accompagné d’un geste ; quand il va de pair avec un démonstratif (cet exercice.là 23, celui-là 27) le geste n’est pas nécessaire, le là étant désambiguïsé par le démonstratif qui

Corpus, 15 | 2016 92

le précède ; quand il s’apparente davantage à une particule discursive (14-15, 31), il n’est pas accompagné de gestes et est produit pendant que le corps du locuteur est occupé à d’autres mouvements, comme se tourner, chercher des documents, etc. Ainsi, sur la base d’observations préliminaires, il devient possible d’explorer la distinction entre deux catégories, et la grammaticalisation en prenant en compte la gestualité – et plus globalement la multimodalité – comme critère (et surtout ressource pour les participants) supplémentaire permettant de distinguer différentes formes (telles que traitées par les locuteurs).

30 Plus globalement, ces exemples montrent que le corpus permet d’observer non seulement une pluralité d’emplois de là mais aussi la manière dont les locuteurs traitent cette diversification et, si nécessaire, opèrent des différenciations dans le choix local des ressources utilisées.

6. Là de structuration

31 La particule là grammaticalisée en marqueur de structuration occupe deux positions majeures : d’une part elle peut être antéposée, d’autre part elle peut être postposée en fin de clause.

32 Les cas de là antéposé, en début de clause, sont souvent précédés de connecteurs : parce que là est relevé partout, mais plus fréquemment en France, Nouveau-Brunswick et Congo ; après là est attesté en Côte d’Ivoire, en Belgique, Cameroun et France ; alors que donc là et mais là sont repérables dans toutes les zones, et tout particulièrement en France et en Belgique. De ce point de vue il ne semble pas que ce format puisse différencier substantiellement des zones – même si des quantifications seraient là nécessaires.

33 Le là postposé, fonctionnant comme particule discursive, a été identifié sous différentes catégories en français – dénommé là d’actualisation (Quéffelec et al., 2997 ; Ngamountsika, 2012) ou là de clôture (Barberis, 1992). Ces cas de là finaux sont fréquents dans toutes les zones.

34 Mais leur distribution syntaxique varie.

35 Dans les français d’Europe, on constate que le là final est souvent précédé d’un syntagme nominal qui peut avoir différentes portées possibles (cf. Barbéris, 1992) : (11) (FR_PAR_AUT_02) A: alors vous z- vous m’appelez/ euh le quatuor là/ (12) (BE_LGG_REP_01) A: j’ouvre un peu de lasagne là B: oui (13) (FR_LIO_REP_03) A: je vais prendre euh: les trucs là

36 Dans ces cas, le là final peut soit clôturer la totalité de la clause, soit le syntagme nominal final, de manière analogue à un format de là répandu dans toutes les aires, le_N_là (voir infra, § 7.).

37 En revanche, au Canada, il est précédé de constructions beaucoup plus diversifiées, et souvent par des syntagmes verbaux. En voici quelques exemples : (14) (CA_QC_REP_01) 1 A: ils ont un- au moins ils ont une

Corpus, 15 | 2016 93

2 logique qui se tient jusqu’au bout/ là ((…)) 10 A: on laisserait ça se faire mais 11 il a [été élu démocratiquement/] 12 B: [m ça a pas d’allure là] (15) (CA_QC_REP_02) A: euh: ils t’expliquent pourquoi là/ (16) (CA_QC_REP_02) A: fait qu’Audrey aime plus ou moins h ça\ là (17) (CA_NS_PRO_01) A: ils passent c’est la fin de semaine ils passent sus- sus le numéro un poi::nt vite là (18) (CA_NB_RAD_04) A: c’est un bon violon de marque euh Skylark (0.2) puis euh::: en très bon état puis ça vient avec une case dure/ là

38 Dans ces cas, le là clôture la clause tout entière et pas uniquement le dernier syntagme. En outre, le sens spatial est estompé – devenant de plus en plus abstrait et métaphorique – pour se grammaticaliser : là indique la complétion du tour.

39 Ce rôle structurant de là est visible dans un autre type de construction, la relative, qu’il clôt à droite. Ce phénomène a précédemment été décrit à propos de la relative restrictive dans les créoles caribéens (Ludwig & Pfänder, 2003). Dans le corpus CIEL, on le retrouve dans de nombreux autres aires et notamment au Cameroun. En voici deux exemples : (19) (CM_YAO_PRO_02) DAM: on compose du vingt-et-un (0.8) <((ralenti)) au vingt-quatre mai:/> (1.5) DAM: OUI vingt-un vingt-trois mai (0.4) et puis on a: la semaine qui SUIT là (20) (CM_YAO_PRO_02) GAB: oui: au moins// ils ont un-] au moins ils ont une logique [qui se tient jusqu’au bout/ là

40 On remarquera aussi que cette parenthèse droite d’une relative N + qui… là, l’élément sur lequel porte la relative peut être lui-même marqué par là (dans le format le/ mon_N_là) : (21) (CM_DLA_REP_01) JOL: après elle vient me suivre elle me dit que bon: mon gars là qui veut te voir là/ bon dis à ton gars que:

7. Rendements interactionnels

41 Le format le/mon_N_là peut avoir un rendement interactionnel qui a été identifié dans la littérature en termes génériques, en invoquant le marquage d’un common ground : là ferait référence à un élément du savoir partagé et cela lui aurait valu la catégorisation de là « de connivence » (Ludwig & Pfänder, 2003 : 272). Si cette description renvoie à

Corpus, 15 | 2016 94

une intuition globale interprétant le là comme pointant vers la mémoire discursive des interlocuteurs, une description interactionnelle permet de mieux en préciser les enjeux, moins en termes cognitifs qu’en termes de pratiques interactionnelles par lesquelles l’intersubjectivité est constamment travaillée et retravaillée par les interlocuteurs (Schegloff, 1992 ; Drew, 1995, Heritage, 2007).

42 Si l’on se tourne vers des occurrences en interaction, on constate ainsi que le caractère partagé d’un savoir ou d’une référence n’est jamais totalement acquis au fil de l’interaction, mais est constamment vérifié, rappelé, ré-établi, voire établi comme tel lorsqu’il ne va pas de soi pour les interactants (voir p. ex. : Schegloff, 1996 ; Ford & Fox, 1996, à propos de la référence aux personnes). Cela est visible dans des usages de le_N_là dans des environnements où le locuteur est visiblement engagé dans un travail d’établissement du référent et de son caractère reconnaissable. Ce travail s’implémente dans différentes pratiques.

43 Cela peut prendre la forme, par exemple, de recherches de mots, dans lesquelles le locuteur cherche et construit graduellement la bonne formulation : (22) (CM_DLA_REP_01) A: au fait j’ai mon: (.) .h l’ami de mon: (.) mon gars là qui veut te voir là

44 Ici, le locuteur commence la formulation de la personne dont il est question par mon:, dont l’allongement final et la pause successive montrent qu’il y a un problème, suivi non pas du nom projeté mais d’un nouveau syntagme, l’ami de mon:, à nouveau allongé et suivi de pause, finalement suivi de la formulation trouvée, mon gars là, produite sans hésitation et suivie de la continuation du tour.

45 Cela peut aussi prendre la forme d’une recherche de formulation qui est davantage orientée vers l’autre, vers l’interlocuteur – dont la non-réponse éventuelle peut manifester la non-reconnaissance du référent. En voici un exemple : (23) (CM_DLA_REP-01) 1 A: j’ai ma petite copine là 2 (0.4) 3 A: tu connais ma copine là 4 (0.4) 5 A: la nièce de Depuis là/ 6 la plus petite là 7 (0.4) 8 B: ouais 9 A: hum c’est ma copine là-bas/ 10 c’est elle qui

46 Dans ce cas, A mentionne une première fois ma copine là (1). L’interlocutrice ne répond pas (2). A procède par conséquent en vérifiant explicitement son savoir (tu connais 3). Mais B ne répond toujours pas (4). A poursuit en ajoutant des spécifications – toujours sans réponse de l’interlocutrice (6), alors qu’en cette position séquentielle serait attendu un marqueur de changement d’état (comme par exemple ah Heritage, 1984). B ne produit un ouais que plus tardivement (7). Il est significatif que suite à cette réponse, A peut continuer dans la progression de son histoire, en faisant référence cette fois à ma copine là-bas (8) en utilisant un locatif qui est formellement distinct du déictique là (cf. supra). Ici les SN marqués par là sont utilisés dans un environnement où il y a absence de reconnaissance manifestée par le travail de formulation orienté vers cette reconnaissance par le locuteur.

Corpus, 15 | 2016 95

47 Le locuteur peut aussi avoir recours à ces deux pratiques – recherche de mot et recherche d’une formulation qui correspondent au savoir de l’interlocuteur – ensemble, comme ici : (24) (BF_OUA_PRO_01) 1 A: TElecel/ tu- tu connais la chargée 2 de communication non/ 3 (.) 4 B: non/ eh:/ chose- (.) la fille de: 5 Alpha là/ 6 (.) 7 A: Alpha là: 8 B: je la connais pas per(so) c’est 9 beaucoup plus Soufo que 10 je connais:/

48 Dans ce cas, B ne répond pas immédiatement (2) à la question de A mentionnant la chargée de communication (1), tout en s’engageant ensuite dans une recherche du nom de cette personne, accompagnée par là (3). A confirme (5) tout en continuant à s’orienter vers le fait que la référence personnelle n’est pas complètement assurée, comme le montre le là. La réponse finale montre une forme de reconnaissance partielle qui confirme que des problèmes d’identification se posaient précédemment et que les interlocuteurs sont aux prises avec un problème d’établissement graduel de la référence et du savoir partagé.

49 Ainsi, le tour suivant le là peut manifester soit la non-reconnaissance (comme dans les cas précédents), poussant le locuteur à développer et à spécifier la référence, soit la reconnaissance et donc l’existence d’un savoir partagé, comme dans l’extrait suivant : (25) (CM_YAO_REP_02) 1 A: bon (.) c’est quand même à un niveau: 2 (.) c’est [pas comme les bacheLIERS là 3 B: [oui/ c’est:/ c’est pas comme 4 les bacheliers/

50 Dans cet extrait, A utilise le format le_N_là. Son interlocuteur, B, montre qu’il s’oriente vers cette référence comme faisant appel à un savoir commun : il manifeste sa reconnaissance, non seulement par le token oui, non seulement en répétant la même forme (sans là, puisque la référence est maintenant établie comme partagée), mais aussi en le faisant très tôt, en chevauchement.

51 De ce point de vue, le placement d’une réponse en oui/ouais après le format le_N_là est récurrent et montre le même phénomène à l’œuvre : (26) (CI_ABJ_PRO_01) A: va prendre les parents de les amis- euh l- de l’apprenti là B: ouais (27) (SN_DK_AUT_01) A: donc/ (.) si j’ai mis/ jau:ne\ (0.5) j’ai mis parce que: y en a plus là-bas\ (2.8) A: tu as vu les/ couleurs\ (.) là/ B: ouais (28) (CM_YAO_AUT_04) 1 A: dès que je donne la dot là 2 B: ouais 3 A: je leur dis que moi (.) je n’ai

Corpus, 15 | 2016 96

4 plus <((en riant)) l’argent 5 pour le mariage/>

52 Dans ce cas, le fait que l’interlocuteur réponde par ouais juste après le SN suivi de là montre l’orientation des deux participants vers l’établissement du référent. Dans le dernier exemple il est clair que cela est traité comme une condition pour que le récit puisse progresser (3-4).

53 Ce caractère partagé et reconnu du référent rend aussi possibles des énoncés collaboratifs, comme dans les extraits suivants – l’un enregistré au Cameroun, et l’autre au Canada : (29) (CM_YAO_AUT_04) 1 SAM: dès que je je je sais sais que 2 [dès que je (.) je donne] la dot là= 3 LOU: [c’est tout ce qu’elle attend] 4 PAB: =ils sauront que tu as les moyens (30) (CA_NB_REP_04) 1 LEO: tu sais ce qui est plus scary 2 dans les films c’est la musique\ 3 SI y avait pas la musique là: 4 KAT: on aurait pas/ ben peur

54 Dans le premier cas, le caractère partagé de ce dont il est question est visible dans le chevauchement de LOU (3) qui effectue une première complétion collaborative. Mais celle qui nous intéresse est la seconde, par PAB qui enchaîne sur la fin de la ligne 2, exhibant par là que la dot est un référent acquis.

55 L’observation détaillée de là dans son interactionnel permet ainsi de mieux comprendre plusieurs de ses fonctionnements, tel qu’il est non seulement décrit par le linguiste, mais exhibé par le comportement des locuteurs eux-mêmes.

8. Conclusion

56 Cet article a poursuivi un double objectif : d’une part, présenter le projet CIEL et le corpus qui en a résulté, avec une emphase particulière sur les choix effectués dans sa constitution ; d’autre part, proposer un exemple d’analyse exploitant les potentialités comparatives de la base de données, à propos d’une forme polyfonctionnelle du français, là.

57 L’analyse montre l’importance de pouvoir soumettre aux mêmes interrogations des occurrences d’une forme – mais aussi, dans une perspective plus ample, des constructions, des actions, des types de séquences, des types de formats, etc. – dans différentes aires documentées de manière similaire. L’accès à des données similaires pour des aires communicatives différentes permet non seulement d’explorer des similarités et des différences entre variétés ; il permet une forme de symétrie et d’égalité entre ces variétés. Ce dernier point est inédit et permet, par exemple, d’éviter des affirmations telles que ‘tel usage n’existe pas dans telle variété’ aussi bien que ‘tel usage est typique de telle variété’, souvent effectuées en absence de corpus comparatifs permettant de resituer la variété étudiée parmi d’autres. Cela permet par là-même de relativiser à la fois l’‘exotisme’ de certaines variétés et la ‘familiarité’ du français métropolitain : un corpus comparé permet une re-symétrisation et une relativisation des images que les linguistes se font de ces usages. De même, les explorations dans le corpus permettent de nuancer ce qui pourrait être globalement imputé au français ‘en

Corpus, 15 | 2016 97

Afrique’ ou ‘au Canada’ : une base comparée permet de distinguer des tendances entre zones. Ces remarques ouvrent aussi des perspectives et des défis nouveaux, notamment l’intérêt de procéder à des quantifications des occurrences et d’interroger les conditions d’une analyse statistique. Pour cela le corpus CIEL, tout aussi important soit- il, peut ne pas être suffisamment vaste, notamment en ce qui concerne des phénomènes moins fréquents. En outre, la question de la quantification ne devrait pas faire oublier l’importance de bien définir à la fois les phénomènes visés et les phénomènes alternatifs observables dans les mêmes environnements – sans quoi la quantification n’a pas de sens (Schegloff, 1993). Cette exigence naît aussi d’une caractéristique majeure du corpus, qui est de mettre à disposition des environnements interactionnels pour l’étude des phénomènes linguistiques, permettant une analyse qui ne se limite pas à la clause ou au discours mais qui intègre fondamentalement les principes de l’interaction sociale. La variété des formes comme des usages naissent des pratiques des locuteurs et de leurs orientations vers des finalités communicatives spécifiques ; la langue est constamment façonnée et refaçonnée par eux de manière située et ajustée aux conditions interactionnelles. Cela permet, grâce à des données écologiques, documentant des activités sociales telles qu’elles se déroulent de manière routinière dans leur contexte ordinaire, de penser une linguistique qui réponde à la fois aux défis de la description grammaticale, de la caractérisation sociolinguistique et de l’étude de l’organisation séquentielle et temporelle de l’interaction sociale.

BIBLIOGRAPHIE

Barbéris J.-M. (1992). « Un emploi déictique propre à l’oral : le là de clôture », in M.A. Morel & L. Danon-Boileau (éd.) La Deixis. Paris : PUF, 567-578.

Bert M., Bruxelles S., Étienne C., Jouin-Chardon E., Lascar J. & Mondada L. (2010). « Grands corpus et linguistique outillée pour l’étude du français en interaction (plateforme CLAPI et corpus CIEL) », Pratiques 147-148 : 17-34.

Dister A., Gadet F., Ludwig R., Lyche C., Mondada L., Pfänder S., Simon A.C. & Skattum I. (2008). « Deux nouveaux corpus internationaux du français : CIEL-F (Corpus international et écologique de la langue française) et CFA (Français contemporain en Afrique et dans l’Océan Indien) », Revue de linguistique romane 285/286 : 295-314.

Drew P. (1995). « Conversation analysis : the sequential analysis of intersubjectivity in conversation », in J. Smith, R. Harré, L. V. Langenhove & P. Stearns (éd.) Rethinking Psychology. Vol. 2 : Alternative Methodologies. London : Sage.

Ehmer O. & Martinez C. (2014). « Creating a multimodal corpus of spoken world French », in S. Ruhi, M. Haugh, T. Schmidt & K. Wörner (éd.) Best Practices for Spoken Corpora in Linguistic Research, Newcastle : Cambridge Scholars Publishing, 142-161.

Ford C. E. & Fox B. A. (1996). « Interactional motivation for reference formulation : he had. This guy had, a beautiful, thirty-two O:lds », in B. Fox (éd.) Studies in Anaphora. Amsterdam : Benjamins.

Corpus, 15 | 2016 98

Forget D. (1989). « Là : un marqueur de pertinence discursive », Revue québécoise de linguistique 18 (1) : 57-83.

Gadet F., Ludwig R., & Pfänder S. (2009). « Francophonie et typologie des situations », Cahiers de linguistique 34 (1) : 143-162.

Gadet F., Ludwig R., Mondada L., Pfänder S. & Simon A.-C. (2012). « Un grand corpus de français parlé : le CIEL-F Choix épistémologiques et réalisations empiriques », Revue française de linguistique appliquée XVII/1 : 39-54.

Groupe ICOR (2009). « Exploitation de la plateforme CLAPI : Le cas de voilà dans les chevauchements », Cahiers de linguistique 33/2 : 243-268.

Groupe ICOR. (2010). « Grands corpus et linguistique outillée pour l’étude du français en interaction (plateforme CLAPI et corpus CIEL) », Pratiques 147-148 : 17-34.

Gumperz, J. (1982). Discourse Strategies. Cambridge : CUP.

Haugen E. (1972). « The ecology of language », in A. S. Dil (éd.) The Ecology of language : Essays by Einar Haugen. Stanford : Stanford University Press, 325-339.

Heritage H. (2007). « Intersubjectivity and progressivity in person (and place) reference », in N. J. Enfield & S. Levinson (éd.) Person Reference in Interaction : Linguistic, Cultural, and Social Perspectives. Cambridge : Cambridge University Press, 255-280.

Heritage J. C. (1984). « A change-of-state token and aspects of its sequential placement », in J. M. Atkinson & J. Heritage (éd.) Structures of Social Action. Cambridge : Cambridge University Press, 299-345.

Italia M. (2006). « Le morphème là dans les variétés mésolectales et basilectales en français du Gabon », Le français en Afrique 21 : 281-290.

Levinson S. (1979). « Activity types and language », Linguistics 17 : 365-399.

Ludwig R. & Pfänder S. (2003). « La particule là/la en français oral et en créole caribéen : grammaticalisation et contact de langues », in S. Kriegel et al. (éd.) Grammaticalisation et analyse. Approches de la variation créole et française. Paris : Éditions CNRS, 269-284.

Ludwig R., Mühlhäusler P. & Pagel S. (éd.) (in press). Linguistic Ecology and Language Contact. Cambridge : Cambridge University Press.

Mondada L. (2007). « Multimodal resources for turn-taking : Pointing and the emergence of possible next speakers », Discourse Studies 9, 2 : 195-226.

Mondada L. (2011). « Exigences analytiques pour l’enregistrement de la parole-en-interaction », Version 3.0.2. http://cielf.org/assets/files/Enregistrer_protocole_Mondada.pdf (consulté le 18.2.2015).

Mondada L. (2012). « The conversation analytic approach to data collection », in J. Sidnell & T. Stivers (éd.) Handbook of Conversation Analysis. Oxford : Blackwell-Wiley.

Mondada L. (2013). « Displaying, contesting, and negotiating epistemic authorities in social interaction », Discourse Studies 15 : 597-626.

Mondada L. (à paraître). « Conversation analysis », in E. Weigand (éd.) Language and Dialogue : A Handbook of Key Issues in the Field.

Ngamountsika, E. (2012). « Analyse morphosyntaxique du morphème là en français parlé en République du Congo », Revue du français en Afrique, 189-199.

Corpus, 15 | 2016 99

Ochs E. (1979). « Transcription as theory », in E. Ochs & B. Schiefflin (éd.) Developmmental Pragmatics. New York : Academic Press.

Pfänder S. & Skrovec M. (2011). « Donc, entre grammaire et discours. Pour une reprise de la recherche sur les universaux de la langue parlée à partir de nouveaux corpus », in M. Drescher & I. Neumann-Holzschuh (éd.) Syntaxe de l’oral dans les variétés non hexagonales du français. Tübingen : Stauffenburg Verlag.

Ploog K. (2006). « Du continuum pragmatico-sémantique aux caractéristiques prosodiques de là en français abidjanais », Le français en Afrique 21 : 303-323.

Queffélec A. et al. (1997). Le français en Centrafrique : Lexique et société. Paris : Vanves-Edicef.

Sacks H. (1972). « An initial investigation of the usability of conversational materials for doing sociology », in D. Sudnow (éd.) Studies in Social Interaction. New York : Free Press, 31-74.

Schegloff E. A. (1992). « Repair after next turn : the last structurally provided for place for the defence of intersubjectivity in conversation », American Journal of Sociology 95 (5) : 1295-1345.

Schegloff E. A. (1993). « Reflections on quantification in the study of conversation », Research on Language and Social Interaction 26 (1) : 99-128.

Schegloff E. A. (1996). « Some practices for referring to persons in talk-in-interaction : a partial sketch of a systematics », in B. Fox (éd.) Studies in Anaphora. Amsterdam : Benjamins, 437-485.

Simon A. C., Gadet F., Ludwig R., Mondada L., Pfänder S. & Skrovec, M. (2012). Conventions de transcription CIEL-F, Version 4.7. http://ciel-f.org/assets/files/conventions_ciel-f.pdf (consulté le 18.2.2015).

Skrovec M. & Pfänder S. (2012). « Rhétorique ordinaire et tâches communicatives : convergences et divergences dans des entretiens médiatisés d’experts africains et français », Le français en Afrique, 93-107.

Vincent D. (1981). « C’est ici ou là ? C’est ici là », in D. Sankoff & H. Cedergren (dir.) Variation Omnibus. Edmonton : Linguistic Research Inc., 437-444.

Wiesmath R. (2003). « La particule là dans le parler acadien du Nouveau-Brunswick / Canada », in S. Kriegel (éd.) Grammaticalisation et réanalyse. Approches de la variation créole et française. Paris : Éditions CNRS, 284-302.

NOTES

1. http://www.projet-pfc.net 2. http://www.lll.cnrs.fr/eslo-1 3. http://clapi.ish-lyon.cnrs.fr 4. http://www.uclouvain.be/81834.html 5. http://www.ciel-f.org 6. Co-financement par l’ANR en France (ANR-08-FASHS-004) et la DFG en Allemagne (2009-2012 ; Pf 699/1-1 ; Lu 529/3-1). 7. http://clapi.ish-lyon.cnrs.fr 8. http://moca.phil2.uni-freiburg.de et http://www.uclouvain.be/260466.html 9. Les collaborateurs sont mentionnés dans le site du projet : http://www.ciel-f.org/qui. Sans eux le corpus dans sa richesse et sa diversité n’aurait pas pu voir le jour. 10. http://www.fon.hum.uva.nl/praat/ 11. Ces chiffres renvoient à l’année 2014, voir http://clapi.ish-lyon.cnrs.fr consulté le 18.2.2015.

Corpus, 15 | 2016 100

12. Voir http://moca.phil2.uni-freiburg.de.

RÉSUMÉS

Cet article présente le travail de constitution du Corpus International Écologique de la Langue Française (CIEL-F) et ses caractéristiques. Conçu pour mettre à disposition des corpus de données interactionnelles récoltées dans des contextes ordinaires, professionnels et institutionnels authentiques, et afin de promouvoir la recherche comparée sur le français parlé, le corpus CIEL-F comporte des enregistrements effectués en Algérie, Antilles françaises, Belgique, Burkina Faso, Cameroun, Canada, Congo, Côte d’Ivoire, Egypte, France, Inde, La Réunion, Maurice, Sénégal, Suisse et Togo. Dans la première partie, l’article présente les défis et les enjeux de ce type de corpus. Dans la deuxième partie, l’article offre un exemple d’exploitation de ces données, en se penchant sur différents usages de là, allant de l’emploi déictique locatif à des emplois qui relèvent davantage de la particule discursive grammaticalisée. L’analyse propose quelques remarques sur la distribution de ces emplois de là dans différentes aires communicatives et des réflexions sur les possibilités ouvertes par une approche comparative au sein du français parlé dans le monde.

This paper describes the conception and constitution of the International Ecological Corpus of French (Corpus International Écologique de la Langue Française CIEL-F). This corpus has been gathered and set up in a data bank in order to make available to the scientific community interactional data collected in ordinary, professional and institutional contexts. The aim is to make possible and promote comparative analysis of spoken French. Data were recorded in Algeria, the French Antillean islands, Belgium, Burkina Faso, Cameroun, Canada, Congo, Ivory Cost, Egypt, France, India, La Réunion, Maurice, Senegal, and Togo. In the first part of the article, we present the issues and challenges of such a corpus. In the second part of the article, we offer an example of exploitation of the data bank. More particularly, we study some usages of the form là, which can be used as a locative deictic but also in more metaphorical way as well as a fully grammaticalized discourse particle. The analysis shows the way different usages are distributed in various communicative areas and proposes some thoughts about possibilities and limitations of comparative analyses of French as it is talked across the world.

INDEX

Mots-clés : français parlé, corpus, enregistrement, écologie, interaction sociale, analyse comparée, là, deixis, particule discursive, grammaticalisation Keywords : spoken french, corpus, recording, ecology, social interaction, comparative analysis, là, deixis, discourse particle, grammaticalization

AUTEURS

LORENZA MONDADA UMR ICAR Lyon & Université de Bâle

Corpus, 15 | 2016 101

STEFAN PFÄNDER Université de Freiburg-im-Breisgau

Corpus, 15 | 2016 102

CLAPI, une base de données multimodale pour la parole en interaction : apports et dilemmes CLAPI, a multimodal database for talk in interaction: contributions and dilemmas

H. Baldauf-Quilliatre, I. Colón de Carvajal, C. Etienne, E. Jouin-Chardon, S. Teston-Bonnard et V. Traverso

1 Il est intéressant et possible, aujourd’hui, de mettre en perspective l’évolution des bases de données de langues parlées en France au cours des trente dernières années. Dans cet article, nous présentons le développement de la base de données CLAPI dans ce cadre. Nous détaillons les deux composantes de CLAPI, l’archive de corpus de langue parlée en interaction, audio et vidéo, enregistrés dans des situations sociales naturelles variées, et la plateforme d’outils. Nous montrons aussi comment la base peut être utilisée pour des études de linguistique interactionnelle à travers l’étude de « oh là là » et des usages de « trop » dans des contextes variés. Au cours de cette présentation, nous formulons quelques-uns des dilemmes auxquels nous sommes aujourd’hui confrontés dans les relations entre la poursuite des recherches sur des corpus variés (et parfois sensibles) et les exigences des bases de données ouvertes.

1. La base CLAPI et son contexte

2 La base de données CLAPI, Corpus de LAngue Parlée en Interaction a été lancée, à la fin des années 90, pour archiver et préserver les corpus qui étaient régulièrement faits dans le cadre des recherches sur l’interaction au laboratoire ICAR. Dès l’origine (1998-1999), la base a été pensée avec un triple objectif, qu’elle conserve toujours aujourd’hui (voir Bruxelles & Traverso, 2003). Elle s’est transformée au fil du temps pour devenir une plateforme outillée.

Corpus, 15 | 2016 103

1.1 Objectifs de la base CLAPI

1.1.1 Une dimension « Patrimoine »

3 Sur ce plan, le développement et l’évolution de la base de données CLAPI sont représentatifs de la situation générale à au moins deux niveaux.

4 D’une part sur le plan de la réalisation d’une banque de données sauvegardant et mettant à disposition les corpus existants. Cet objectif a impliqué un important travail de recensement et de localisation des données, du fait qu’elles n’étaient jusque-là pas centralisées ni rendues disponibles à la fin d’une recherche. Les choses ont bien changé, depuis, des routines se sont mises en place, et la base héberge les corpus qui sont régulièrement réalisés, selon des standards qui ont été élaborés au cours du temps (voir ci-dessous). Ce processus est symptomatique des évolutions qui ont eu lieu au cours de la vingtaine d’années écoulée depuis le début de la conception de la base CLAPI. L’importance accordée aux corpus dans le champ scientifique (comme en témoignent les programmes de l’ANR qui y ont été consacrés) s’est démultipliée. Parmi les conséquences de cette évolution : l’attention plus grande portée à la collecte des données primaires et à la confection des corpus (transcription, organisation, etc., voir le site CORINTE1), la mise en place progressive de standards dans les manières de faire non seulement en informatique, avec le développement de la TEI au niveau international, par exemple, mais dans toutes les procédures conduisant à la réalisation des corpus (filmage, numérisation, transcription, etc.). L’archive de la base CLAPI conserve des traces de ce cheminement, avec des corpus historiques, et des corpus récents réalisés selon ces nouveaux standards.

5 D’autre part, les données hébergées dans CLAPI illustrent une très importante partie de l’histoire et du développement du champ d’analyse de l’interaction en France (voir Traverso, 2012b, Traverso et al., 2012). Sont ainsi hébergés des corpus qui ont été réalisés par des chercheurs comme Bange, de Gaulmyn, Cosnier, Kerbrat-Orecchioni, Plantin, Bruxelles, Traverso, Grosjean, Mondada.

6 La constitution de l’importante archive de CLAPI (environ 600 heures) a impliqué un conséquent travail de sélection (selon des critères de qualité et juridiques) et d’organisation des données, comme la définition des entités « corpus », « interactions », « fonds », l’organisation des données primaires et des données secondaires, etc. (voir Balthasar & Bert, 2005). Sur le plan technique, cette réalisation a nécessité un important travail de numérisation (avec les choix techniques que cela entraîne) pour les enregistrements audio ou vidéo, qui existaient sur des supports extrêmement variés, aussi bien que pour les documents papier (données secondaires).

7 Un des problèmes majeurs qui s’est posé dans cette période concerne l’hétérogénéité des transcriptions, qui tenait à différents facteurs : l’utilisation de différentes conventions de transcription, la transcription partielle de certains phénomènes, de certains passages, les différents niveaux de granularité attestés, l’utilisation de différents logiciels de transcription (principalement CLAN, Praat et ELAN). La solution retenue conserve la transcription d’origine sans retranscription, dans le respect du travail effectué par le transcripteur, mais opère des modifications mineures qui sont consignées dans une version de la transcription « adaptée clapi », afin de résoudre des problèmes techniques comme l’utilisation d’un même signe pour des annotations différentes. Une procédure informatique transforme les annotations en balisages XML

Corpus, 15 | 2016 104

qui sont utilisés par les outils de CLAPI pour traiter toutes les transcriptions quelle que soit leur convention, leur niveau de granularité ou leur format d’origine. Notre solution repose pour cela sur un processus qualité semi-automatique dans lequel l’équipe médiathèque intervient pour identifier et vérifier la convention fournie par le responsable puis détecter et corriger les anomalies. Ceci garantit la qualité des transcriptions présentes à ce jour dans la base, même si le volume actuel ne permet pas de corriger toutes les erreurs. Le responsable de corpus valide le choix des métadonnées et l’affichage des transcriptions avant que l’ensemble soit rendu disponible dans CLAPI.

1.1.2 Une dimension « Partage »

8 Sur ce plan, CLAPI entend faciliter la réalisation de recherches dans le domaine de l’interaction ou d’autres approches en linguistique en permettant aux chercheurs d’accéder à des données « toutes faites ». La mise à disposition des corpus s’accompagne : – des descripteurs (75 métadonnées) ; – du signal audio ou vidéo : en totalité, parfois uniquement l’audio pour des raisons de droit, et d’autres fois seulement des extraits ; – des transcriptions : une transcription selon les principes de l’analyse conversationnelle à partir de laquelle on peut générer une transcription orthographique pour d’autres usages, dans différents formats ; – d’un ensemble d’outils d’analyse et de requête.

1.1.3 Une dimension « Recherche »

9 La réalisation de la base CLAPI et la mise à disposition des données ont été pensées pour soutenir les analyses interactionnelles, qu’il s’agisse d’étudier la langue dans ses usages en interaction, ou plus conformément aux exigences de l’analyse conversationnelle, les configurations multi-ressources multimodales que les participants mettent en place dans leurs échanges. CLAPI, dans sa dimension de banque de données (archive) constitue un grand corpus permettant d’avancer sur la recherche des récurrences dans les organisations interactionnelles et, à partir de là, de constituer des collections (manière d’articuler le qualitatif au quantitatif).

1.2 CLAPI aujourd’hui

10 Dès sa conception, la base de données a présenté un certain nombre de caractéristiques qui marquent encore aujourd’hui sa spécificité parmi les bases existantes. C’est une base consacrée à la parole en interaction et non simplement au français parlé. Ceci conduit à accorder une attention très spécifique à la situation sociale dans laquelle les données sont collectées, ce qui a également pour conséquence : – la très grande variété de situations sociales représentées dans la base (réunions de travail dans différents cadres, interactions de service, interactions en site commercial, visites privées, repas familiaux et amicaux, visites guidées, consultations médicales, appels téléphoniques privés et professionnels, situations de classe : travaux pratiques, conversations en ligne, etc.) ;

Corpus, 15 | 2016 105

– le fait que les données hébergées dans la base sont très majoritairement des « données naturelles ». On désigne par cette expression le fait que les données ne sont pas produites pour le chercheur ni dans une situation construite par le chercheur (Potter, 2006). La plupart des données de CLAPI sont des enregistrements d’interactions se déroulant dans leur milieu habituel et pour leurs raisons habituelles propres aux participants. On peut souligner que cette « naturalité » distingue les données de CLAPI de la plupart des données orales que l’on trouve le plus souvent dans les bases de données, et qui sont provoquées ou obtenues par élicitation (p. ex. : des entretiens2). La différence entre les deux est particulièrement signifiante pour les situations de travail. Parler de naturalité n’implique pas que l’on considère que le protocole d’enregistrement n’a aucun impact sur les comportements des participants (voir Colón de Carvajal et al., à paraître, Laurier & Philo, 2006). Toutefois, et malgré la présence de la caméra et son impact, les données naturelles sont irremplaçables pour étudier les processus interactionnels en situation.

11 Les données hébergées dans CLAPI, originellement audio, sont aujourd’hui de plus en plus souvent vidéo.

12 Outre les données qui ont été collectées par les chercheurs du laboratoire ICAR, CLAPI héberge des données d’interactions confectionnées par d’autres équipes de recherche, et dont le processus d’intégration dans la base (métadonnées, transcriptions, accès, etc.) est discuté avec les auteurs. Sont actuellement hébergés : les Cahiers du français des années 80 (M.-A. Mochet), un Fonds Bielefeld (E. Gülich), le Corpus Grenouille (H. Jisa), le Corpus Étudiants (M. Savelli), le Corpus Entretiens avec des jeunes écoliers (J.-M. Colletta), etc.

1.2.1 L’organisation

13 La base de données CLAPI est une base de données multimédia au sens fort. L’organisation des données qu’elle contient est conçue de telle sorte que, pour chaque corpus (qui correspond à un seul enregistrement dans le cas le plus simple), il est possible d’accéder à l’ensemble des éléments documentant ce corpus : le signal audio et vidéo par streaming ou téléchargement, la transcription des données, les conventions de transcriptions, les autres données primaires (documents récupérés sur le terrain), et les métadonnées (voir Figure 1). L’ensemble de ces éléments est accessible aussi bien à partir de la fonction « feuilleter les corpus » qu’à partir des résultats d’une requête effectuée à l’aide d’un des outils de la plateforme.

14 Cas simple : un corpus, une situation, une interaction.

Corpus, 15 | 2016 106

Figure 1. Données et métadonnées

15 Les cas plus complexes sont ceux dans lesquels le corpus comprend plusieurs enregistrements, ou comporte plusieurs transcriptions (le choix ayant été fait de proposer différentes transcriptions dans différents formats pour un même enregistrement). L’architecture est alors la suivante (Figure 2) :

Figure 2. Architecture

1.2.2 Les outils

16 L’analyse des interactions repose sur l’étude fine de phénomènes dans une approche résolument qualitative ; les outils de CLAPI permettent d’introduire une dimension quantitative (décompte de phénomènes) qui peut conduire à formuler de nouvelles hypothèses de recherche et sont ainsi une aide pour construire un objet d’étude complexe.

17 La palette d’outils mise à la disposition des usagers est une aide pour approcher un phénomène donné, qu’ils pourront aborder à partir des repérages automatiques, puis en retournant systématiquement au détail des attestations transcrites, à l’écoute ou à la visualisation de l’enregistrement, voire aux métadonnées (cf. ci-dessus).

Corpus, 15 | 2016 107

18 L’interface est disponible, depuis 2013, en langue anglaise pour permettre aux chercheurs étrangers de disposer de collections de données en français qu’ils pourront néanmoins sélectionner dans leur langue.

19 Le développement de ces outils a nécessité un travail préalable sur l’orthographe utilisée dans les transcriptions. Les transcriptions originales sont en effet le plus souvent réalisées en orthographe adaptée (voir les conventions ICOR3), c’est-à-dire cherchant à reproduire à l’écrit certains aspects de la prononciation (par exemple, `fin et non enfin, b`jour et non bonjour), un outil a été développé pour reconstruire (et permettre de travailler sur) la « forme étendue » afin de retrouver l’ensemble des attestations. Le même outil permet de générer une transcription orthographique standard des corpus.

20 Les autres outils développés sont les suivants : – Un outil de concordance permet de retrouver un token dans toute la base ou dans un sous-ensemble de corpus (à partir de filtres sur la nature du signal, audio ou vidéo, et sur le nombre de locuteurs) ; – Une série d’outils automatiques produisent des résultats quantitatifs à partir d’un point d’entrée qui peut être un mot, une transcription ou un phénomène interactionnel. Ils comprennent : • le lexique d’une transcription, par fréquence ou par ordre alphabétique ; • les co-occurrences d’un mot dans toute la base ou dans un sous-ensemble de corpus, c’est-à- dire les mots les plus fréquents dans le voisinage gauche ou droit du mot cible ; • les co-occurrences d’un phénomène interactionnel. Les phénomènes traités sont les chevauchements (avec la distinction chevauchant/chevauché), les pauses (courtes/ longues), l’emplacement dans le tour de parole, les tours courts ; • les contextes d’emploi d’un mot : les emplois les plus fréquents du mot cible en fonction de sa position dans le tour (seul, en première position dans le tour, en début de tour, en dernière position dans le tour, en fin de tour, dans les tours courts), de sa production en chevauchement ou non (début de segment chevauchant ou chevauché), de sa localisation par rapport aux pauses, etc. ; • les répétitions dans une transcription, qu’il s’agisse d’auto-répétitions ou d’hétéro- répétitions. L’outil identifie les segments les plus répétés, par fréquence et par taille, dans la transcription complète ou par locuteur. - Un outil de requêtes multicritères associe le lexique, les caractéristiques interactionnelles et les métadonnées. Il permet au chercheur de définir lui-même son objet d’étude qui peut correspondre à : • une expression composée d’une suite de mots, à une certaine distance, dans le même tour ou dans une suite de tours de parole ; • à une certaine position du tour de parole (n tokens du début ou de la fin du tour), dans des tours de parole d’une longueur donnée (plus de/moins de n tokens) ; • avant ou après une pause, courte et/ou longue ; • en début de segment chevauchant/chevauché ; • dans des interactions sélectionnées à partir des critères : audio/vidéo ; nombre de locuteurs ; type d’activité situations ; locuteurs natifs ou non natifs ; sexe ; tranche d’âge ; ou par un locuteur donné (si un sous-ensemble de corpus a été sélectionné).

21 Les résultats des requêtes effectuées avec ces outils permettent de retourner à l’ensemble des informations présentées au paragraphe 1) ci-dessus. Ils donnent en outre la possibilité d’accéder pour chaque extrait, à une version « détaillée »

Corpus, 15 | 2016 108

(transcription fine) ou « simplifiée » (transcription orthographique), ainsi qu’à une version imprimable qui permet de copier/coller un passage dans un autre document.

1.2.3 Quelques données chiffrées

22 CLAPI comprend, à ce jour (mars 2015), 65 corpus correspondant à 370 situations interactionnelles, soit 225 heures de données et 650 transcriptions, les transcriptions alignées étant disponibles dans plusieurs formats. Parmi ces données, 45 heures sont téléchargeables sans condition d’accès, et 65 heures, soit 150 situations, sont requêtables par les outils décrits ci-dessus.

23 Les consultations représentent environ 10 000 accès par mois, en excluant la page d’accueil ou les requêtes qui ne sont pas formulées jusqu’au bout par l’utilisateur. On peut détailler parmi ces accès : 30 % de consultation des métadonnées ; 30 % de téléchargement des enregistrements et des transcriptions mais aussi des conventions de transcription ; 20 % d’utilisation des outils et 10 % de streaming des enregistrements. Les outils les plus utilisés restent les concordances (30 %) et les requêtes multicritères (30 %), les outils automatiques se partagent les 40 % restant, sans préférence marquée pour l’un d’entre eux.

1.2.4 Les autres sites en relation directe avec CLAPI

24 La base met à disposition un espace de travail (de type « bac à sable ») pour les corpus en cours d’exploitation (projets, thèses, etc.) qui donne accès à l’ensemble des outils d’analyse et de requête de la base tout en nécessitant un jeu restreint de descripteurs. L’enjeu est aussi de favoriser le dépôt depuis cet espace vers la banque de données, à la fin des projets ou des thèses.

25 CLAPI est associé avec le site CORINTE (CORpus d’INTEractions)4 qui est dédié à la méthodologie et aux aspects analytiques de la linguistique interactionnelle, explicitant toute la chaîne de production des corpus, les questions juridiques et les principes d’analyse, et mettant différents documents à la disposition des utilisateurs (p. ex. : autorisations, consentement éclairé, etc.).

26 La base est également associée avec le site CORVIS (CORpus de VIdéos Situées)5 qui recense les usages de la vidéo en sciences humaines et sociales, en vue de la constitution de corpus pour l’étude des pratiques sociales, culturelles, linguistiques dans leurs contextes ordinaires, professionnels et institutionnels. Le site rassemble de nombreuses informations pour la réalisation et le traitement des vidéos.

2. Évolutions majeures

27 La base de données a évolué sur tous les plans au fil du temps. Nous ne reprenons que les éléments majeurs, qui sont aussi l’occasion d’évoquer les problèmes et les dilemmes qui se posent.

Corpus, 15 | 2016 109

2.1 Alimentation et enrichissement de la base : les nouveaux corpus vidéo

28 Comme nous l’avons dit ci-dessus, les nouvelles données sont réalisées à partir de standards qui ont été établis au fil du temps (cf. les sites CORINTE et CORVIS). La chaîne de production des corpus est intégrée dans le cursus de formation des étudiants de sciences du langage : réalisation des terrains, filmage (prise de vue, conception), transcription outillée (CLAN, Praat, Transicor, ELAN). Ceci permet à la base CLAPI de mettre à la disposition des chercheurs des enregistrements vidéo, le plus souvent multivue, d’excellente qualité, qui sont propices à l’étude de phénomènes interactionnels multimodaux les plus divers (voir Mondada, 2006). Ces évolutions inestimables pour la recherche (en termes de variété de données, de qualité du signal vidéo et audio, et de démultiplication des phénomènes rendus étudiables parce qu’accessibles) ne vont pas sans poser des problèmes et nous confronter à des dilemmes.

29 Par exemple, le nombre des tâches liées à la mise en forme et à la mise en ligne d’un corpus augmente en parallèle. En plus des tâches de numérisation (i. e. le transfert du format natif de la caméra vers un format qui soit interopérable entre players et systèmes d’exploitation, et compressé sur ordinateur), apparaît celle de synchroniser les sources. En effet, pour favoriser une lecture complète des données multivue sur CLAPI, les différentes vues enregistrées (et les sources audio additionnelles, s’il y en a) sont synchronisées en une seule vidéo à l’aide de logiciels professionnels (FinalCut Pro). Ceci permet également au chercheur d’activer à l’écoute une source audio plutôt qu’une autre (de meilleure qualité ou de meilleur volume sonore). Cette multiplication des sources (audio et vidéo) pose des problèmes liés au poids et au volume des données à archiver. Tout l’ensemble du processus pour une valorisation optimale des données nécessite au final de plus en plus de tâches, de plus en plus techniques (transfert, compression et synchronisation des données) et, en conséquence, une augmentation en effectif humain et en recherche continue de financement.

30 Un des aspects non résolus de ce dilemme concerne les dimensions multimodales. Les travaux menés dans l’équipe LIS du laboratoire ICAR intègrent de façon aujourd’hui systématique la multimodalité (cf., entre autres, Mondada, 2006, 2007, 2012 ; Groupe ICOR, 2014 ; Traverso 2011, 2012a, 2014 ; Ticca & Traverso, à paraître ; Baldauf- Quilliatre, 2014a et b ; Colón de Carvajal, 2013). Les analyses réalisées sont possibles grâce à la qualité des données collectées. Ces données sont hébergées dans la base (ou dans l’espace de travail privé de CLAPI), mais elles ne sont pas annotées multimodalement. La réalisation d’une analyse multimodale implique de suivre la démarche présentée dans ICOR 2014, que l’on peut résumer ainsi : Parcours de la base, requête, résultats de la requête -> établissement de la collection (par sélection) et classement Retour aux données (signal) -> nouveau travail sur la transcription en fonction des besoins de la recherche (granularité, annotations multimodales pertinentes pour l’analyse) -> analyse multimodale

31 Les questions qui se posent concernent d’une part la pertinence de poursuivre la réalisation d’aussi nombreux nouveaux corpus (notamment dans le cadre de la formation), sachant qu’il n’est pas possible de les traiter, transcrire et intégrer (ni en totalité ni rapidement) dans la base de données. L’autre question est celle de la

Corpus, 15 | 2016 110

pertinence de réaliser une annotation multimodale des données dans CLAPI, qui ne pourrait de toute façon que porter sur un très petit nombre de données (comparativement à ce que la base met à disposition), et sur un ensemble très restreint de phénomènes par rapport à ceux que l’analyse interactionnelle fait jouer. Ces questions continuent à être en discussion dans l’équipe de gestion de CLAPI.

2.2 Les dimensions juridiques

32 Il y a une vingtaine d’années, le recueil de données audio était réalisé le plus souvent sans précaution particulière. Depuis, l’obtention du consentement des personnes enregistrées est devenue une étape indispensable avant toute prise de données. Ce changement s’explique notamment par l’usage de la vidéo, qui fait apparaître les visages en plus des voix, et par le développement des bases de données de corpus en ligne, qui favorise la diffusion de ces images. L’enregistrement, l’exploitation et la diffusion des données audiovisuelles illustrant des situations d’interaction ordinaires de la vie quotidienne posent des questions de droit des personnes enregistrées (droit à la vie privée et droit à l’image), et des questions d’éthique relatives à la diffusion des données enregistrées. Après la collaboration du groupe ICOR aux réflexions collectives qui ont mené à la publication du guide des bonnes pratiques (Baude, éd., 2006), le travail effectué en 2009 avec les services juridiques du CNRS a permis de rendre CLAPI conforme aux évolutions de la réglementation en matière de protection des données dites « à caractère personnel ».

33 Un des changements qui en découle est la mise en place de Conditions générales d’utilisation (CGU), explicitant la restriction de l’utilisation des données à des fins de recherche et d’enseignement, qui doivent être acceptées (de manière électronique) pour toute consultation des corpus.

34 La question de la diffusion des données de la recherche est plus que jamais au cœur des préoccupations de la communauté des SHS. Les initiatives locales sont nombreuses autour de ces questions pour tenter d’en définir les contours et de trouver des solutions. Mais il importe qu’elles soient traitées à l’échelle nationale pour aboutir à des directives communes et à l’harmonisation des pratiques. C’est ce que l’on attend des travaux du consortium IRCOM ou du réseau des MSH, auxquels le groupe ICOR contribue, ainsi que des infrastructures en réseau, comme ORTOLANG, qui proposent des services mutualisés d’archive pérenne de données et de diffusion à grande échelle.

35 Globalement, la tendance actuelle est à l’ouverture de plus en plus importante des données de la recherche. Cette évolution est une conséquence logique de la mise en place des bases de données, tout à fait positive sur le plan du rayonnement de la recherche et de la qualité des données. Elle pose en retour quelques problèmes, par exemple celui de décider si l’on doit continuer à confectionner des corpus auxquels l’accès sera toujours restreint (p. ex. : corpus en milieu médical). C’est à nouveau tout l’équilibre entre force de travail, coût, reconnaissance et diffusion qui se trouve posé, des positions trop radicales en la matière risquant d’avoir un effet appauvrissant sur la diversité des domaines étudiés.

Corpus, 15 | 2016 111

2.3 Les interopérabilités

36 Sur ce plan également, le panorama n’a cessé d’évoluer au cours des quinze dernières années.

37 Un premier besoin d’interopérabilité bilatérale a émergé dans les projets comprenant plusieurs bases de données pour échanger les métadonnées et les transcriptions, voire accueillir les corpus dans les différentes bases afin de bénéficier d’une plus grande variété d’outils d’exploration ou de requêtes. CLAPI a ainsi développé une plateforme CLAPI-TALKBANK dédiée aux corpus d’Analyse conversationnelle de la TALKBANK6 en anglais et en danois, basée sur le format XML de la TALKBANK. Ce type d’interopérabilité implique un suivi permanent pour s’assurer qu’un changement effectué dans une des bases ne fasse pas barrière à l’interopérabilité. Chacune des bases étant en évolution constante, cette solution ne peut pas être maintenue à moyen terme.

38 Pour éviter de multiplier des formats pivots voués assez vite à devenir obsolètes, CLAPI a proposé, dès 2006, un export de ses descripteurs et de ses transcriptions en format TEI7. Ce recours au format TEI a été exploité par la suite dans l’ANR franco-allemande CIEL-F8 « Corpus international écologique de langue française ». Il a permis l’échange d’une collection de métadonnées entre les bases MOCA et CLAPI (les transcriptions sont en Praat), et une plateforme CLAPI-CIELF est en cours de finalisation proposant la palette d’outils de CLAPI pour explorer les corpus de CIEL-F.

39 Une réflexion plus générale a été initiée dans le groupe de travail « Interopérabilité » (coord. C. Étienne, ICAR, C. Parisse, Modyco), au sein de l’infrastructure de recherche IRCOM9 dédiée à l’étude des Corpus oraux et multimodaux en partenariat avec l’équipex ORTOLANG10. Ce groupe participe aux discussions du groupe européen ISO-TEI pour proposer des évolutions dans la norme adaptées aux spécificités de l’oral. Ses objectifs sont de convenir d’un jeu raisonnable de métadonnées indispensables à tout travail de recherche ainsi que d’un format commun de transcriptions pour permettre aux chercheurs de travailler sur une plus grande quantité de données, quels que soient leur base d’origine, leur structure initiale et le format de leur transcription. Cette initiative a été enrichie par les besoins d’homogénéisation des corpus oraux du projet ANR ORFEO11 « Outils et ressources pour le français écrit et oral ». Il est clair aujourd’hui que l’interopérabilité ne peut être traitée au sein d’un seul laboratoire et que c’est collectivement que l’on peut proposer des solutions s’adaptant à la variété des données du paysage de l’oral.

3. Quelques exemples de recherche

40 Nous présentons succinctement deux exemples de recherches qui ont été effectuées pour illustrer des usages possibles des outils proposés par CLAPI. Le premier exemple illustre le travail de mise en relation des données et des métadonnées pour l’analyse et le second, la façon dont la base de données peut permettre de travailler sur la multimodalité.

3.1 Trop : articulation données et métadonnées

41 À la suite du travail d’O. Daumeries dans un dossier de Master 2, nous avons repris l’analyse des usages de « trop », en posant qu’il existait un glissement de son sens

Corpus, 15 | 2016 112

« originel » dénotant l’excès (« c’est trop haut pour que je l’attrape peux-tu m’aider ») jusqu’au sens de simple intensif « c’est trop beau ». Nous avons sélectionné les corpus en fonction de la langue des locuteurs, en excluant les interactions dans lesquelles intervenaient des locuteurs non natifs, et n’avons sélectionné que les corpus enregistrés en France (par l’examen de la liste des corpus, ou à travers les métadonnées).

42 Au total, nous avons retenu 24 corpus (cf. le tableau en annexe). L’étude des occurrences de « trop » fait apparaître d’emblée que la simple opposition « intensité » vs « excès » n’est pas suffisante pour la description. Nous relevons les emplois suivants.

3.1.1 Emploi « trop = excès »

43 On peut distinguer ici plusieurs sous-catégories. - Les emplois « classiques » : (1) CEC : ça a été un peu trop assimilé à mon avis à la loi Pasqua qui est plus la fermeture (Débat sur l’immigration) (2) EF : est-ce que vous trouvez que par exemple à la télévision justement euh on parle trop de: enfin de mort (Cahiers du Français des années 80) (3) Y : mais c`t après-midi là: tu vois j` su- j` suis descendu en ville t`t à l’heure en milieu d’après-midi (.) j’avais même chaud (.) j’étais euh: trop habillé tu vois (Conversations familières, Navye) - Les emplois classiques qui correspondent à la négation ou à la remise en question de la notion d’excès : (4) C5 : vous avez pas trop froid en vélo (Interactions pendant la tournée des facteurs) (5) Ap6 : tout tout juste en espérant qu’il n’y a pas trop d` trafic hein ça va dev`nir la mauvaise heure hein non/ (Téléphone en entreprise) - Cas de « de trop »

44 On trouve deux occurrences de « de trop »12 dans la base de données : (6) FA17 : bon il faut pas qu’il en fasse de trop non plus (Enquête de sociologie urbaine - paris marais)

3.1.2 « Trop » emploi intensif au sens de « très », « tellement », « beaucoup »

45 Le TLFI rappelle que ces emplois sont attestés depuis longtemps dans certains contextes : - les formules de politesse, comme « vous êtes trop aimable, trop bon, etc. » ; - dans des tours hypocoristiques, par exemple : « Ils se retiraient sur la pointe des pieds en murmurant que j’étais trop mignon, que c’était trop charmant » (Sartre, Les Mots, 1964, p. 119). - et dans des phrases exprimant une appréciation subjective, exemple : « Ah ! non c’est trop drôle ! Ah ! ah ! ah ! » (Feydeau, La Dame de chez Maxim, 1914, II, 8, p. 48). (7) ELI : ça m’a trop peinée (0.2) franchement (Repas Kiwi) (8) FLO : c’est trop bon ça mh::\ (Repas Olives)

46 Sur cette base, la mise en parallèle des occurrences et des métadonnées nous permet de faire les observations suivantes.

Corpus, 15 | 2016 113

3.1.3 Âges des locuteurs et époque d’enregistrement

47 L’époque d’enregistrement est indéniablement pertinente. Par exemple dans les corpus de conversations familières enregistrées entre 1985 et 1990, il n’y a qu’une seule occurrence de l’emploi de « trop » au sens de « très » : (9) A : c’est vraiment trop drôle parce qu’y a un moment où Mozart est occupé/ (.) alors y a quelqu’un qui dit he is busy (Conversations familières, Navye)

48 Et l’on peut noter qu’il s’agit d’un usage répertorié dans le TLFI. Dans les corpus correspondant aux mêmes situations qui ont été enregistrés en 2008 (Épinards, Kiwi, Olives), ces emplois sont largement supérieurs aux emplois au sens classique :

Figure 3. Fréquences d’emploi

durée Trop Corpus Année nombre d’occ. Trop intensif min Excès

Repas Épinards 2008 31 8 2 6

Repas Kiwi 2008 150 88 2 86

Repas Olives 2008 29 20 2 18

49 D’une façon générale, on peut dire que cet usage semble donc occasionnel, jusqu’aux années 2000, puis devient plus conséquent.

50 Pourtant, la période d’enregistrement et l’âge des participants n’expliquent pas tout.

3.1.4 Genre interactionnel

51 L’autre élément essentiel est le genre interactionnel. Dans le corpus Session de jeux vidéo, enregistré en 2007 (dans le but d’étudier la langue des jeunes), dans lequel des adolescents jouent à un jeu de football, les occurrences « classiques » sont plus nombreuses que les occurrences comme simple intensif. C’est dû au fait que les participants commentent les tirs et les manières de jouer, avec une grande fréquence d’énoncés comme : (10) j` vais trop vite trop haut ah putain trop court

3.1.5 Les « préfabriqués »

52 Une autre piste de réflexion est ouverte par cette première étude, c’est celle des « préfabriqués » (constructions toutes faites, chunks) (voir Gülich, 2008 ; Schmale, éd., 2013).

53 Nous obtenons 56 occurrences de « pas trop » dans les corpus sélectionnés, parmi lesquelles - 10 « j’aime pas trop » (11) la paella j’aime pas trop (Repas Olives) (12) moi j` trouve ça fait un peu boyau\ ça mais moi j’aime pas trop (Réunion de conception en Architecture, Mosaic)

Corpus, 15 | 2016 114

- 7 « savoir » + pas trop (13) bon ben j’ai fichu mon b- pas mon beurre dessus puisque c’est du St Hubert ou j` sais pas trop quoi faut que j` m’entretienne la ligne (Interactions dans un commerce - magasin de retouches)

54 Un nombre important d’occurrences concerne des énoncés sans verbe réalisant des évaluations, dont les outils de CLAPI permettraient d’étudier l’emplacement séquentiel par rapport au tour précédent, notamment si ces « assessments » sont produits en chevauchement : « trop bien » 31 occurrences « trop beau » 8 « trop fort » 7

3.2 « Oh là là » une façon de travailler sur la multimodalité à partir de CLAPI

55 Le deuxième exemple illustre comment CLAPI peut permettre l’analyse de la multimodalité dans une approche qualitative de linguistique interactionnelle. L’étude poursuit l’investigation de différents marqueurs discursifs en interaction effectuée par le groupe ICOR (2007, 2008a, 2008b, 2009, 2010). Dans ce cadre, nous nous sommes intéressés à « Oh là là » (ICOR 2014). « Oh là là » est souvent décrit comme un exclamatif typiquement français, pouvant servir à marquer la surprise ou la consternation. Cette explication n’est pourtant pas suffisante comme l’a montré notre étude basée sur des analyses multimodales. CLAPI nous a permis de faire une collection de 67 occurrences dont 59 ont finalement été retenues, les 8 autres étaient prononcés par des locuteurs non-francophones ou insuffisamment audibles pour une analyse. Ces 59 exemples pouvaient être regroupés dans deux grandes catégories. La première catégorie regroupe les cas où « Oh là là » est utilisé (seul ou avec d’autres éléments langagiers) en tant que première ou deuxième partie d’une paire adjacente ou en tant que continueur. Dans ce cas, le marqueur participe à la co-construction de l’interaction. La deuxième catégorie regroupe les cas où ce n’est pas à ce niveau qu’intervient le marqueur : soit parce qu’il se trouve dans un tour long, narratif et introduit un discours rapporté, soit parce qu’il réfère à une activité / un événement extralinguistique.

56 Les documents vidéo disponibles dans CLAPI nous permettent de prendre en compte toute la dimension multimodale de l’interaction (agencement de l’espace, gestes, regards, position, manipulation d’objets etc.). Dans l’exemple suivant, extrait d’une interaction dans un tabac-presse, une cliente entre dans le magasin avec un journal qu’elle a pris à l’entrée sur un présentoir et non pas sur le distributeur. BEA, la vendeuse, lui fait une remarque (l.01-02). (14)

Corpus, 15 | 2016 115

57 Cette remarque est une critique à l’égard de la cliente et pointe la non-conformité de la manière de faire qu’elle a adoptée. La cliente répond d’abord avec une excuse assez vague (« J’ai pas pensé », l. 04). La suite (« Oh là là hin hin », l. 06) pourrait être interprétée comme une expansion de cette excuse. L’analyse détaillée des gestes et des regards montre autre chose. Lorsque la cliente répond « J’ai pas pensé », elle regarde en direction de l’entrée (Figure 4a). Elle maintient ce regard pendant la pause de 0.3 sec. (l. 05), puis met ses mains devant son visage, fait un pas en arrière et s’exclame en riant « Oh là là hin hin » (l. 6, Figure 4b). La vendeuse rit à son tour. La cliente pointe alors vers le distributeur et explique qu’elle n’a pas pris le journal dessus car elle ne l’avait pas vu (l. 8-13, Figure 4c).

Figure 4. Langage paraverbal

58 Oh là là indique ici un changement d’état : entre la réponse « J’ai pas pensé » et « Oh là là » la cliente a aperçu le distributeur et compris son « erreur ». Regards, position et pointage sont des indices forts pour comprendre « Oh là là » comme change-of-state

Corpus, 15 | 2016 116

token (Heritage, 1984) et introduisant l’explication, et non comme expansion de l’excuse.

59 La démarche pour ce type d’analyse à l’aide de la base CLAPI est celle que nous avons présentée dans la section 2.1 : Parcours de la base, requête, résultats de requête -> établissement de la collection (par sélection) et classement Retour aux données (signal) -> nouveau travail sur la transcription en fonction des besoins de la recherche (granularité, annotations multimodales pertinentes pour l’analyse) -> analyse multimodale

4. CLAPI pour l’enseignement

60 Depuis 2010, nous avons engagé une réflexion sur la façon dont la base de données pourrait être utilisée pour l’enseignement du français (FLE) ou de la linguistique française, l’idée étant de concevoir un volet de CLAPI dédié à l’enseignement qui serait alimenté en parallèle du volet recherche.

61 Nous avons collaboré avec plusieurs départements de français à l’étranger où des expériences d’utilisation des données de CLAPI ont été réalisées : - en groupe classe, avec des étudiants de niveau A2 à B1, utilisation de corpus de CLAPI choisis par l’enseignante pour illustrer différents phénomènes interactionnels comme les routines, les assimilations, les émotions, les élisions (ICOR et E. Ravazzolo, Université de Trento, Italie) - en groupe classe, avec des étudiants de niveau C1 futurs interprètes, utilisation d’extraits portant sur le désaccord avec des tests de compréhension et de reformulation (ICOR et N. Niemants, U. Forli et Maccerata, Italie) - en entretien individuel auprès de 9 étudiants de niveau A2 à C1, utilisation d’extraits portant sur le désaccord avec des tests de compréhension, de reformulation, de détection de début et de fin de séquences et leur justification (ICOR et A. Thomas, J. Granfeldt, N. Bengtsson & C. Rocher-Hahlin, U. Lünd, Suède, dans le cadre du projet exploratoire Clapi-FPIE13)

62 Dans tous les cas, l’enseignant(e) a donné des informations contextuelles et parfois lexicales, et constaté que les difficultés des élèves portaient davantage sur l’organisation de l’interaction, la co-construction de tours de parole par plusieurs locuteurs et la compréhension des tours brefs que sur le lexique. Les expériences ont également montré que le niveau de bruit (souvent considéré comme un frein à l’utilisation de données enregistrées dans des contextes sociaux naturels) n’est pas toujours problématique et constitue au contraire une aide à la compréhension.

63 Cet intérêt des enseignants pour l’usage de données orales naturelles en complément des données construites a conduit à ouvrir une collaboration avec des chercheurs engagés dans des directions similaires pour d’autres bases de données (PFC, S. Detey & I. Racine ; ESLO, M. Skrovec).

5. Conclusion

64 Le temps n’est pas si lointain où l’on se plaignait, à juste titre, de l’absence de corpus de français (parlé). La situation a fortement évolué au cours des vingt dernières années. Il ne semble plus guère possible de dire aujourd’hui qu’il n’y a pas de corpus disponibles

Corpus, 15 | 2016 117

pour travailler, et les récriminations relatives à l’impossibilité d’accès (cf. l’expression si souvent entendue « du chercheur assis sur ses données ») n’ont certainement plus lieu d’être, que les données soient en ligne ou qu’elles soient accessibles après un contact avec les gestionnaires des bases de données. Le développement de ces bases a fait avancer les méthodologies et la recherche dans de nombreuses directions (sur le plan de la qualité des données, de la connaissance des attentes d’un public élargi, des exigences de standardisation pour permettre le partage, de la quantité de données à disposition ce qui entraîne un enrichissement des analyses, etc.). L’expérience de CLAPI que nous avons retracée ici est tout à fait représentative à cet égard.

65 Dans le panorama actuel, on voit combien les bases de données existantes sont complémentaires et présentent chacune ses spécificités. CLAPI est ainsi la seule à être spécifiquement dédiée à la langue parlée en interaction, ce qui la conduit à proposer une très grande variété de corpus vidéo enregistrés dans des situations sociales variées. Elle se caractérise tout autant par la riche panoplie d’outils qu’elle met à la disposition des chercheurs.

66 Se dessine par ailleurs, aujourd’hui, une très nette orientation vers la collaboration entre les chercheurs des différentes bases (dans les projets ANR ou dans les instances nationales) pour réfléchir à des solutions communes plutôt que de continuer à avancer en parallèle sans concertation, même si les objectifs et les contenus des bases restent différents sur bien des points.

67 La situation nous conduit également aux constats suivants : – Il manque encore un très grand corpus de français. Comme le préconise le projet ORFEO, c’est en fédérant et organisant les bases et corpus existants que ce très grand corpus a des chances de se mettre à exister ; – D’une façon plus générale, et à toutes sortes de niveaux, on peut dire que l’effort qu’il a fallu faire au cours des années 1990 pour commencer à réunir les forces sur la centralisation des corpus, leur identification, leur conservation, etc. et pour lancer les projets de bases de données (cf. Bruxelles & Traverso, 2003) se poursuit actuellement avec l’organisation des collaborations entre bases de données.

68 En conclusion, il nous semble important de rappeler que ces évolutions créent également des problèmes voire des dilemmes. Les bases de données, les exigences de standardisation, la lourdeur du traitement des données (de plus complexes et lourdes dans le cas de CLAPI, exigeant un travail de plus en plus important et de plus en plus de technique) et son coût font ainsi naître le risque paradoxal d’un rétrécissement du champ des recherches sur des corpus « rentables », parce que très standard et ne posant pas de problèmes de droit. S’il a été à un certain moment essentiel de construire les conditions du partage des données, il convient maintenant de protéger la possibilité de lignes de recherche qui n’alimentent pas directement les infrastructures ainsi mises en place, mais qui contribuent néanmoins tout autant à l’enrichissement du panorama de la recherche sur l’oral et sur la langue parlée en interaction.

Corpus, 15 | 2016 118

BIBLIOGRAPHIE

Baldauf-Quilliatre H. (2014a). « Répétition et encouragement », Semen 38 [Véronique Magri- Mourgues / Alain Rabatel (éd.) : Pragmatique de la répétition], 115-135.

Baldauf-Quilliatre H. (2014b). « Formate knapper Bewertungen beim empraktischen Sprechen », in C. Schwarze, C. Konzett (éd.) Hinter den Kulissen : Aktuelle Projekte aus der Interaktionsforschung – methodologisch betrachtet. Frankfurt : Lang, 107-130.

Balthasar L. & Bert M. (2005). « La plateforme “Corpus de langues parlées en interaction” (CLAPI) », Lidil 31 : 13-33.

Baude O. (éd.) (2006). Corpus oraux, guide des bonnes pratiques 2006. Paris & Orléans : Éditions du CNRS & Presses universitaires d’Orléans. https://hal.archives-ouvertes.fr/hal-00357706/file/ Corpus_Oraux_guide_des_bonnes_pratiques_2006.pdf

Bruxelles S. & Traverso V. (2003). « Les corpus de langue parlée en interaction au GRIC », in D. Pusch & F. Raible (éd.) Romanistiche Korpuslinguistik. Tübingen : Gunter Narr Verlag, 59-70.

Colón de Carvajal I., Lascar J. & Traverso V. (à paraître). « Et l’impact de la caméra alors… », Revue en ligne Ethnographiques.org.

Colón De Carvajal I. (2013). « Du corpus enregistré au corpus analysé : questions méthodologiques sur l’utilisation d’outils de requêtes informatisés. Corpus, Données, Modèles », Cahiers de Praxématique 54-55/2010, Montpellier : PULM, 313-326. [halshs-00630514].

Étienne C. (2009). « La TEI dans le Projet CLAPI, Corpus de langues parlées en interaction », TEI Council, Lyon.

Groupe ICOR (L. Balthasar, S. Bruxelles, L. Mondada, V. Traverso) (2007). « Variations interactionnelles et changement catégoriel : l’exemple de ‘attends’ », in Auzanneau M. (éd.) La Mise en œuvre des langues dans l’interaction. Paris : L’Harmattan, 299-319.

Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, S. Teston-Bonnard, V. Traverso) (2008a). « ‘Oh::, oh là là, oh ben…’, les usages du marqueur ‘oh’ en français parlé en interaction », in J. Durand, B. Habert & B. Laks (éd.) Congrès mondial de linguistique française. Paris, France. En ligne, <10.1051/cmlf08099>.

Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, V. Traverso) (2008b). « Tool-assisted analysis of interactional corpora : voilà in the CLAPI database », Journal of French Language Studies 18 (1) : 121-145.

Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, V. Traverso) (2009). « Exploitation de la plateforme Corpus de langue parlée en interaction (CLAPI) : le cas de ‘voilà’ dans les chevauchements », Cahiers de linguistique 33 (2) : 243-268.

Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, V. Traverso) (2010). « Grands corpus et linguistique outillée pour l’étude du français en interaction (plateforme CLAPI et corpus CIEL) », Pratiques 147-148 : 17-34.

Groupe ICOR (C. Étienne, S. Bruxelles, E. Jouin, L. Mondada, F. Oloff, V. Traverso) (à paraître). « Phénomènes et unités : questions autour de la détection automatique des répétitions dans un corpus de langue parlée en interaction », in (DES-)Organisation de l’oral de la segmentation à l’interprétation. Rennes.

Corpus, 15 | 2016 119

Groupe ICOR (H. Baldauf-Quilliatre, S. Bruxelles, S. Diao-Klaeger, E. Jouin-Chardon, V. Traverso) (2014). « Oh là là : the contribution of the multimodal database CLAPI to the analysis of spoken French », in H. Tyne, V. André, A. Boulton, C. Benzitoun, Y. Greub (éd.) Ecological and Data-Driven Perspectives in French Language Studies. Newcastle : Cambridge Scholars Publishing, 167-198.

Gülich E. (2008). « Le recours au préformé : une ressource dans l’interaction conversationnelle », in J. Durand, B. Habert & B. Laks (éd.) Congrès mondial de linguistique française. Paris, France. Disponible en ligne sous : http://www.linguistiquefrancaise.org/index.php? option=article&access=doi&doi=10.1051/cmlf08315.

Laurier E. & Philo C. (2006). « Natural problems of naturalistic video data », in H. Knoblauch, J. Raab, H.-G. Soeffner & B. Schnettler (éd.) Video-Analysis Methodology and Methods, Qualitative Audiovisual Data Analysis in Sociology. Oxford : Peter Lang, 183-192.

Mondada L. (2006). « Video Recording as the Reflexive Preservation and Configuration of Phenomenal Features for Analysis », in H. Knoblauch, J. Raab, H.-G. Soeffner & B. Schnettler (éd.) Video-Analysis Methodology and Methods, Qualitative Audiovisual Data Analysis in Sociology. Oxford : Peter Lang, 51-68.

Mondada L. (2007). « Multimodal ressources for turn-taking : Pointing and the emergence of possible next speakers », Discourse Studies 9/2 : 195-226.

Mondada L. (2012), « Talking and driving : Multiactivity in the car », Semiotica 191, 223-256.

Potter J. (2006). « Naturalistic Data », in V. Jupp (éd.) The Sage Dictionary of Social Research Methods. London : Sage. Brockington.

Schmale G. (2013). « Formen und Funktionen vorgeformter Konstruktionseinheiten in authentischen Konversationen / Forms and Functions of Formulaic Construction Units in Conversation », Linguistik Online 62, 5/2013, http://www. linguistik-online.de/62_13/.

Ticca A. C. & Traverso V. (à paraître, 2015). « Territoires corporels, ressenti et paroles d’action : des moments délicats de la consultation médicale avec interprète », Langage et Société.

Traverso V. (2011). « Analyser un corpus de langue parlée en interaction : questions méthodologiques », Verbum 4 : 313-329.

Traverso V. (2012a). « ‘Le salon bibliothèque’ : délimitation et partage des espaces. Usage des annonces dénominatives désignatives dans la visite guidée », in J.-P. Dufiet (éd.) Les Visites guidées. Discours, interaction, multimodalité. Trento : Presses de l’Université de Trento, 55-85.

Traverso V. (2012b). « Analyses interactionnelles : repères, questions saillantes et évolution », Langue Française 175 : 3-17.

Traverso V. et al. (2012). « Analyses de l’interaction et linguistique : état actuel des recherches en français », Langue française 175.

Traverso V. (2014). « La construction de (l’attention visuelle sur) l’objet au cours de la visite guidée : étude d’un cas limite », in J. P. Dufiet (éd.) L’Objet d’art et de culture à la lumière de ses médiations. Trento : Coll. Labirinti, 43-85.

ANNEXES

Occurrences de « trop »

Corpus, 15 | 2016 120

Le total des occurrences de « trop » dans ces 24 corpus s’élève à 337 occurrences (la base de données en contient au total 547).

durée nombre Trop Trop Corpus Année min d’occ. Excès intensif

Négociation sur les loyers – commission de 1984 115 18 9 9 conciliation,

Mode – interactions sur un thème imposé, 1982 22 5 4 1

Français des années 80 – entretiens 1984 72 32 27 5 sociolinguistiques,

Conversations familières – Visites 1985-1990 61 13 11 2

Interactions commerciales – bureau de tabac 1986 120 1 1 presse

Enquête de sociologie urbaine –Paris Marais, 1989-1990 171 19 15 4

Conversations téléphoniques en entreprise 1997 25 4 3 1

Débat sur l’immigration – TP d’étudiants 1997 78 8 8 0

Négociation sur le partage de biens – notaires 1997-1998 36 2 1 1

Interactions commerciales – vente à domicile 1998-1999 6 1 0 1 encyclopédies,

Interactions dans un commerce – magasin de 2001 22 6 4 2 retouches (papotages)

Réunion de conception en architecture – 2002 78 20 12 8 Mosaic

Consultations chez les dentistes 2003 35 3 1 2

Réunion de travail entre publicitaires – Lyon 2004 58 7 5 2 Saxe

Repas. Conversations entre étudiants 2006 47 36 14 22

Interactions pendant la tournée de facteurs 2006-2007 24 3 3 0

Repas Épinards 2008 31 8 2 6

Repas Kiwi 2008 88 2 86

Repas Olives 2008 29 20 2 18

Conversations en ligne 2007-2008 14 5 4 1

Corpus, 15 | 2016 121

Session de jeux vidéo entre jeunes 2007 106 28 16 12

NOTES

1. http://icar.univ-lyon2.fr/projets/corinte/ 2. Dans cette perspective, les entretiens sont des données provoquées et ils illustrent un genre interactionnel spécifique. Le choix a été fait que la base de CLAPI ne contienne pas de données médiatiques pour des questions de droit (des données radiophoniques ont en revanche été collectées dans le projet CIEL-F, et elles sont hébergées dans CLAPI-CIELF, voir 2.3). 3. http://icar.univ-lyon2.fr/projets/corinte/bandeau_droit/convention_icor.htm 4. http://icar.univ-lyon2.fr/projets/corinte/ 5. http://icar.univ-lyon2.fr/projets/corvis/ 6. http://talkbank.org/ 7. Étienne, 2009. 8. http://www.ciel-f.org/ 9. http://ircom.huma-num.fr 10. https://www.ortolang.fr 11. http://www.projet-orfeo.fr 12. Cet usage est considéré comme familier dans le TLFI, avec l’exemple « Il en avait de trop à bouffer le général, puisqu’il touchait d’après le règlement quarante rations pour lui tout seul » (Céline, Voyage, 1932, p. 33). 13. http://clapi-fpie.ish-lyon.cnrs.fr

RÉSUMÉS

Dans cette contribution, nous présentons la base CLAPI développée au laboratoire ICAR dans le contexte de l’évolution des bases de données de langues parlées en France au cours des trente dernières années. Nous détaillons les deux composantes de CLAPI, l’archive de corpus de langue parlée en interaction audio et vidéo enregistrés dans des situations sociales naturelles variées, et la plateforme d’outils. L’usage et l’apport de CLAPI sont illustrés par deux études. L’une décrit comment la base peut être utilisée pour des travaux de linguistique interactionnelle intégrant la multimodalité (« oh là là ») ; l’autre concerne une recherche combinant données et métadonnées (« trop »). L’article est aussi l’occasion d’un bilan plus général. La mise en perspective montre en effet qu’après la période des questions est venue celle des dilemmes. La période des questions, choix et décisions à toutes sortes de niveaux a accompagné la mise en place des bases de données. L’expérience permet maintenant de mesurer leurs indéniables apports en termes non seulement de quantité de données disponibles (et traitables grâce aux outils), mais aussi de qualité (comme conséquence des exigences de standardisation liées au partage des données). La période des dilemmes nous conduit à nous interroger sur les meilleurs choix à opérer aujourd’hui dans les relations entre la poursuite des recherches sur des corpus variés (et parfois sensibles) et les exigences des bases de données ouvertes.

Corpus, 15 | 2016 122

In this contribution, we present the development of the CLAPI by the ICAR Lab in the context of the evolution of the databases of spoken languages in France during the last thirty years. We describe the two components of CLAPI, the archive of corpus of spoken languages in interaction, audio and video, recorded in varied naturally-occurring social situations, and the plateform of tools. The use and the support of CLAPI the research are shown out of two studies. One illustrates how the database can be used for working in an interactional linguistic perspective, including multimodality (“oh là là”); the other concerns a research combining data and metadata (“trop”). The article is also the occasion of a more general assessment. The perspective on the last thirty years shows that after a period of questions came that of dilemmas. The period of questions, choices and decisions at various levels accompanied the implementation of the databases. The experience enables now to measure their undeniable contributions in terms not only of quantity of available data (and possibly dealt with supported by the tools), but also of quality of the data (as a consequence of the requirements of standardization linked to the needs of sharing the data). The period of the dilemmas leads us to wonder about the best choices to be operated today among continuing research on varied corpuses (sometimes delicate) and the requirements of the databases.

INDEX

Mots-clés : parole en interaction, multimodalité, interopérabilité, banques de données Keywords : talk-in-interaction, multimodality, interoperability, databank

AUTEURS

H. BALDAUF-QUILLIATRE Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

I. COLÓN DE CARVAJAL Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

C. ETIENNE Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

E. JOUIN-CHARDON Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

S. TESTON-BONNARD Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

V. TRAVERSO Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

Corpus, 15 | 2016 123

Disfluences et vieillissement langagier. De la base de données VALIBEL aux corpus outillés en français parlé Disfluencies and language aging. New corpora and tools for exploring spoken French in the VALIBEL database

Catherine T. Bolly, George Christodoulides et Anne Catherine Simon

1 Dans cet article, nous nous attachons à explorer les possibilités d’investigation qu’offre la base de données textuelles orales VALIBEL, en portant une attention particulière à l’outillage (principalement, le programme DisMo pour l’annotation des disfluences) et au corpus Corpage, récemment intégré à la base et dont la population cible concerne des personnes âgées.

1. La base de données VALIBEL

2 La base de données textuelles orales VALIBEL ne constitue pas un corpus mais un regroupement de corpus constitués depuis 1987. Il s’agit donc d’une sorte de « réservoir de corpus » qui est alimenté de manière incrémentale au fur et à mesure des nouveaux projets de recherche nécessitant de collecter des données orales (section 2). Documentées et archivées sous format électronique, ces données peuvent être réexploitées à des fins de recherches variées (section 3), touchant notamment à des questions sociétales cruciales telles que le vieillissement de la population (section 5). La documentation qui les accompagne comprend des métadonnées sur la situation d’interaction et les locuteurs, ainsi que sur la transcription orthographique effectuée. Pour une partie des données, cette transcription est directement alignée sur le signal sonore. Certains corpus font en outre l’objet d’annotations particulières (section 4).

Corpus, 15 | 2016 124

2. Historique du centre VALIBEL

3 Le centre de recherche VALIBEL a été créé en 1989 par Michel Francard. L’acronyme qui a donné son nom au centre (VAriétés LInguistique du français en BELgique) rend compte des objectifs de recherche établis à cette époque : il s’agissait de créer un observatoire des usages du français en Belgique, dans leur variation. L’intérêt s’est d’abord porté sur l’analyse des représentations linguistiques des locuteurs concernant, par exemple, les accents régionaux ou l’insécurité linguistique (Francard, 1993). Des collectes de données orales et de vastes enquêtes par questionnaire sont mises en place pour tester la diffusion et la vitalité des régionalismes lexicaux. Un des résultats est le Dictionnaire des belgicismes faisant actuellement référence (Francard, Geron, Wilmet & Wirth, 2015). Entre 1989 et 1999, la majorité des corpus recueillis consistent en interviews sociolinguistiques – comportant le plus souvent une partie de discussion ouverte visant à recueillir des informations sociobiographiques sur le locuteur et à le faire parler librement, et une partie plus contrainte guidée par un questionnaire. D’autres corpus, de taille plus réduite, ont été réalisés ponctuellement pour des études variées (sur la liaison, l’argumentation dans les débats, l’alternance de code français- wallon, etc.).

4 En 2009, le centre s’élargit en accueillant une nouvelle équipe et redéfinit ses objectifs, ce qui se marque par un changement de nom : Valibel - Discours et Variation. La sociolinguistique reste un ancrage théorique important, comme en atteste la participation de Valibel au vaste projet de recueil de données pour l’étude de la Phonologie du français contemporain (PFC – Durand, Laks & Lyche, 2009), qui a permis de renouveler les études sur la prononciation du français en Belgique (Hambye & Simon, 2009 ; Simon, 2012). L’autre axe de recherches concerne l’analyse du discours, en particulier les connecteurs et marqueurs de discours (Bolly, Crible, Degand & Uygur- Distexhe, 2015), les unités de base du discours (Martin, Degand & Simon, 2014), les effets du vieillissement langagier sur la dimension pragmatique (Bolly & Boutet, soumis) ou le traitement de la fluence et de la disfluence à l’oral (projet ARC « Fluency and disfluency markers. A multimodal contrastive perspective », voir Crible, Dumont, Grosman & Notarrigo, 2015). Des chercheurs travaillant sur d’autres langues que le français (en particulier l’espagnol et le néerlandais) se sont également ajoutés à l’équipe (De Cock, 2014 ; Van Goethem & Hiligsmann, 2014), et des études contrastives sont en cours (De Cock & Roginsky, 2015). Depuis une dizaine d’années, un effort particulier a été investi pour recueillir de nouveaux corpus plus diversifiés en termes d’activités communicatives. En guise d’exemple, le corpus « style » présente la particularité d’enregistrer un même locuteur dans deux situations contrastées (par ex. en situation professionnelle et privée) afin de documenter la dimension diaphasique de la variation.

5 Le développement de la base de données textuelles orales VALIBEL, dans ce contexte, n’est pas une fin en soi, mais constitue la pierre de touche de recherches qui se veulent fondées empiriquement sur corpus. Cela offre également un terrain intéressant d’élaboration méthodologique, concernant les types de données à recueillir, les modes de recueil, de documentation et d’annotation. Le principe qui régit la recherche au centre Valibel reste l’étude de la variation à partir d’usages langagiers attestés et documentés (i. e. à partir de corpus), visant à documenter la diversité des pratiques langagières en Belgique francophone, et dans d’autres langues.

Corpus, 15 | 2016 125

3. Description des corpus dans la base de données

6 Par définition, la base de données est ouverte, et sa croissance est le signe de la vitalité des recherches menées au sein du centre Valibel. Le développement se fait dans deux directions : – en ajoutant de nouvelles données (enregistrements, transcriptions, métadonnées) (cf. ci-dessous et en 5.) ; – en ajoutant de nouvelles annotations aux données existantes (cf. section 4.).

7 Aujourd’hui, on peut dire que la banque de données VALIBEL compte 24 corpus exploitables. Ces corpus ont initialement fait l’objet d’une chaîne de traitement standardisée, décrite dans Dister & Simon (2007), suivie plus récemment d’une phase d’annotation et de traitement des données telle que décrite sous 4.2. Ces corpus représentent actuellement 494 enregistrements sonores, impliquant 568 locuteurs, totalisant 352 heures de parole, accompagnés de métadonnées (informations sur les locuteurs et sur la situation d’interaction) et de transcriptions orthographiques. Ces transcriptions totalisent 3 388 208 tokens1.

8 Les données sont archivées dans la base de données [moca], qui permet d’interroger à distance les données et de télécharger les fichiers son et les transcriptions (pour plus de détail : Dister, Francard, Hambye & Simon, 2009 ; Simon, Francard & Hambye, 2014). Les métadonnées, qui sont également interrogeables via l’interface [moca], ont été intégrées dans la transcription orthographique sous la forme de TEI Headers pour favoriser l’interopérabilité des corpus. Elles donnent des informations sur les aspects suivants : (i) enregistrement : nombre de locuteurs, relation entre locuteurs, date et lieu d’enregistrement, langue, type d’interaction, durée, nombre de mots, statut de l’enregistrement, etc. ; (ii) corpus : code d’identification, année de constitution, objectif de recherche, nombre d’enregistrements et de locuteurs, nombre de mots, durée ; (iii) locuteur : sexe, âge, localisation géographique, lieu de naissance, degré de scolarité, profession, etc. Le système permet, à l’aide de critères sur les situations d’enregistrement ou sur les locuteurs, de créer des collections de données en vue d’études particulières. Par ailleurs, les données sont désormais analysables et consultables par le biais du logiciel de gestion de corpus Praaline (Christodoulides, 2014), qui permet la consultation des transcriptions et leur annotation sous plusieurs couches à l’aide de concordances (Barreca & Christodoulides, 2014 – voir Figure 1), ainsi que l’application d’outils d’annotation automatique (cf. section 4.2).

Corpus, 15 | 2016 126

Figure 1. Requête multi-niveaux et présentation des résultats sous forme de concordance dans le logiciel Praaline

9 La base de données, dans son ensemble, ne présente pas un échantillonnage équilibré de données orales, ni en termes de situations de communication ni en termes de répartition des locuteurs (âge, localisation géographique, etc.). Il s’agit donc de créer, de manière opportuniste, des sous-corpus équilibrés à partir des données disponibles. Ainsi, l’âge moyen des locuteurs est de 30,3 ans, et les locuteurs ayant entre 20 et 30 ans sont les plus représentés (voir Figure 2).

Figure 2. Répartition des locuteurs par âge dans la base VALIBEL

10 En termes de localisation géographique, parmi la grande majorité de locuteurs belges francophones, ce sont les locuteurs du Brabant wallon qui sont les moins nombreux et ceux du Hainaut qui sont majoritaires (voir Figure 3).

Corpus, 15 | 2016 127

Figure 3. Répartition des locuteurs par localisation géographique dans la base VALIBEL

4. Annotation multiniveau

4.1 Interface syntaxe/prosodie

11 Certains corpus ont fait l’objet d’annotations particulières. Ainsi, le corpus LOCAS (LOuvain Corpus of Annotated Speech) a été annoté manuellement en unités syntaxiques et en unités prosodiques afin d’étudier comment ces deux niveaux d’organisation se combinent pour former des unités discursives (Degand & Simon, 2009). Au niveau syntaxique, par exemple, on a identifié les unités maximales de rection (un élément recteur accompagné de tous les éléments qui en dépendent) et les séquences fonctionnelles ; des éléments non régis (comme les marqueurs de discours ou les associés) ont également été annotés. Du point de vue prosodique, on a perceptivement identifié les frontières prosodiques majeures et intermédiaires, en les assortissant d’un contour intonatif (Christodoulides & Simon, 2015). Les hésitations et les marques d’écoute (back-channels) ont également été annotées. D’une durée de 3 heures 11 pour 36 912 tokens, ce corpus regroupe de manière équilibrée des échantillons représentatifs de 12 situations de parole contrastées entre elles (Martin et al., 2014).

4.2 Annotation morphosyntaxique et détection automatique des disfluences

12 Par le biais du logiciel DisMo (Christodoulides, Avanzi & Goldman, 2014), des couches d’annotation supplémentaires ont été appliquées à toutes les transcriptions de la base VALIBEL : une annotation morphosyntaxique (au niveau des tokens isolés et au niveau des unités polylexicales), une lemmatisation et une annotation des disfluences.

Corpus, 15 | 2016 128

L’annotateur automatique DisMo prend en compte les phénomènes spécifiques aux conventions de transcription de l’oral (par exemple, l’absence de ponctuation) et est structuré autour de six modules qui s’appliquent en cascade : 1) tokenisation : prétraitement et découpage en unités lexicales ; 2) application de ressources linguistiques : annotation des unités non-ambiguës et établissement de la liste des étiquettes possibles pour les autres cas (à noter que certaines disfluences et unités polylexicales sont reconnues à ce stade, ainsi que les marqueurs de discours et les unités polylexicales potentielles) ; 3) annotation morphosyntaxique préliminaire en parties du discours ; 4) détection des disfluences et de la segmentation ; 5) annotation morphosyntaxique finale, combinée avec la détection des unités polylexicales ; 6) post-traitement des annotations, à l’aide des règles de cohérence.

13 Le codage des disfluences détectées automatiquement par DisMo suit le schéma d’annotation présenté de manière synthétique dans la Figure 4 (pour plus de détail, voir Christodoulides & Avanzi, 2015).

Figure 4. Schéma d’annotation des disfluences dans DisMo (dans Christodoulides & Avanzi, 2015)

Niveau 1 : Disfluences simples : affectent un seul token

FIL Pauses remplies j’ hésite euh FIL un peu en parler

Allongement lié LEN au cercle d’oenologie de= LEN Bruxelles à une hésitation

FST Amorce lexicale comme infirmière so/ FST sociale

WDP Pause intra-mot il m’ a dit ça su+ _ WDP +ffit

Niveau 2 : Répétitions où un ou plusieurs tokens sont répétés (exactement)

• les disques et REP* et REP_ lancer les jingles • il REP:1 a REP:2 il REP:1 a REP*:2 REP Répétition il REP_ a REP_ dit que • c’ REP:1 est REP:2 pas REP*:3 c’ REP_ est REP_ pas REP_ un système génial

Niveau 3 : Disfluences structurées (d’édition)

c’ DEL est DEL vraiment DEL DEL Suppression un DEL* en tout cas la parole

cette personne était SUB* SUB Substitution enfin SUB:edt c’ SUB_ est SUB_ un ami de

Corpus, 15 | 2016 129

c’ est vrai que Béthune INS* euh INS+FIL INS Insertion vivre INS_ à INS_ Béthune INS_ ça aurait

Niveau 4 : Disfl. complexes (combinent plusieurs disfluences structurées)

COM Complexe Leur structure est annotée à l’aide d’un tableau d’empilement

5. Disfluences et vieillissement langagier

14 La problématique du vieillissement de la population et ses retombées socio- économiques dans les pays développés (Berr, Balard, Blain & Robine, 2012) sont au cœur des préoccupations actuelles des chercheurs, toutes disciplines scientifiques confondues. Dans le domaine de la linguistique, en particulier, plusieurs études sur corpus ont été menées durant les cinq dernières années (cf. Gerstenberg, 2009, 2011 ; Lee, 2012 ; Bolly & Boutet, soumis) et des réseaux de linguistes se mettent en place à l’international (cf. le réseau du CLARe « Corpora for Language and Aging research »). C’est dans ce contexte que le corpus Corpage « A Reference corpus for the elderly’s language » a vu le jour (Bolly, Masse & Meire, 2012). Parmi les quelque 212 entretiens récoltés qui constituent le corpus Corpage (106 sujets âgés interrogés ; 2 entretiens par informateur ; environ 144 heures d’enregistrements), 10 entretiens ont été transcrits et révisés selon les normes VALIBEL pour être intégrés à la base de données (8 heures 35 min. ; environ 130 000 tokens). Les entretiens semi-dirigés en face-à-face mettent en scène un étudiant et une personne âgée de plus de 75 ans à son domicile, sur le thème du récit de vie et du rapport à l’âge. Les sujets recrutés ne présentent pas de lésion ni de trouble cognitif majeur. Notons que la constitution de ce corpus est le fruit d’une collaboration interdisciplinaire en sciences humaines (en linguistique, psychologie et psychogériatrie) et suit les normes éthiques recommandées dans le domaine (consentement éclairé oral et écrit, recrutement sur base volontaire, anonymisation des données personnelles, etc.).

15 Basée sur l’annotation automatique des disfluences avec DisMo, une étude exploratoire a été effectuée pour rendre compte de la distribution des disfluences par tranche d’âge, au sein de la base VALIBEL prise dans son intégralité (incluant les données de Corpage). Si l’on en croit la littérature dans le domaine, nous pouvons nous attendre à observer une plus grande fréquence de marques de disfluence avec l’avancée en âge (hésitations, pauses longues, pauses pleines, particules de discours, répétitions de mots, autocorrections, etc.), en même temps qu’un débit de parole ralenti et une articulation moins précise (Searl, Gabel & Fucks, 2002 ; Lee & Barkat-Defradas, 2014 ; Rousier- Vercruyssen, Lacheret & Fossard, 2014). Ces particularités linguistiques sont le plus souvent considérées comme étant la conséquence de changements cognitifs normaux liés à l’âge (Burke & Shafto, 2008), à savoir le ralentissement de la vitesse de traitement de l’information, un accès moins aisé au lexique et des troubles des capacités d’inhibition (Mathey & Postal, 2008). Mais elles peuvent aussi dépendre de besoins physiologiques (par exemple, l’activité respiratoire), d’une volonté de coopération avec l’interlocuteur ou d’un effort de planification cognitive, davantage marqués chez la

Corpus, 15 | 2016 130

personne âgée (Bortfeld, Leon, Bloom, Schober & Brennan, 2001 ; Smith, Noda, Andrews & Jucker, 2005).

16 Au niveau méthodologique, soulignons que les résultats ne prennent ici en compte que les disfluences annotées aux niveaux 1 et 2 du schéma présenté dans la figure 4. Parmi les disfluences annotées par DisMo, nous avons considéré les marques suivantes : les amorces lexicales (FST) (1), les pauses pleines (FIL) (2) et les répétitions (REP) (3). (1) on avait / euh q/ un poêle dans la chambre (Corpage : ageDM1, 94 ans) (2) je ne sais pas mais euh il y a quelque chose qui ne va pas (Corpage : ageDM1, 94 ans) (3) il n’a plus jamais su avoir de de de travail / et / je ne sais pas il avait perdu le nord enfin (Corpage : ageDM1, 94 ans)

17 Par ailleurs, la répartition en tranches d’âge par décennies a été adoptée pour faire émerger une éventuelle évolution du nombre de disfluences dans une perspective développementale tout au long de la vie (« lifespan ») (Aldwin, Spiro III, Park & Birren, 2006). Cette étude ne tient donc pas compte des facteurs psychosociaux ni des mécanismes d’adaptation à l’œuvre dans le processus de vieillissement (Freund & Baltes, 2003), mais s’appuie sur une vision purement biologique et chronologique de l’âge (voir entre autres Hamilton, 2001, sur ces questions).

18 Il ressort des résultats une corrélation positive et significative (Spearman r = 0,164 ; d.l. = 857, p < 0.001) entre l’âge du locuteur et la fréquence des disfluences au sein de la base (voir Figure 5). Afin de normaliser les données, cette fréquence a été calculée sous forme de ratio, en divisant le nombre total de tokens « non fluents » (c’est-à-dire ceux qui se trouvent entre le début d’une disfluence et son point d’interruption) par le nombre total de tokens produits par chaque locuteur.

Figure 5. Pourcentage des tokens non fluents en fonction de l’âge du locuteur

19 Les résultats obtenus, qui tendent à confirmer que plus on avance en âge, plus on tend à produire des discours disfluents, doivent néanmoins être nuancés à plusieurs égards. En effet, si des tendances émergent, il ne faut pas oublier qu’il existe des profils idiosyncrasiques de fluence (Shriberg, 1994, 2001), un locuteur pouvant recourir à des pauses pleines (par ex. : euh) alors qu’un autre aura tendance à paraphraser dans une

Corpus, 15 | 2016 131

situation similaire (par ex. en réaction au manque de mots). En outre, la catégorie des répétitions annotées inclut dans cette étude les répétitions lexicales perçues comme étant nettement disfluentes (cf. de de de dans l’exemple (3) plus haut), mais également des répétitions qui semblent jouer un rôle à un autre niveau dans la production langagière (Rossi, Dominicy & Kolinsky, 2014). Par exemple, la répétition oui oui en (4) est une répétition emphatique, qui vient renforcer la valeur d’acquiescement en réaction au propos de l’interviewer. De la même manière, la fonction de la répétition ça ça en (5) est ambigüe, puisqu’elle peut être interprétée comme une marque d’hésitation ou comme le résultat d’un procédé syntaxique de topicalisation avec mise en relief du pronom détaché à gauche. (4) ageMC0 vous vous vous mettez à l’évidence que vous avez bien |- quatre-vingt- deux ans ageBG1 oui hein oui -| oui bè oui hein / il n’y a pas d’avance (rires) (Corpage : ageBG1, 82 ans)2 (5) alors un autre c’é/ il était surveillant à D il était professeur ailleurs j’ai je ne l’ai plus jamais vu et tous les autres à part moi je mets peux mettre des croix / ça ça m’a fait un |- choc j’ai mm -| montré la photo à Jacqueline |- et mm -| on a essayé de retrouver tous les noms des professeurs (Corpage : ageJD1, 85 ans)

20 Une étude plus approfondie du rôle cognitif et pragmatique de ces répétitions – en tant que marques potentielles de fluence ou de disfluence – serait donc nécessaire pour déterminer leur rôle dans la planification et dans la coconstruction de l’interaction communicative. Enfin, il ne faudrait pas négliger l’importance des facteurs psychosociaux, tels que le genre (homme/femme) ou la situation communicative, qui jouent un rôle prépondérant dans la production de disfluences par rapport au facteur âge (Bortfeld et al., 2001).

21 Cette première approche exploratoire donne à voir comment, à partir de l’outillage de corpus, des pistes de recherche peuvent émerger pour répondre à des problématiques sociétales fortes. Quelques-unes de ces pistes sont formulées ici sous forme de questions interrogeant l’impact possible des marques de disfluence sur le discours au grand âge (en production et en réception) : • Quel est le rôle joué par les facteurs environnementaux et psychosociaux liés à la situation de parole (situation de soin, annonce de diagnostic, conversation avec un proche, etc.) dans la production de discours plus ou moins (dis)fluents chez la personne âgée ? • À partir de quand peut-on considérer qu’un discours disfluent devient problématique et constitue un obstacle au bien-vieillir, tenant compte des mécanismes d’optimisation et d’adaptation (Freund & Baltes, 2003) dont dispose le sujet vieillissant ? • À l’instar de Davis & Maclagan (2010), ne devrait-on pas considérer le recours à certaines marques de disfluence (pauses pleines, interjections, particules discursives et unités phraséologiques) comme des stratégies adoptées par les plus âgés pour rester impliqués dans l’interaction ?

22 Visant à refléter au plus près l’usage langagier des locuteurs au sein d’une communauté linguistique, voire entre plusieurs communautés, il paraît évident que les approches sur corpus présentent des avantages indéniables pour pouvoir répondre, au moins en partie, à de telles questions.

Corpus, 15 | 2016 132

6. Conclusion

23 Nous avons vu que la base de données VALIBEL, constamment enrichie par de nouveaux corpus et projets de recherches, permettait de faire le lien entre l’outillage des données langagières et leur exploitation dans une visée de recherche fondamentale ou appliquée. C’est ainsi que l’utilisation de programmes d’annotation automatique (p. ex. : DisMo), l’élaboration de protocoles d’annotation extrêmement bien documentés (par exemple, le corpus LOCAS ou le projet MDMA) et la possibilité d’interroger les données (et les métadonnées) via une interface fouillée ([moca] ou Praaline), permettent d’apporter un éclairage nouveau sur l’usage des locuteurs, tenant compte de variables psychosociales (âge, sexe, niveau d’éducation, etc.) et extralinguistiques (situations de parole, origine géographique, etc.) jouant un rôle important dans la communication langagière.

BIBLIOGRAPHIE

Aldwin C. M., Spiro III A., Park C. L. & Birren J. E. (2006). « Health, behavior, and optimal aging : A life span developmental perspective », Handbook of the Psychology of Aging 6 : 85-104.

Barreca G. & Christodoulides G. (2014). « Un concordancier multiniveau pour des corpus oraux », Actes de la 21e Conférence Traitement Automatique du Langage Naturel (TALN), Marseille, France, 1er-4 juillet 2014.

Berr C., Balard F., Blain H. & Robine J.-M. (2012). « Vieillissement, l’émergence d’une nouvelle population », Médecine-Sciences 28, 3 : 281-287.

Boersma P. & Weenink D. (2015). Praat : Doing Phonetics by Computer (ver. 5.3.63). www.praat.org.

Bolly, C. T. & Boutet D. (soumis). « The multimodal CorpAGEst corpus : Keeping an eye on pragmatic competence in later life ».

Bolly C. T., Crible L., Degand L. & Uygur-Distexhe D. (2015). « MDMA. Un modèle pour l’identification et l’annotation des marqueurs discursifs “potentiels” en contexte », Discours 16. http://discours.revues.org/9009 ; DOI : 10.4000/ discours.9009.

Bolly C. T., Masse M. & Meire Ph. (2012). Corpage. A Reference Corpus for the Elderly’s Language. Louvain-la-Neuve : Université catholique de Louvain (Valibel - Discours et variation & Psychological Sciences Research Institute).

Bortfeld H., Leon S., Bloom J., Schober M. & Brennan S. (2001). « Disfluency rates in conversation : Effects of age, relationship, topic, role, and gender », Language and Speech 44 : 123-149.

Burke D. M. & Shafto M. A. (2008). « Language and aging », The Handbook of Aging and Cognition 3 : 373-443.

Christodoulides G. (2014). « Praaline : Integrating tools for speech corpus research », Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC), Reykjavik, Iceland, 26-31 May 2014 : 31-34.

Corpus, 15 | 2016 133

Christodoulides G., Avanzi M. & Goldman J.-Ph. (2014). « DisMo : A morphosyntactic, disfluency and multi-word unit annotator : An evaluation on a corpus of French spontaneous and read speech », International Conference on Language Resources and Evaluation (LREC), Reykjavik, Iceland, 26-31 May 2014 : 3902-3907. www.corpusannotation.org/dismo.

Christodoulides G. & Avanzi M. (2015). « Automatic detection and annotation of disfluencies in spoken French corpora », Proceedings of Interspeech, 1849-1853.

Christodoulides G. & Simon A. C. (2015). « Exploring acoustic and syntactic cues to prosodic boundaries in French. A multi-genre corpus study », Proceedings of the 18th International Congress of Phonetic Sciences, non-paginé.

Crible L., Dumont A., Grosman I. & Notarrigo I. (2015). Annotation des marqueurs de fluence et disfluence dans des corpus multilingues et multimodaux, natifs et non natifs. Version 1.0. Working paper. Université catholique de Louvain et Université de Namur.

Davis B. H. & Maclagan M. (2010). « Pauses, fillers, placeholders and formulaicity in Alzheimer’s discourse », in N. Amiridze, B. H. Davis & M. Maclagan (éd.) Fillers, pauses and placeholders (Typological Studies in Language 93). Amsterdam, Philadelphia : John Benjamins, 189-215.

De Cock B. (2014). Profiling Discourse Participants. Forms and Functions in Spanish Conversation and Debates (Pragmatics & Beyond New Series 246). Amsterdam : John Benjamins.

De Cock B. & Roginsky S. (2015). « Identités discursives sur Twitter : Construction de l’identité de député européen en période pré-électorale. Comparaison entre la France, l’Espagne et le Royaume-Uni », in F. Liénard & S. Zlitni (éd.) Communication électronique : enjeux, stratégies et opportunités. Limoges : Lambert-Lucas, 137-148.

Degand L. & Simon A. C. (2009). « On identifying basic discourse units in speech : Theoretical and empirical issues », Discours 4, http://discours.revues.org/5852.

Dister A. & Simon A. C. (2007). « La transcription synchronisée des corpus oraux. Un aller-retour entre théorie, méthodologie et traitement informatisé », Arena Romanistica 1, 1 : 54-79.

Dister A., Francard M., Hambye Ph. & Simon A. C. (2009 [2007]). « Du corpus à la banque de données. Du son, des textes et des métadonnées. L’évolution de banque de données textuelles orales VALIBEL (1989-2009) », Cahiers de l’Institut de linguistique de Louvain (CILL) 33, 2 : 113-129.

Durand J., Laks B. & Lyche C. (éd.) (2009). Phonologie, variation et accents du français. Paris : Hermès.

Francard M. (1993). « Trop proches pour ne pas être différents. Profils de l’insécurité linguistique dans la communauté française de Belgique », Cahiers de l’Institut de linguistique de Louvain 19 : 61-70.

Francard M., Geron G., Wilmet R. & Wirth A. (2015). Dictionnaire des belgicismes. De Boeck : Bruxelles.

Freund A. & Baltes P. B. (2003). « Pour un développement et un vieillissement réussis : sélection, optimisation et compensation », Revue québécoise de psychologie 24, 3 : 27-50.

Gerstenberg A. (2009). « The multifaceted category of ‘Generation’ : Elderly French men and women talking about May 68 », International Journal of the Sociology of Language 200 : 153-170.

Gerstenberg A. (2011). Generation und Sprachprofile im höheren Lebensalter. Untersuchungen zum Französischen auf der Basis eines Korpus biographischer Interviews (Analecta Romanica 76). Frankfurt am Main : Klostermann.

Corpus, 15 | 2016 134

Hambye Ph. & Simon A. C. (2009). « La prononciation du français en Belgique », in J. Durand, B. Laks & Ch. Lyche (éd.) Phonologie, variation et accents du français. Paris : Hermès, 95-130.

Hamilton H. E. (2001). « Discourse and aging », in D. Schiffrin, D. Tannen & H. E. Hamilton (éd.) The Handbook of Discourse Analysis. Malden, Oxford : Blackwell, 568-589.

Lee H. (2012). Langage et Maladie d’Alzheimer : Analyse multidimensionnelle d’un discours pathologique. Thèse de doctorat (non publiée). Montpellier : Université Paul Valéry - Montpellier III.

Lee H. & Barkat-Defradas M. (2014). « Complexité phonétique et disfluence dans le vieillissement normal et dans la maladie d’Alzheimer », SHS Web of Conferences 8. EDP Sciences : 1315-1327.

Martin L., Degand L. & Simon A. C. (2014). « Forme et fonction de la périphérie gauche dans un corpus oral multigenre annoté », Corpus 13 : 243-265.

Mathey S. & Postal V. (2008). « Le langage », in K. Dujardin & P. Lemaire (éd.) Neuropsychologie du vieillissement normal et pathologique. Issy-les-Moulineaux : Elsevier Masson, 79-102.

Rossi D., Dominicy M. & Kolinsky R. (2014). « The inference of affective meanings : An experimental study », Language and Cognition, 7/3 : 351-370.

Rousier-Vercruyssen L., Lacheret A. & Fossard M. (2014). « Pauses silencieuses, planification discursive et vieillissement langagier », Nouveaux Cahiers de linguistique française 31 : 197-203.

Searl J. P., Gabel R. M. & Fulks J. S. (2002). « Speech disfluency in centenarians », Journal of Communication Disorders 35, 5 : 383-392.

Shriberg E. (1994). Preliminaries to a Theory of Speech Disfluencies. Thèse de doctorat. University of California at Berkeley.

Shriberg, E. (2001). « To ‘errrr’ is human : Ecology and acoustics of speech disfluencies », Journal of the International Phonetic Association 31, 1 : 153-169.

Simon, A. C. (éd.) (2012). La variation prosodique régionale en français. Bruxelles : De Boeck/Duculot.

Simon A. C., Francard M. & Hambye Ph. (2014). « The VALIBEL Speech Database », in J. Durand, U. Gut & G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology. Oxford : Oxford University Press, 552-561.

Smith S. W., Noda H. P., Andrews S. & Jucker A. H. (2005). « Setting the stage : How speakers prepare listeners for the introduction of referents in dialogues and monologues », Journal of Pragmatics 37 : 1865-1895.

Van Goethem K. & Hiligsmann Ph. (2014). « When two paths converge : Debonding and clipping of Dutch reuze ‘lit. giant ; great’ », Journal of Germanic Linguistics 26, 1 : 31-64.

NOTES

1. La banque de données compte aussi une grande quantité d’enregistrements en cours de traitement : 379 entrées de métadonnées encodées dans le système sans transcriptions, et 520 fichiers son sans transcription correspondante. 2. Dans les conventions de transcription VALIBEL, les symboles |- et -| indiquent le début et la fin d'un passage de parole en chevauchement.

Corpus, 15 | 2016 135

RÉSUMÉS

Après avoir fait l’état des lieux de la base de données VALIBEL en la situant dans son contexte institutionnel, nous mettons en exergue dans cet article quelques possibilités d’investigation qu’offre la base en regard de ses évolutions récentes. Une attention particulière est portée à l’outillage des corpus en termes de disfluences (avec le programme DisMo) et à l’étude du vieillissement langagier (liée au corpus Corpage). Nous concluons en montrant en quoi l’enrichissement constant de la base (en outillage et en corpus) permet d’ouvrir de nouvelles pistes de recherches dans des domaines encore peu explorés en linguistique, eu égard à des problématiques sociétales majeures.

This paper aims at giving an overview of the VALIBEL database as it stands today. In addition, it opens up new perspectives with respect to more recent advances regarding (semi-automatic) annotation, as well as with regard to new corpora created to address societal issues (cf. the Corpage corpus). Particular attention is paid here to the automatic detection of disfluencies in the corpus data (using the DisMo program), with a developmental view on language and aging.

INDEX

Mots-clés : corpus, annotation, français, disfluences, vieillissement Keywords : corpus, annotation, French, disfluencies, aging

AUTEURS

CATHERINE T. BOLLY Universität zu Köln, Université catholique de Louvain

GEORGE CHRISTODOULIDES Université catholique de Louvain

ANNE CATHERINE SIMON Université catholique de Louvain

Corpus, 15 | 2016 136

PFC, codages et représentations : la question du schwa PFC, coding systems and representations: the issue of schwa

Isabelle Racine, Jacques Durand et Helene N. Andreassen

Nous tenons à remercier Marie-José Béguelin, Federica Diémoz et Mathieu Avanzi pour l’organisation du colloque « Corpus de français parlés et français des corpus » à Neuchâtel, les 8 et 9 mai 2014, journées qui sont à l’origine de cette publication. Nous remercions également l’ensemble de nos collègues impliqués dans le programme PFC ainsi que tous les locuteurs qui ont permis de constituer la base de données. Nous sommes également reconnaissants à Léa Courdès- Murphy pour son aide avec les données méridionales. Le travail sur les données suisses romandes n’aurait pas été possible sans le travail de N. Bühler, A. Claivaz, C. Moulin, J.-P. Philippe et P. Montchaud, qui ont récolté, transcrit et codé les données, et le soutien de l’Université d’Oslo (C. Lyche), de l’Université de Genève et de l’Université de Neuchâtel (M.-J. Béguelin et M. Avanzi). Enfin, nous tenons à remercier Julien Eychenne pour son aide avec les scripts Praat utilisés pour l’analyse du schwa dans les données suisses romandes.

1 L’objectif de cet article est, d’une part, de présenter un état des lieux du programme « Phonologie du français contemporain : usages, variétés et structure » (ci-après PFC, Durand, Laks & Lyche, 2009 ; Durand, Laks & Lyche, 2014), après plus de quinze ans d’existence et, d’autre part, d’illustrer l’intérêt d’un tel corpus à travers la question du schwa. Dans la deuxième partie de cet article, nous aborderons donc la problématique du schwa en français et nous montrerons comment ce phénomène est traité dans le programme PFC. Nous illustrerons ensuite nos propos en nous penchant tout d’abord sur le comportement du schwa dans les variétés méridionales, que nous opposerons aux variétés septentrionales, avant d’aborder la question du schwa dans les variétés suisses romandes.

Corpus, 15 | 2016 137

1. Le programme « Phonologie du français contemporain : usages, variétés et structure »

2 Les premières réflexions qui ont conduit à la naissance du programme1 PFC ont été menées à la fin des années 90 dans le contexte d’un retour au premier plan de la linguistique de corpus. Comme le souligne Laks & Calderone (2014) et Detey et al. (à paraître), de nombreuses études sur le français sont fondées sur des données héritées de la tradition prescriptive ou sur des exemples isolés qui, repris d’article en article, ont fini par acquérir un faux air d’authenticité2. La construction d’un important corpus de référence permettant de rendre compte de la diversité des usages oraux du français dans l’ensemble de la francophonie est donc au cœur de ce programme. De nombreuses recherches, dans des domaines variés, ont été effectuées dans ce cadre depuis plus de quinze ans. Il nous paraît important de souligner ici que, même si le programme – comme son nom l’indique – est centré sur la phonologie, la base de données constituée en son sein permet des applications plus larges (cf. infra). Actuellement coordonné par Marie-Hélène Côté (Université de Laval), Jacques Durand (Université de Toulouse), Bernard Laks (Université de Paris Ouest Nanterre) et Chantal Lyche (Université d’Oslo), ce projet collaboratif regroupe plus de soixante chercheurs de différents pays et fait aujourd’hui figure de corpus de référence pour le français parlé.

3 Sur la base d’un protocole commun, les données de plus de 700 locuteurs issus de l’ensemble de la francophonie ont été collectées – dont un peu plus de 40 % ont été transcrites et analysées. Pour chaque enquête, les enquêteurs – qui sont choisis pour leur connaissance du terrain – sélectionnent 10 à 12 locuteurs en faisant appel à leur réseau de connaissances. Jusqu’ici, la variation géographique a été favorisée dans le programme et chaque point d’enquête couvre donc une aire spécifique de la francophonie (voir le site du projet3 pour la liste détaillée des points d’enquête existants). Si l’on peut certes regretter le nombre relativement restreint d’informateurs par point d’enquête (en moyenne 12 par enquête), il faut savoir que cette décision a été dictée par des aspects purement pragmatiques. Des études pilotes ayant en effet montré que la transcription et l’annotation des données d’un seul locuteur requièrent entre 20 et 30 heures de travail, il n’était pas réaliste, dans un premier temps, d’aller au-delà de ce nombre. Cela n’empêche toutefois pas les équipes disposant des ressources humaines nécessaires d’effectuer des études à plus large échelle. C’est ce qui est actuellement réalisé dans le projet « Langue, ville, travail, identité » (ci-après LVTI), coordonné par Hélène Giraudo, Anne Przewozny, Jean-Michel Tarrier et Jacques Durand, dans le cadre duquel des enquêtes à grande échelle (plus de 100 locuteurs) sont menées conjointement à Toulouse et à Manchester (pour plus de détails, voir Durand & Przewozny, 2012). Pour chaque point d’enquête PFC, les deux sexes sont équitablement représentés, trois tranches d’âge sont généralement couvertes (p. ex. 20+, 40+ et 70+) et une certaine diversité socio-économique est visée, même si cet aspect est plus difficile à assurer avec d’aussi petits groupes de locuteurs. La méthodologie de recueil de données, dans la droite ligne des travaux classiques de Labov, inclut, pour chaque locuteur, quatre tâches : la lecture d’une liste de mots, la lecture d’un texte, un entretien semi-dirigé ainsi qu’un entretien libre entre deux – parfois trois – locuteurs.

4 La liste de mots comprend 94 éléments qui doivent être lus à voix haute par tous les locuteurs. Tous les mots de la liste appartiennent à un vocabulaire courant et sont souvent repris d’enquêtes antérieures, ce qui garantit, d’une part, une certaine

Corpus, 15 | 2016 138

comparabilité entre PFC et ces travaux antérieurs et, d’autre part, confère une dimension historique au programme. Bien que la liste comprenne toutes les oppositions consonantiques classiques et l’analyse d’un certain nombre de groupes consonantiques, les contrastes vocaliques en position accentuée ont été largement favorisés. L’étude systématique d’autres phénomènes, tels que l’harmonie vocalique, l’allongement ou le relâchement vocalique, aurait nécessité une extension conséquente de cette liste. Ces phénomènes ont parfois été inclus dans les listes supplémentaires qui complètent le protocole de certains points d’enquête. C’est le cas notamment pour les enquêtes réalisées en Suisse romande (voir Racine & Andreassen, 2012), ainsi que pour les points d’enquête canadiens (voir Côté, 2012). La liste PFC se termine par cinq paires minimales potentielles : patte vs pâte, épais vs épée, jeune vs jeûne, beauté vs botté et brun vs brin, pour lesquels l’édition 2010 du Petit Robert propose la prononciation suivante : patte /pat/, pâte /pɑt/, épais /epɛ/, épée /epe/, jeune /ʒœn/, jeûne /ʒøn/, beauté /bote/, botté /bɔte /, brun /bʁœ̃/ et brin /bʁɛ̃/.

5 La lecture à voix haute d’un texte constitue la deuxième tâche du protocole. Ce texte, artificiellement construit sur le modèle d’un article de journal, inclut non seulement un grand nombre d’oppositions vocaliques et consonantiques attestées dans les différentes variétés de français mais également un certain nombre de phénomènes typiques du français, tels que le schwa et la liaison notamment. Toutes les oppositions phonémiques testées dans la liste de mots sont également présentes dans le texte, avec de nombreux mots identiques (p. ex. : patte et pâte, jeune et jeûne, etc.).

6 Les deux dernières tâches du protocole sont un entretien semi-dirigé – qui est appelé conversation guidée – entre l’enquêteur et l’informateur, et un entretien libre – appelé conversation libre – entre deux, voire trois informateurs qui sont des intimes. Idéalement, ces deux conversations devraient se distinguer au niveau du degré de formalité, la conversation libre étant en principe moins formelle que la guidée. Toutefois, l’expérience montre que, dans la réalité, ces deux styles de parole ne se distinguent parfois pas autant que ce qu’ils devraient. Cette caractéristique n’est pas spécifique au programme PFC mais se retrouve systématiquement dans toutes les tentatives d’obtenir de la parole naturelle, tout en respectant les informateurs ainsi que leurs droits4.

7 Afin d’assurer la comparabilité des données dans un projet aussi vaste que PFC, l’adoption d’un format commun pour le stockage, la transcription, l’annotation et l’analyse préliminaire des données est indispensable. Les enregistrements sonores sont donc conservés dans un format informatique standard (format wav) et sont accompagnés de transcriptions et d’annotations alignées avec le signal par le biais du logiciel spécialisé Praat (Boersma & Weenink, 2014), et qui sont elles aussi conservées dans un format standardisé ou qui peut être facilement converti (textgrid Praat). La couche zéro du programme PFC est constituée par des transcriptions orthographiques. Celles-ci obéissent autant que possible aux conventions de l’orthographe ordinaire. Deux cibles sont privilégiées dans le programme PFC, à savoir le schwa et la liaison. Pour toutes les enquêtes, ces deux phénomènes sont traités de manière systématique par le biais d’un codage alphanumérique, effectué sous Praat, et inséré dans des tires séparées (une tire par phénomène). Divers outils génériques ou propres au projet, tels que par exemple le concordancier Dolmen (Eychenne & Paternostro, à paraître) permettent ensuite d’explorer les données et de les croiser avec des métadonnées telles

Corpus, 15 | 2016 139

que l’âge de la personne ou sa profession, par exemple. À ce jour, 51 798 sites ont ainsi été codés pour la liaison, ainsi que 202 089 en ce qui concerne le schwa.

8 Beaucoup d’énergie a été consacrée à mettre au point et expliciter les différents codages utilisés. C’est le prix à payer, si une base de données peut être consultée par d’autres chercheurs que les membres d’un programme et si son exploration permet d’étayer ou d’invalider des observations et des hypothèses déjà formulées par d’autres chercheurs. Dans la deuxième partie de cet article, nous illustrons concrètement, à travers la problématique du schwa, le travail effectué dans le programme. Nous présentons tout d’abord le codage élaboré pour traiter ce phénomène dans le programme PFC, avant d’examiner le comportement du schwa dans différentes variétés de français, méridional et suisse romand, par le biais d’une approche où se côtoient analyses phonologiques et phonétiques. Par ce biais, nous espérons démontrer comment un renouvellement et un élargissement des données permettent de mieux cerner certains problèmes.

2. Le schwa et son traitement dans PFC

Le schwa – également appelé parfois « e muet », « e caduc » ou encore « e féminin », selon les auteurs – est une voyelle qui présente la particularité d’alterner avec zéro. Walter (1990 : 27) la considère comme « difficile à cerner » et Verluyten (1988) va même jusqu’à la qualifier de « voyelle problème » étant donné que presque toutes ses propriétés sont sujettes à contestation. Elle est ainsi soumise à la variation sur plusieurs plans. Elle peut ou non être réalisée en fonction de différents facteurs, tels que, par exemple, le nombre et le type de consonnes, la fréquence lexicale, la provenance du locuteur, son origine sociale, l’intelligibilité ou le style de discours ou encore le rythme ou le débit (pour une revue détaillée de ces facteurs, voir Racine & Grosjean, 2002 ; Racine, 2008). Par ailleurs, lorsqu’elle est réalisée, son timbre varie et peut aller de [œ] à [ø] (pour des études récentes, voir p. ex. Fougeron et al., 2007a ou Bürki et al., 2008). Sur le plan graphique, elle correspond généralement à un non suivi d’une consonne à l’intérieur de la même syllabe (ex. semaine, avec schwa, vs bercer, avec [ɛ]). On note toutefois quelques exceptions, telles que certaines formes du verbe faire (ex. faisait, faisant) ou encore monsieur.

9 Comme nous l’avons mentionné précédemment, le schwa constitue, avec la liaison, l’une des deux cibles privilégiées du programme PFC. Comme la liaison, le schwa est traité par le biais d’un codage alphanumérique spécifique, dans une tire dédiée de Praat. Ce codage comprend quatre champs : le premier indique si le schwa est présent ou absent (0 = schwa absent, 1 = schwa présent et 2 = schwa incertain), le deuxième, sa position à l’intérieur du mot (1 = monosyllabe, 2 = 1re syllabe de polysyllabe, 3 = 2 e syllabe et suivantes de polysyllabe, 4 = dernière syllabe de polysyllabe et 5 = métathèse), le troisième, son contexte gauche (1 = voyelle à gauche, 2 = consonne à gauche, 3 = début de groupe intonatif, 4 = schwa incertain à gauche, 5 = groupe consonantique simplifié et 6 = voyelle immédiatement à gauche) et le dernier, son contexte droit (1 = voyelle à droite, 2 = consonne à droite, 3 = frontière intonative forte ou fin d’énoncé, 4 = frontière intonative faible). Ainsi, par exemple, dans la séquence « il a regardé », on adoptera le codage « re0212gardé » si le schwa n’est pas réalisé et « re1212gardé » s’il est présent (pour plus de détails concernant la procédure de codage, voir Lyche, à paraître). L’ensemble des schwas des données transcrites orthographiquement (texte et

Corpus, 15 | 2016 140

conversations) sont annotés en suivant cette procédure. Ces données peuvent ensuite être analysées par le biais de la plateforme Dolmen (Eychenne & Paternostro, à paraître), qui permet d’effectuer des requêtes ciblées et fournit des statistiques descriptives sur les données codées. Cette procédure de traitement du schwa a permis d’effectuer des analyses détaillées de ce phénomène central de la phonologie française (voir, p. ex., Durand & Eychenne, 2004 ; Eychenne, 2006 ; Pustka, 2007 ; Côté, 2012 ; Hansen, 2012).

10 Dans la suite de ce travail, nous présentons deux illustrations concrètes de l’apport des données PFC à la problématique du schwa en français, la première dans les variétés méridionales, la deuxième dans les variétés suisses romandes.

3. Le schwa dans les variétés méridionales

Le schwa constitue l’un des phénomènes qui permet de différencier les variétés septentrionales et méridionales de français. Comme le mentionne Coquillon & Durand (2010 : 191), même s’il s’agit d’une simplification abusive, car la situation est en réalité bien plus complexe qu’il n’y paraît à première vue, il est généralement reconnu que les variétés du Midi tendent à réaliser de manière quasi systématique les schwas qui sont généralement élidés dans les variétés au nord de la Loire.

11 D’une manière générale, la position finale présente un contraste important avec la syllabe initiale. Ainsi, comme le relèvent Coquillon & Durand (2010), lorsqu’une consonne finale est suivie d’un graphique, elle est généralement suivie d’une réalisation vocalique dans la plupart des variétés méridionales classiques, alors qu’il n’y a quasiment pas de réalisation de schwa épenthétique lorsque la consonne n’est pas suivie d’un graphique (86.8 % de réalisation vs 2.5 % dans l’étude de Durand & Eychenne, 2004). Les variétés méridionales conservatrices font donc une opposition entre le schwa et zéro à la finale, en étroite corrélation avec la présence d’un graphique (p. ex. : lac vs laque). Ce schwa, même dans les variétés les plus conservatrices, s’efface systématiquement devant une voyelle dans un groupe rythmique (p. ex. : la caisse est vide).

12 En position interne et dans les premières syllabes des mots, la situation est complexe. En position interne au sein d’un mot (p. ex. : tellement), le schwa est généralement résistant à l’effacement. Dans cette position, le schwa phonologique que l’on reconstruit ne peut être justifié que par sa position faible et la loi de position à gauche, car sa qualité phonétique est très variable. En syllabe initiale de mot (p. ex. : lever), il y a identité phonétique avec une voyelle antérieure arrondie stable (p. ex. : leurrer) et donc aucune justification pour poser un schwa (Durand, Slater & Wise, 1987 ; Durand, 2009). Dans cette position, la grande majorité des voyelles est donc maintenue. D’un point de vue phonologique, la position finale inaccentuée semble plus faible – et donc plus propice à l’effacement – que la position interne, qui, à son tour, est plus faible que l’initiale de mot (Coquillon & Durand, 2010).

13 Toutefois, les enquêtes PFC dans le Midi démontrent que ce système est en pleine évolution. Dans ce qui suit, nous examinerons tout d’abord cinq enquêtes, dont deux dans de petits villages du Languedoc (Douzens, 600 habitants, et Lacaune, 3 000 habitants) et trois dans des villes (Aix-en-Provence, Marseille et Biarritz) et nous comparerons ensuite les résultats avec l’enquête LVTI, en cours à Toulouse (cf. supra)5.

Corpus, 15 | 2016 141

14 La Figure 1 présente une comparaison des taux de présence du schwa en position interne (p. ex. : tellement) et finale (p. ex. : une telle menteuse) dans les données tirées des deux types de conversations PFC (guidées et libres).

Figure 1. Taux de présence de schwas en position interne et finale : comparaison de données conversationnelles tirées de cinq enquêtes effectuées dans le sud de la France

Taux de présence du schwa Régions Position interne VCeC Position finale VCe#C

Douzens 94.9 % 78.7 %

Lacaune 97 % 78.8 %

Aix-Marseille 74.5 % 19 %

Marseille 65.2 % 17.3 %

Biarritz 71.8 % 26.4 %

15 En position finale, une différence considérable peut être observée entre, d’un côté, Douzens et Lacaune, soit les deux villages, et, de l’autre, les trois points d’enquête urbains, avec une tendance à l’effacement plus marquée dans ces dernières. Une tendance similaire semble émerger pour la position interne – avec Marseille, qui paraît être aux avant-postes –, mais le changement semble encore y être dans sa phase initiale. Ces observations confirment qu’il existe une tendance au nivellement vers l’usage septentrional dans les villes du Sud de la France. Cette conclusion est confortée par l’observation que ce sont les jeunes locuteurs qui constituent le fer de lance du changement, comme on peut l’observer dans la Figure 2, établie à partir des mêmes cinq points d’enquête.

Figure 2. Taux de présence de schwas en position interne et finale : comparaison en fonction de l’âge de données conversationnelles tirées de cinq enquêtes effectuées dans le Sud de la France

Taux de présence du schwa Age Position interne VCeC Position finale VCe#C

< 26 ans 21.2 % 31.4 %

26-59 ans 47.8 % 21.7 %

> 59 ans 66.9 % 78.7 %

16 Les jeunes sont les plus innovateurs, sauf pour la position finale où la tranche du milieu semble plus en avance. En réduisant les groupes d’âge à deux tranches, à savoir moins de 40 ans et plus de 40 ans, une différence majeure apparaît : le taux de présence du schwa pour les locuteurs de moins de 40 ans chute à 30.3 %, alors qu’il est de 67.4 %

Corpus, 15 | 2016 142

pour les locuteurs de plus de 40 ans. Cela semble par conséquent suggérer que le changement a déjà pris place sur deux générations.

17 L’enquête LVTI en cours à Toulouse, qui s’appuie pour l’instant sur les résultats de 21 locuteurs analysés suivant le protocole PFC, confirme les résultats ci-dessus, comme le montre la Figure 3.

Figure 3. Taux de présence de schwas en position interne et finale : comparaison en fonction de l’âge de données conversationnelles de l’enquête de Toulouse

Taux de présence du schwa Age Position interne VCeC Position finale VCe#C

20-23 ans 17 % 10 %

27-35 ans 21 % 15 %

53-67 ans 86 % 44 %

79-95 ans 95 % 56 %

18 Une baisse significative du taux de réalisation du schwa peut être observée chez les plus jeunes locuteurs. Globalement, la position finale semble plus touchée par l’affaiblissement du schwa que la position interne, qui offre une image plus contrastée. Il faut relever également que, parmi les 21 locuteurs analysés, deux jeunes – l’un de 23, et l’autre de 29 ans – réalisent un schwa après une consonne orthographique finale en position pré-consonantique ou pré-pausale. On observe ainsi, chez ces deux locuteurs, un basculement vers un système correspondant à celui en vigueur dans les variétés septentrionales pour la position finale de mot, système dans lequel l’opposition entre lac et laque semble donc menacée.

19 En position interne, les analyses acoustiques réalisées sur les séquences des jeunets vs des genêts dans la lecture de la liste de mots PFC démontrent la quasi-identité acoustique de la première voyelle de jeunets et de celle de genêts avec les valeurs formantiques suivantes : pour jeunets, F1 = 300 Hz, F2 = 1 700 Hz et F3 = 2 200 Hz et pour genêts, F1 = 340 Hz, F2 = 1 800 Zh et F3 = 2 200 Hz. Si l’on compare ces valeurs aux moyennes formantiques de Calliope (1989), on observe que ces voyelles sont à rattacher à un [ø] prototypique, par opposition à [œ] ou [ə]. Sur la base des données d’Aix- Marseille, Coquillon & Turcsan (2012) obtiennent, pour cette position, un taux de présence global de 91 % et montrent que seuls quelques mots fréquents peuvent être réalisés sans schwa, tels que, par exemple, petit, serai, semaine. Durand, Slater & Wise (1987) considèrent que, cette voyelle n’étant que très rarement soumise à alternance, il n’y a donc pas lieu de la considérer comme un schwa phonologique, et c’est ce que les données méridionales semblent refléter. Les données de Toulouse confirment également cette tendance puisque les 47 items où la voyelle n’est pas réalisée dans cette position sont tous des mots très fréquents. Cela rejoint les observations d’Eychenne (2006), dans son étude effectuée au Pays basque, qui montre lui aussi l’importance de la fréquence lexicale, qui nous oriente vers des cadres privilégiant les usages, tels que celui de Bybee (2001).

Corpus, 15 | 2016 143

20 En résumé, les variétés méridionales offrent un continuum qui part de lois « néogrammairiennes » du type /ə/ → Ø / — (#) V, et passe par des effacements à la finale de mot qui ne sont pas liés à l’identité lexicale du mot (contexte VCe#C ou VCe##), pour arriver à des alternances affectant les syllabes initiales de quelques mots fréquents (semaine vs s(e)maine). Une bonne interprétation des changements en cours exige une meilleure compréhension des contextes phonologiques et de la nature faible de certaines positions au sein des mots. Le changement en cours ne semble néanmoins pas uniquement explicable en termes phonologiques classiques. En dehors de la relation de subordination sociolinguistique des variétés méridionales au français septentrional, qui est centrale, certains de ces changements impliquent la fréquence et relèvent plus du contact entre variétés avec emprunts de formes in toto que de réorganisations de paramètres phonologiques.

4. Le schwa dans les variétés suisses romandes

21 Certains éléments évoqués dans l’analyse des variétés du Midi semblent pouvoir trouver un éclaircissement dans les données des points d’enquête PFC suisses romands (où trois points d’enquête sont achevés – Nyon, Neuchâtel et Genève –, et un est en cours de vérification – Martigny), notamment en ce qui concerne la syllabe initiale de mot. Si, d’une manière générale, au niveau de l’inventaire phonologique, les variétés de Suisse romande ne diffèrent que très peu des variétés hexagonales septentrionales (Andreassen, Maître & Racine, 2010 ; Racine & Andreassen, 2012 ; Racine, Andreassen & Benetti, à paraître), elles sont souvent citées comme comportant un taux plus élevé d’effacement du schwa en syllabe initiale de polysyllabes (Walter, 1982). En effet, des occurrences telles que une ch’nille, quat(r)’ s’mestres ou encore une f’melle, si elles sont tout à fait normales et fréquentes en Suisse romande, posent cependant problème à toute théorie phonologique qui, directement ou indirectement, réfère les effacements à la bonne formation des groupes consonantiques attestés à l’initiale de mots. En suivant cette hypothèse, les données romandes semblent par conséquent fournir un cadre propice à l’approfondissement de la question de la chute du schwa en position initiale de mot et plus spécifiquement celle du rôle de la fréquence lexicale sur le maintien ou l’effacement du schwa dont le pouvoir explicatif – au cœur de l’approche de Bybee (2001) centrée sur les usages – a déjà été évoqué par différents auteurs (Racine & Grosjean, 2002 ; Eychenne, 2006 ; Pustka, 2007 ; Racine, 2008).

22 Avant de nous concentrer uniquement sur la position initiale, nous commençons notre examen du schwa suisse romand d’abord par la question de sa qualité vocalique en syllabe initiale (p. ex. chemise) et médiane (p. ex. dégeler). Les codages schwa effectués dans le cadre de PFC ne fournissant aucune indication sur la nature phonétique de la voyelle concernée, des études acoustiques plus poussées s’avèrent par conséquent indispensables. Depuis Dell (1973), de nombreux travaux générativistes ont défendu, pour le schwa, une identité avec la voyelle [œ]. Toutefois, comme nous l’avons vu précédemment, cela ne semble pas être le cas pour les locuteurs méridionaux, et la situation est encore différente en Suisse romande.

23 Bürki et al. (2008) ont comparé les réalisations du schwa dans la liste de mots et le texte lu de trois points d’enquête PFC – Brunoy (Ile-de-France), Québec (ville) et Nyon (Suisse romande). Les schwas de syllabe initiale (p. ex. chemise, petit) et médiane (p. ex. indiqueraient, dégeler) de 9 mots présentant une alternance dans les données (présence/

Corpus, 15 | 2016 144

absence du schwa) – soit 294 occurrences au total, dont 150 produites avec schwa – ont été comparés aux réalisations des voyelles /i, u, a, œ, ø/. Les résultats montrent d’une part qu’à Nyon la qualité phonétique de la voyelle de ces mots diffère de celle de mots tels que neuf ou deux. Le schwa présente en effet une aperture intermédiaire par rapport aux deux autres voyelles, tout en étant moins antérieur que celles-ci. Au niveau de l’arrondissement, il est plus proche de [œ] que de [ø]. Les données montrent d’autre part qu’il se distingue du schwa de Brunoy, celui-ci étant plus fermé, tout comme semble l’être l’ensemble du système vocalique de cette variété d’Ile-de-France, par rapport aux deux autres régions. Ainsi, le schwa des locuteurs nyonnais se différencie à la fois de celui des deux autres variétés et des deux autres voyelles moyennes antérieures [œ] et [ø]. Si l’on suit l’hypothèse de Walter (1976), cette étude montre par conséquent que les locuteurs nyonnais possèdent un vrai schwa phonétique, différent des deux autres voyelles moyennes antérieures. Cette position semble très dynamique dans les variétés romandes puisque l’on peut fréquemment y observer des formes qui certes apparaissent dans les variétés septentrionales mais de manière beaucoup moins systématique. Racine et Grosjean (2002), Racine (2007) et Racine (2008) montrent que, comme nous l’avons relevé pour expliquer les données méridionales, en Suisse romande, la fréquence lexicale des mots est une variable importante (p. ex. schwa davantage maintenu dans demeure que dans demande), de même que la fréquence estimée de production des deux variantes, avec et sans schwa, et que ces deux facteurs semblent constituer de meilleurs prédicteurs des productions de nos locuteurs que le contexte segmental environnant. Au niveau de la fréquence estimée des variantes, Racine (2008) observe un décalage dans les jugements français (région de Nantes) et suisses (région de Neuchâtel) fournis pour 378 substantifs avec un schwa en syllabe initiale (p. ex. la semaine). Les Suisses romands acceptent en effet mieux l’effacement du schwa dans ce type de mots que les Français, avec des différences parfois très saillantes pour certains mots : ainsi, si dans le mot femelle, l’alternance (femelle/f’melle) est tout à fait autorisée à Neuchâtel – et de manière générale en Suisse romande –, cela ne semble pas du tout être le cas à Nantes.

24 Nous terminons cet examen du schwa suisse en abordant la question de sa durée en position initiale. Dans une étude basée sur les productions de 16 locuteurs suisses romands, Racine & Grosjean (2002) ont obtenu des résultats intéressants. Ils ont tout d’abord montré qu’il s’agit d’une voyelle relativement brève, avec une durée relative qui s’échelonne entre 6.11 % et 24.92 % de la durée totale du mot. Leurs résultats révèlent également l’existence d’une corrélation entre la présence du schwa et sa durée : pour un mot donné, plus le taux de présence est élevé, plus le schwa, lorsqu’il est produit, est long. Ainsi pour le mot menu, qui obtient un taux de présence de 81.25 %, la durée moyenne du schwa – lorsqu’il est présent – représente 20.29 % de la durée totale du mot. Pour le mot repassage, en revanche, le taux de présence n’est que de 26.67 % et la durée du schwa ne représente que 7.42 % de la durée totale du mot. Ces observations rejoignent celles d’autres travaux sur le français hexagonal qui ont montré que le schwa est sujet à une réduction spectrale et temporelle (voir Bürki et al., 2007 et, pour des données similaires pour l’anglais, voir Patterson et al., 2003), tout comme d’autres voyelles du français (voir p. ex. Su, 2003 et Adda-Decker et al., 2005).

25 Dans la continuité de ces travaux, nous avons mené une étude comparative sur les données PFC des deux conversations de trois points d’enquête suisses, Martigny, Neuchâtel et Nyon. Douze locuteurs d’âge moyen (entre 42 et 59 ans) ont été sélectionnés, quatre dans chaque enquête (2 femmes et 2 hommes). Dans les parties

Corpus, 15 | 2016 145

transcrites des deux conversations PFC (10 minutes par conversation), tous les mots contenant un schwa en syllabe initiale, réalisé ou non, ont été délimités (579 occurrences au total représentant 154 mots différents). Sur une base auditive et visuelle, la présence du schwa a été déterminée par deux phonéticiennes expérimentées. En outre, lorsque le schwa était présent, sa durée a été délimitée également sur une base acoustique et visuelle. À l’aide d’un script Praat, la durée du schwa a été calculée en fonction de la durée totale du mot (= durée relative). Des analyses statistiques ont ensuite été conduites afin de déterminer si la région (Martigny, Neuchâtel, Nyon) a un effet sur le taux de présence du schwa ainsi que sur sa durée relative.

26 Tout d’abord, le taux de présence global du schwa dans l’ensemble du corpus s’élève à 29.02 %. Hansen (1994), dans son étude réalisée à Paris, obtient quant à elle, en conversation, un taux de présence du schwa de 37 %. Ce résultat semble donc confirmer qu’en syllabe initiale de mot, le schwa a davantage tendance à chuter en Suisse romande que dans les variétés hexagonales septentrionales, ce qui est cohérent avec les observations de Walter (1982) et de Racine (2008). Ensuite, les résultats montrent que la durée relative moyenne du schwa dans l’ensemble du corpus est de 19.39 %, avec des valeurs s’échelonnant entre 5.02 % et 37.17 %. (vs 6.11 % – 24.92 % dans l’étude de Racine & Grosjean, 2002). En comparaison, sur la base de données radiophoniques françaises, Bürki et al. (2011), obtiennent une durée relative moyenne du schwa de 15 %. Ces résultats confirment donc que le schwa est une voyelle relativement brève comparée à d’autres voyelles du français (Fougeron et al., 2007b, Gendrot & Adda- Decker, 2012).

27 Lorsque l’on examine les données en fonction de la région, les résultats montrent un effet global de cette variable sur le taux de présence du schwa (p <0.001), avec un taux plus élevé pour Martigny et Nyon (avec respectivement 30.91 % et 38.76 %, n.s.) comparé à Neuchâtel (18.39 %, p <0.001 pour chaque comparaison : Martigny-Neuchâtel et Nyon-Neuchâtel).

28 Les données montrent également un effet global de la région sur la durée relative du schwa (p <0.01), avec des schwas plus courts pour les locuteurs de Martigny et de Nyon (avec respectivement 17.96 % et 19.37 %, n.s.) comparés à ceux des locuteurs neuchâtelois (22.55 %, p <0.05 pour la différence Martigny-Neuchâtel et p <0.01 pour celle entre Nyon et Neuchâtel)6.

29 Ces résultats révèlent donc des différences régionales importantes. Les données neuchâteloises présentent un taux de présence significativement moins élevé que celui des deux autres régions, tout en se différenciant de ces dernières également par la durée du schwa, plus long dans cette variété. Les locuteurs de Nyon et de Martigny semblent donc maintenir davantage le schwa que les Neuchâtelois, mais avec des schwas plus variables, qui peuvent parfois être très courts. Cela semble indiquer que, si les Neuchâtelois préfèrent un système dichotomique (présence vs absence), les locuteurs de Martigny et de Nyon ont plutôt recours à un système continu, dans lequel le schwa est réduit de manière graduelle. Ces résultats questionnent l’analyse phonologique traditionnelle du schwa français et sont susceptibles d’offrir une opportunité de l’affiner. Dans la plupart des approches traditionnelles, l’alternance voyelle/zéro est vue comme un processus catégoriel et dichotomique, à savoir que soit la cible articulatoire de la voyelle est présente (p. ex. semaine), soit elle est absente (p. ex. s’maine). De plus, l’alternance voyelle/zéro est traditionnellement considérée

Corpus, 15 | 2016 146

comme un processus phonologique et non phonétique, même si des travaux récents ont montré l’existence d’une certaine variabilité acoustique pour le schwa, qui peut être fortement réduit (Bürki et al., 2011). Dans ce sens, les données romandes sont intéressantes puisque, d’une part, les Neuchâtelois semblent refléter la dichotomie de l’analyse phonologique traditionnelle, avec alternance schwa/zéro, alors que les données des locuteurs de Nyon et de Martigny se conforment davantage à une analyse plus phonétique, avec un processus de réduction graduelle. En outre, au niveau psycholinguistique, ces résultats apportent des données intéressantes dans le débat qui oppose les tenants de l’approche abstractionniste à ceux de l’approche exemplariste, en favorisant plutôt la deuxième approche ou une approche intermédiaire, très en vogue actuellement, celle des modèles hybrides (Nguyen, Wauquier & Tuller, 2009).

5. Conclusion

30 Après plus de quinze ans d’existence, le programme PFC offre une base de données conséquente (plus d’un million de mots). Si, comme nous l’avons mentionné précédemment, le protocole tel qu’il a été appliqué jusqu’ici a ses limites, notamment en ce qui concerne le nombre restreint de locuteurs par point d’enquête, et que des études à plus large échelle sont donc nécessaires afin de compléter le panorama – ce qui est justement l’objectif du projet LVTI –, il nous paraît toutefois important de souligner que l’exploitation des données recueillies dans ce cadre ne se limite pas aux aspects phonétiques et phonologiques. En effet, les conversations peuvent également être exploitées d’un point de vue lexical, syntaxique ou discursif, comme le montrent par exemple les travaux de Boutin & Kouamé (2010), Rossi-Gensane (2010), Skattum (2011), Buscail (2013) ainsi que pour la diffusion des savoirs (voir p. ex. Gess et al., 2012 et Detey et al., 2010).

31 En outre, l’un des objectifs de base du programme était aussi de fournir du matériel exploitable pour l’enseignement et l’apprentissage du français. Cette perspective didactique est développée dans deux volets récents du programme : dans le cadre du projet « PFC-Enseignement du français » (PFC-EF ; Detey et al., 2009 ; Detey & Lyche, à paraître) et, d’autre part, dans le projet « Interphonologie du français contemporain » (IPFC ; Detey et al., à paraître ; Racine & Detey, ce volume). PFC-EF propose une exploitation des données du corpus à des fins didactiques et se situe donc dans la continuité des travaux lancés il y a plus d’un demi-siècle par la parution du Français fondamental (Gougenheim et al., 1956). Le projet IPFC, qui constitue quant à lui le volet non natif de PFC, est davantage orienté vers la recherche puisqu’il vise à constituer une base de données de français produit par des apprenants non natifs de différentes L1 afin d’étudier l’acquisition phonologique du français L2 (pour une présentation détaillée de ce volet, voir Racine & Detey, ce volume).

32 Pour conclure, concernant plus précisément le schwa, les analyses présentées ci-dessus illustrent que la méthodologie PFC offre une approche qui permet de renouveler les données dans la diversité des usages, de les explorer sous divers angles et de modéliser les systèmes dans leur dynamique interne. En refusant de placer notre travail au sein de cases étanches (phonétique, phonologie, sociolinguistique, dialectologie, psycholinguistique), nous pensons contribuer à la construction d’une véritable linguistique de l’oral. C’est pour cela que nous défendons un programme qui, partant

Corpus, 15 | 2016 147

d’enquêtes de terrain, mène à des analyses qui puisent dans plusieurs traditions pour offrir une vision plus globale de la phonologie du français.

BIBLIOGRAPHIE

Adda-Decker M., Boula de Mareüil P., Adda G. & Lamel L. (2005). « Investigating syllabic structures and their variation in spontaneous French », Speech Communication 46 : 119-139.

Andreassen H. N., Maître R. & Racine I. (2010). « La Suisse », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement. Paris : Ophrys, 211-233.

Andreassen H. N. & Racine I. (à paraître). « Variation in Switzerland : the behaviour of schwa in Martigny, Neuchâtel and Nyon », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Baude O. (2006). Corpus oraux. Guide des bonnes pratiques. Centre de ressources pour la description de l’oral (CRDO). Paris : CNRS Éditions.

Boersma P. & Weenink D. (2014). Praat : doing phonetics by computer. http://www.praat.org.

Boutin B. A. & Kouamé K. (2010), « Analyse énonciative comparée des systèmes hypothétiques en si en français de Côte d’Ivoire et en sε en baoulé dans un discours fictionnel », Autour du verbe, Le français en Afrique 26 : 71-84.

Bürki A., Fougeron C., Gendrot C. & Frauenfelder U. (2007). « De l’ambiguïté de la chute du schwa en français », Schwa(s), Actes des 5es Journées d’études linguistiques 2007, Université de Nantes, 27-28 juin 2007, 83-88.

Bürki A., Fougeron C., Gendrot C. & Frauenfelder U. (2011). « Phonetic reduction versus phonological deletion of French schwa : some methodological issues », Journal of Phonetics 39 : 279-288.

Bürki A., Racine I., Andreassen H. N., Fougeron C. & Frauenfelder U. (2008). « Timbre du schwa en français et variation régionale : une étude comparative », Actes des 27es Journées d’études sur la parole, juin 2008, Avignon.

Buscail L. (2013). Étude comparative des pronoms démonstratifs neutres anglais et français à l’oral : référence indexicale, structure du discours et formalisation en Grammaire notionnelle dépendancielle. Thèse de doctorat, Université de Toulouse-Le-Mirail.

Bybee J. L. (2001). Phonology and Language Use. Cambridge : Cambridge University Press.

Calliope (1989). La parole et son traitement automatique. Paris : Masson.

Coquillon A.-L. & Durand J. (2010). « Le français méridional : éléments de synthèse », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement. Paris : Ophrys, 185-197.

Coquillon A.-L. & Turcsan G. (2012). « An overview of the phonological and phonetic properties of Southern French. Data from two Marseille surveys », in R. Gess, C. Lyche & T. Meisenburg (éd.)

Corpus, 15 | 2016 148

Phonological Variation in French : Illustrations from Three continents. Amsterdam/ Philadelphia : John Benjamins, 105-127.

Côté M.-H. (2012). « Laurentian French (Québec) : extra vowels, missing schwas and surprising liaison consonants », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French : Illustrations from Three continents. Amsterdam/Philadelphia : John Benjamins, 235-274.

Courdès-Murphy L. (2013). Contribution à l’étude de la phonologie du français contemporain : le français parlé à Toulouse. Mémoire de M1, Université de Toulouse-Le-Mirail.

Dell F. (1973). Les règles et des sons. Introduction à la phonologie générative. Paris : Hermann.

Detey S., Durand J., Laks B. & Lyche C. (2010). Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement. Paris : Ophrys.

Detey S., Durand J., Laks B. & Lyche C. (à paraître). « The PFC Programme and its methodological framework », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Detey S. & Lyche C. (à paraître). « A framework for the pedagogical use of a corpus of spoken French », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Detey S., Lyche C., Tchobanov A., Durand J. & Laks B. (2009). « Ressources phonologiques au service de la didactique de l’oral : le projet PFC-EF », Mélanges CRAPEL 31 : 223-236.

Detey S., Racine I., Kawaguchi Y. & Zay F. (à paraître). « Variation among non native speakers : Japanese and Spanish learners of French », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Durand J. (2009). « On the scope of linguistics : data, intuitions, corpora », in Y. Kawaguchi, M. Minegishi & J. Durand (éd.) Corpus Analysis and Variation in Linguistics. Amsterdam/ Philadelphia : John Benjamins, 25-52.

Durand J. (2014). « À la recherche du schwa : données, méthodes et théories », Actes du CMLF 2014, 4e Congrès mondial de linguistique française, EDP Sciences, 23-43.

Durand J. & Eychenne J. (2004). « Le schwa en français. Pourquoi des corpus ? », Corpus 3 : 311-356.

Durand J., Eychenne J. & Lyche C. (2013). « On levelling and counter-levelling in French : a phonological perspective », in M. C. Jones & Hornsby (éd.) Language and Social Structure in Urban France. Leeds : Maney, 58-68.

Durand J., Laks B. & Lyche C. (2009). Phonologie, variation et accents du français. Paris : Hermès.

Durand J., Laks B. & Lyche C. (2014). « French phonology from a corpus perspective : the PFC programme », in J. Durand, U. Gut & G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology. Oxford : Oxford University Press, 486-497.

Durand J. & Przewozny A. (2012). « La phonologie de l’anglais contemporain : usages, variétés et structure », Revue française de linguistique appliquée 17 (1) : 25-36.

Durand J., Slater C. & Wise H. (1987). « Observations on schwa in Southern French », Linguistics 25(2) : 983-1004.

Eychenne J. (2006). Aspects de la phonologie du schwa en français contemporain. Optimalité, visibilité prosodique, gradience. Thèse de doctorat, Université de Toulouse-Le Mirail.

Corpus, 15 | 2016 149

Eychenne J., Lyche C., Durand J. & Coquillon A.-L. (2014). « Quelles données pour la liaison en français : la question des corpus », in C. Soum-Favaro, A.-L. Coquillon & J.-P. Chevrot (éd.) La liaison : approches contemporaines. Berne : Peter Lang, 33-60.

Eychenne J. & Paternostro R. (à paraître). « Analyzing transcribed speech with Dolmen », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Féry C. (2003). Liaison and syllable structure in French. Manuscrit.

Fougeron C., Gendrot C. & Bürki A. (2007a). « On the phonetic identity of French schwa compared to /ø/ and /œ/ », Schwa(s), Actes des 5es Journées d’études linguistiques 2007, Université de Nantes, 27-28 juin 2007 : 191-197.

Fougeron C., Gendrot C. & Bürki A. (2007b). « On the acoustic characteristics of French schwa », Proceedings of the 16th International Congress of Phonetic Sciences, Saarbrücken, Germany : 941-944.

Gendrot C. & Adda-Decker M. (2012). « Influence du contexte consonantique et de la durée des voyelles sur la centralisation des voyelles orales en français », in M. Embarki & C. Dodane (éd.) La coarticulation : des indices à la représentation. Paris : l’Harmattan, 159-171.

Gess R., Lyche C & Meisenburg T. (2012). Phonological Variation in French : Illustrations from Three Continents. Amsterdam/Philadelphia : John Benjamins.

Gougenheim G., Michéa R., Rivenc P. & Sauvageot A. (1956). L’élaboration du français élémentaire : étude sur l’établissement d’un vocabulaire et d’une grammaire de base. Paris : Didier.

Hansen A. B. (1994). « Étude du E caduc — stabilisation en cours et variations lexicales », Journal of French Language Studies 4 : 25-54.

Hansen A. B. (2012). « A study of young Parisian speech : Some trends in pronunciation », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French : Illustrations from Three Continents. Amsterdam/ Philadelphia : John Benjamins, 151-172.

Laks B. & Calderone B. (2014). « La liaison en français contemporain : approches lexicales et exemplaristes », in C. Soum-Favaro, A.-L. Coquillon & J.-P. Chevrot (éd.) La Liaison : approches contemporaines. Berne : Peter Lang, 61-89.

Lyche C. (à paraître). « Approaching variation in PFC : the schwa level », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Nguyen N., Wauquier S. & Tuller B. (2009). « The dynamical approach to speech perception : from fine phonetic detail to abstract phonological categories », in F. Pellegrino, E. Marsico, I. Chitoran & C. Coupé (éd.) Approaches to Phonological Complexity. Berlin : Mouton de Gruyter, 193-217.

Patterson D., LoCasto P. C. & Connine C. M. (2003). « Corpora analyses of frequency deletion in conversational American English », Phonetica 60 : 45-68.

Pustka E. (2007). Phonologie et variétés en contact. Aveyronnais et Guadeloupéens à Paris. Tübingen : Narr.

Racine I. (2007). « Effacement du schwa dans des mots lexicaux : constitution d’une base de données et analyse comparative », Schwa(s). Actes des 5es Journées d’études linguistiques 2007, Université de Nantes, 27-28 juin 2007 : 125-130.

Racine I. (2008). Les effets de l’effacement du schwa sur la production et la perception de la parole en français. Thèse de doctorat, Université de Genève.

Corpus, 15 | 2016 150

Racine I. & Andreassen H. N. (2012). « A phonological study of a Swiss French variety : data from the Canton of Neuchâtel », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French : Illustrations from Three Continents. Amsterdam : John Benjamins, 173-207.

Racine I., Andreassen H. N. & Benetti L. (à paraître). « Swiss French », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Racine I. & Grosjean F. (2002). « La production du E caduc facultatif est-elle prévisible ? Un début de réponse », Journal of French Language Studies 12 (3) : 307-326.

Rossi-Gensane N. (2010). « Oralité, syntaxe et discours », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Les Variétés du français parlé dans l’espace francophone : Ressources pour l’enseignement. Paris : Ophrys, 83-106.

Skattum I. (2011). « Si j’étais riche… constructions hypothétiques », Le français en Afrique 26 : 49-70.

Su T.-T. (2003). Étude sur la disparition des phonèmes dans la parole spontanée du français et du mandarin de Taïwan. Thèse de doctorat, Université Sorbonne Nouvelle-Paris 3.

Verluyten S. P. (1988). La Phonologie du schwa français. Amsterdam and Philadelphia : John Benjamins.

Walter H. (1976). La Dynamique des phonèmes dans le lexique français contemporain. Paris : France- Expansion.

Walter H. (1982). Enquête phonologique et variétés régionales du français. Paris : PUF.

Walter H. (1990). « Une voyelle qui ne veut pas mourir », in J. N. Green & W. Ayres-Bennett (éd.) Variation and Change in French. New York : Routledge, 27-36.

NOTES

1. Même si nous utilisons en alternance les termes « projet » et « programme », ce dernier nous semble plus représentatif de la diversité des recherches effectuées dans le cadre de PFC. 2. C’est le cas notamment pour la liaison où, comme le relèvent Eychenne et al. (2014 : 34), certains exemples, tels que le savant [t] anglais ou le sot [t] , que l’on trouve notamment chez Féry (2003), ont perduré. 3. www.projet-pfc.net 4. À ce titre, mentionnons ici qu’un formulaire de consentement spécifiant la nature des enregistrements ainsi que leurs usages possibles doit être signé par chaque informateur, préalablement à tout enregistrement. Dans ce sens, le protocole est conforme aux principes éthiques définis pour la France par Baude (2006). 5. Une partie des données et des réflexions qui s’ensuivent ont bénéficié des commentaires des participants à CMLF 2014, à Berlin, ainsi que ceux des relecteurs de Durand et al. (2013) et de Durand (2014). Qu’ils en soient ici remerciés. Nous remercions également Léa Courdès-Murphy pour le partage des données de Toulouse, collectées dans le cadre du projet LVTI (voir Courdès- Murphy, 2013). 6. Pour une présentation plus détaillée de ces données ainsi qu’une discussion approfondie des résultats, voir Andreassen & Racine (à paraître).

Corpus, 15 | 2016 151

RÉSUMÉS

L’objectif de cet article est de faire le point sur le programme de recherche PFC (« Phonologie du français contemporain : usages, variétés et structure »), plus de quinze ans après son lancement et d’illustrer le travail mené dans ce cadre par la question du schwa, phénomène bien connu dans le domaine de la variation phonologique et central à la phonologie du français. Après avoir brièvement présenté le programme, nous abordons la question du schwa en français et expliquons son traitement dans PFC. Nous illustrons ensuite le travail effectué en nous penchant tout d’abord sur les variétés méridionales, que nous opposons aux variétés septentrionales, avant d’aborder la question du schwa dans les variétés suisses romandes.

In this paper, we present the research programme “Phonology of Contemporary French : usage, varieties and structure” (PFC). After more than 15 years of existence, the PFC corpus has become a reference in the field of oral French. The methodology adopted in the programme is then illustrated through the phenomenon of schwa, which is central to the phonology of French and one of the foci of the PFC venture. First, we examine the behaviour of schwa in the Southern varieties of French (vs. Northern varieties) and then we present an experimental study on schwa in three varieties of Swiss French.

INDEX

Mots-clés : schwa, corpus, français parlé, phonétique, phonologie, PFC, variation diatopique, variétés suisses romandes, variétés méridionales Keywords : schwa, corpus, oral French, phonetics, phonology, PFC, diatopic variation, Swiss French, Southern French

AUTEURS

ISABELLE RACINE ELCF, Université de Genève

JACQUES DURAND Université de Toulouse 2, UMR5263 et IUF

HELENE N. ANDREASSEN UiT, Université arctique de Norvège

Corpus, 15 | 2016 152

La liaison dans un corpus d’apprenants : Le projet « Interphonologie du Français Contemporain » (IPFC) Liaison in the Interphonology of Contemporary French (IPFC) learner corpus

Isabelle Racine et Sylvain Detey

Nous tenons à remercier Marie-José Béguelin, Fédérica Diémoz et Mathieu Avanzi pour l’organisation du colloque « Corpus de français parlé et français parlés des corpus », à Neuchâtel, les 8 et 9 mai 2014, journées qui sont à la base de cette publication. Nous remercions également Yuji Kawaguchi qui codirige le projet IPFC avec nous, ainsi que Julien Eychenne pour le développement de Dolmen-IPFC. Le travail présenté ici n’aurait pas été possible sans le précieux concours de Marion Didelot, Tanjema Majeed, Cécile Mollet, Marie-Laure Sandoz et Roberto Paternostro, qui ont transcrit, codé et vérifié les données. Enfin, nous tenons à remercier également tous nos collègues impliqués dans IPFC pour leur dynamisme qui contribue à faire vivre ce projet, ainsi que tous les apprenants qui ont donné de leur temps pour la constitution de ce corpus.

1 Si l’apport de la linguistique de corpus à l’étude du français parlé par des locuteurs natifs n’est plus à démontrer, comme en témoignent les différents chapitres qui constituent ce volume, il en va autrement lorsqu’il s’agit de la parole de locuteurs non natifs. Dans le domaine de l’acquisition du français langue étrangère ou seconde (ci- après L2)1, les études basées sur de grands corpus ne sont en effet pas légion2, et c’est encore moins le cas lorsque l’on se concentre sur les aspects phonétiques et phonologiques.

2 Les principaux modèles théoriques d’acquisition phonologique d’une L2 sont en effet le plus souvent fondés sur des données issues de parole « de laboratoire » qui sont trop restreintes tant au niveau du style de parole que du nombre de locuteurs et de structures étudiés (Zampini, 2008). Comme le mentionne Gut (2009, 2014), l’approche par corpus permet en partie de dépasser ces limitations et d’élargir le regard porté sur

Corpus, 15 | 2016 153

l’acquisition phonologique d’une L2, en intégrant notamment la dimension de comparabilité inter-tâches et inter-apprenants d’une même L2 ou de L2 différentes.

3 Afin de combler ce retard en la matière, de nombreux projets de corpus L2 ont vu le jour ces dix dernières années et ce pour différentes langues : en néerlandais L2 (Neri et al., 2006), en polonais L2 (Cylwik et al., 2009), en allemand L2 et en anglais L2 dans un contexte européen (Gut, 2009) ou asiatique (Visceglia et al., 2009), et ce, non seulement sur le plan segmental mais aussi suprasegmental (Trouvain & Gut, 2007 ; Meng et al., 2009). Ce champ est toutefois resté peu exploité en ce qui concerne le français L2, et c’est ce qui a motivé le lancement, en 2008, du projet « Interphonologie du français contemporain » (Detey & Kawaguchi, 2008 ; Racine et al., 2012 ; Detey & Racine, 2012, Detey et al., à paraître3, ci-après IPFC), qui constitue l’une des extensions récentes du programme « Phonologie du français contemporain : usages, variétés et structure » (PFC ; Durand, Laks & Lyche, 2009, 2014 ; Racine, Durand & Andreassen, ce volume). Après sept ans d’existence, IPFC assure donc, conjointement à d’autres projets plus récents (le corpus Coreil, Delais-Roussarie & Yoo, 2010 et le corpus Phodifle, Landron et al., 2011), la présence du français aux côtés des travaux menés dans d’autres langues.

4 L’objectif du présent article est double : d’une part, il vise à offrir une brève présentation ainsi qu’un état des lieux du projet IPFC après sept ans d’existence et, d’autre part, à illustrer l’intérêt d’un tel corpus pour l’étude de l’acquisition de la phonologie du français L2, ce que nous nous proposons de faire par le biais d’un phénomène qui constitue un passage obligé dans l’enseignement du français langue étrangère (ci-après FLE), à savoir la liaison. Dans la deuxième partie de cet article, nous examinerons donc la question de l’acquisition de la liaison en français L2 et de ses enjeux pour l’enseignement. Nous expliquerons comment la liaison est traitée dans le projet IPFC avant de présenter une analyse des productions de liaison issues de la lecture du texte par des apprenants hispanophones et japonophones. Par ce biais, nous montrerons en quoi les données IPFC permettent d’enrichir la réflexion sur la liaison en L2, qui devrait permettre, à terme, un renouvellement du matériel pédagogique pour l’enseignement de cette question.

1. Le projet « Interphonologie du français contemporain »

5 L’objectif du projet IPFC est de constituer, analyser et mettre à disposition un corpus de recherche de FLE varié. La base de données consiste en un ensemble de points d’enquête, rassemblant des populations d’apprenants de profils linguistiques aussi similaires que possible (même variété de L1, même niveau de compétence linguistique en français d’après les descripteurs du Cadre européen commun de référence pour les langues (CECRL) et, si possible, parcours d’apprentissage similaire). Dans la lignée de PFC, un focus particulier a été mis sur l’analyse de la variation et sur la comparabilité des données. Le protocole de recueil de données est par conséquent identique pour toutes les L1 et est resté le plus proche possible de celui de PFC au niveau des tâches, sans exclure évidemment une adaptation de ses modalités à des populations d’apprenants (pour une description du protocole PFC, voir Racine, Durand & Andreassen, ce volume).

Corpus, 15 | 2016 154

6 Le recueil de données est constitué de six tâches : 1) la répétition d’une liste spécifique de mots produits par un locuteur natif, 2) la lecture de la liste de mots PFC, 3) la lecture de la même liste spécifique qui a été répétée dans la première tâche, 4) la lecture du texte PFC, 5) un entretien guidé avec un natif, le plus souvent un enseignant, et 6) une interaction semi-contrainte entre deux apprenants.

7 La liste spécifique comprend à la fois des difficultés qui sont partagées par l’ensemble des apprenants, telles que les voyelles nasales ou antérieures arrondies, ainsi que des difficultés plus spécifiques à chaque population d’apprenants ciblée, comme par exemple les occlusives sonores en initiale de mots pour les apprenants suisses alémaniques ou les groupes consonantiques pour les japonophones. La tâche de répétition a été incluse de manière à contourner les effets orthographiques induits par une tâche de lecture (Detey, 2005 ; Vendelin & Peperkamp, 2006 ; Bassetti, 2006). L’entretien guidé, quant à lui, comporte des questions fermées et ouvertes, qui sont adaptées au niveau de l’apprenant ainsi qu’au contexte dans lequel se déroule son apprentissage (homoglotte vs hétéroglotte). L’interaction semi-contrainte débute par une brève présentation de l’un des apprenants sur un sujet spécifique, suivie d’une série de questions-réponses qui se transforme généralement en discussion libre entre les deux intervenants. Les rôles sont ensuite inversés. Un questionnaire biographique complète le protocole.

8 Si le projet IPFC a débuté avec la constitution d’un corpus d’apprenants japonophones et d’un corpus d’apprenants hispanophones, d’autres chercheurs s’y sont depuis associés, et le projet regroupe actuellement quinze équipes travaillant avec des apprenants de L1 différentes (allemand, anglais canadien, arabe, coréen, danois, espagnol, grec, italien, japonais, néerlandais, norvégien, portugais brésilien, russe, suédois et turc). De nouvelles équipes s’y adjoignent régulièrement. Ainsi, des projets avec des apprenants malais et tchèques sont par exemple en cours d’élaboration. En parallèle, le travail sur les L1 déjà représentées dans le projet s’élargit. C’est le cas pour l’italien où, outre les corpus de Milan, Trieste et Rome, un corpus avec des apprenants tessinois est en cours de constitution, de même que pour l’allemand, où des données d’apprenants autrichiens et suisses allemands sont également collectées depuis peu4.

9 L’ensemble du corpus ainsi recueilli représente environ une heure de données par apprenant. Les enregistrements sont transcrits orthographiquement avec alignement au signal – sous Praat (Boerma & Weenink, 2014) –, selon des conventions spécifiques adaptées à la parole en L2 (cf. Racine et al., 2011), notamment concernant des cas d’ambiguïté au niveau morpho-lexical ou phonético-phonologique. Divers types d’analyse sont ensuite appliqués aux données. Pour les mots en isolé, une évaluation experte vs non experte, éventuellement complétées par des analyses acoustiques (pour des exemples concernant les voyelles nasales et arrondies, voir Detey et al., 2010 ; Racine et al., 2010 ; Racine, Detey & Kawaguchi, 2012 ; Racine, 2012). Ce type d’évaluation n’étant pas adapté à la parole continue – la dimension morpho- grammaticale est en effet susceptible de biaiser l’évaluation de la production de surface – nous avons choisi d’appliquer, dans la lignée de ce qui a été fait dans PFC pour la liaison et le schwa, une approche par le biais d’un codage alphanumérique de différents paramètres (Detey, 2012 ; Detey et al., 2014a ; Detey et al., 2014b ; Detey et al., à paraître). Le code alphanumérique, spécifique à chaque phénomène ciblé, est inséré manuellement sur la base d’une évaluation perceptive, dans la transcription orthographique, dans des tires séparées (une par phénomène ciblé).

Corpus, 15 | 2016 155

10 Une triple motivation a guidé ce choix : i) dans le quotidien des locuteurs apprenants, la parole non native est évaluée de manière catégorielle et non pas en termes de détails phonétiques fins. Les analyses acoustiques, qui fournissent des informations fines sur les caractéristiques acoustiques du signal, ne sont donc pas adéquates. Seule une évaluation perceptive humaine, en termes de catégories phonologiques, permet d’atteindre cet objectif. L’analyse du signal peut toutefois constituer une étape ultérieure en vue d’obtenir des informations plus précises sur un ensemble particulier de stimuli, par exemple des productions ayant été évaluées comme très éloignées de la cible visée ; ii) le recours à un codage alphanumérique ciblant certains paramètres précis permet d’éviter certains pièges liés à la transcription phonétique. En effet, s’il est possible d’évaluer le caractère nasalisé ou non d’une voyelle, l’adéquation de son timbre par rapport à une cible donnée ou la présence/absence d’un appendice consonantique postvocalique, il n’est pas toujours possible de sélectionner un symbole phonétique qui représente de manière adéquate la réalisation globale de cet élément par un apprenant ; iii) l’idée fondamentale de l’approche par corpus est de décrire, de manière aussi automatique que possible, sur la base d’un ensemble conséquent de données, les tendances globales qui se dégagent de la parole en L2, en prenant en compte le contexte de production et sans précatégoriser – et pré-interpréter – les productions interlangagières de l’apprenant sur la base des catégories phonémiques de la L2 ou de la L1, puisqu’il s’agit justement d’un système en construction dont les formes peuvent être potentiellement non identifiables dans les deux systèmes en contact, source et cible.

11 Une fois les données codées5, l’analyse s’effectue par le biais du concordancier Dolmen, développé par J. Eychenne (cf. Eychenne & Paternostro, à paraître), dans le cadre duquel des interfaces spécifiques pour les phénomènes ciblés dans IPFC ont été développées, à savoir, pour l’instant, les voyelles orales et nasales, les consonnes, les groupes consonantiques et la liaison. Dolmen permet d’obtenir de manière automatique des statistiques descriptives concernant certaines caractéristiques des productions non natives.

12 En conclusion, cette procédure de codage alphanumérique constitue, à nos yeux, une étape intermédiaire entre des analyses acoustiques fines et une catégorisation phonologique plus grossière, en termes de substitution, d’insertion ou d’effacement (Detey, 2012, 2014). La démarche que nous avons adoptée et développée dans IPFC a inspiré des travaux similaires d’analyse de corpus pour d’autres langues cibles (pour l’espagnol, voir Carranza, Cucchiarini, Llisterri, Machuca & Rios, 2014 ; pour l’anglais, voir Lacoste, Herry-Bénit & Kamiyama, 2013). Dans le cadre du projet IPFC, des analyses des productions de voyelles nasales et arrondies (Detey, Racine & Kawaguchi, 2014 ; Detey et al., 2014a et 2014b) d’apprenants japonophones et hispanophones ont été conduites selon cette procédure. La question de l’acquisition de la liaison L2 par des apprenants de différentes L1 est également en cours d’examen par ce biais dans le projet (voir, par exemple, les contributions dans Racine et Detey (2015) pour les apprenants allemands (Pustka), canadiens anglophones (Tennant), espagnols (Racine), grecs chypriotes (Valetopoulos), italiens (Falbo, Janot, Murano & Paternostro), japonais (Detey, Kawaguchi & Kondo) et norvégiens (Andreassen & Lyche)). C’est à travers ce phénomène phonologique spécifique du français que nous avons choisi d’expliciter de manière plus concrète la démarche adoptée dans le projet IPFC.

Corpus, 15 | 2016 156

2. La question de la liaison : enjeux pour le FLE6

13 La liaison est, comme le rappellent Durand & Lyche (à paraître), un phénomène de sandhi externe qui implique la présence – ou l’absence – d’une consonne entre deux mots produits conjointement, le premier mot étant appelé « mot liaisonnant ». Selon la littérature, les consonnes de liaison possibles sont au nombre de huit ([z, n, t, ʁ, p, v, k, ɡ])7, les trois premières couvrant la plus grande majorité des occurrences. La consonne de liaison peut apparaître lorsque le deuxième mot commence par une voyelle (p. ex. : « un escargot » [œ̃nɛskaʁɡo]), mais est absente lorsque le deuxième mot commence par une consonne (p. ex. : « un stylo » [œ̃stilo]). En outre, cette consonne se rattache le plus souvent – mais pas obligatoirement – à l’attaque de la syllabe suivante, qui appartient donc au deuxième mot. Lorsqu’il y a resyllabation de la consonne finale, la liaison est enchaînée (p. ex. : « un escargot » [œ̃-nɛs-kaʁ-ɡo]). Elle est produite sans enchaînement lorsque cette resyllabation n’a pas lieu (p. ex. : « un escargot » [œ̃n-ɛs- kaʁ-ɡo]). Ainsi, lorsqu’elle est enchaînée, la liaison, qui reflète un état ancien de la langue où toutes les consonnes étaient prononcées (pour un historique, cf. Mallet, 2008), contribue à renforcer la tendance à la syllabation ouverte et la prédilection du français pour les syllabes de type CV (Delattre, 1946).

14 La réalisation de la liaison est soumise à variation et dépend, comme le rappellent Eychenne et al. (2014) et Durand & Lyche (à paraître) de facteurs phonologiques – y compris prosodiques –, lexicaux, (morpho)syntaxiques ainsi que sociolinguistiques. Parmi ces derniers, ces auteurs relèvent notamment le registre, l’âge, la provenance du locuteur, le niveau d’instruction ou encore le degré de connaissance de l’orthographe. En outre, lorsque la liaison est réalisée, elle peut parfois avoir un effet sur la voyelle précédant la consonne de liaison, soit en l’ouvrant (p. ex. : « premier élève » sera ainsi produit [pʁəmjɛʁelɛv], avec une forme masculine ne se différenciant plus de la forme féminine « première »), soit en la dénasalisant (p. ex. : « bon après-midi » sera ainsi produit [bɔnapʁɛmidi], avec une forme masculine dont la prononciation est identique à sa contrepartie féminine « bonne »)8.

15 Si l’on se place du point de vue d’un apprenant, la question de la liaison est extrêmement complexe, notamment en raison du fait que sa réalisation va à l’encontre de certains principes que l’apprenant a dû – ou est en train – d’intégrer, comme le souligne Howard (2013). Il a ainsi dû apprendre à ne pas prononcer la consonne finale graphique d’un grand nombre de mots, ce qui constitue une difficulté accrue pour les apprenants dont la L1 dispose d’une très bonne correspondance entre prononciation et orthographe. Or, dans le cas de la liaison, cette consonne finale habituellement non prononcée peut l’être dans certaines conditions, de surcroît avec une réalisation qui ne correspond pas toujours à la consonne graphique, et le plus souvent en se resyllabant avec la voyelle initiale du mot suivant (p. ex. : « grand », avec une consonne finale non prononcée qui, si elle se réalise en liaison, l’est en [t], p. ex. : « grand animal » [ɡʁɑ̃-ta- ni-mal]).

16 La liaison en [n] renforce ce phénomène. En effet, l’acquisition des voyelles nasales du français constitue déjà en soi une difficulté majeure pour la plupart des apprenants. La dimension graphique ne leur simplifie pas la tâche puisque, outre le fait que les voyelles nasales possèdent des graphies multiples, l’apprenant doit acquérir des graphèmes complexes dans lesquels la consonne nasale ne se prononce pas (p. ex. : « plein » [plɛ̃]). Or, dans le cas de la liaison en [n], la consonne nasale graphique se

Corpus, 15 | 2016 157

prononce, et la voyelle qui précède peut perdre sa nasalité (p. ex. : « plein hiver » [plɛn ivɛʁ]), mais pas de manière systématique (« rien à faire » [ʁjɛ̃nafɛʁ]). 17 À cela s’ajoute le fait que, comme mentionné précédemment, la liaison est soumise à variation, variation dont l’apprenant doit acquérir la maîtrise, et dont Wauquier (2009) distingue deux types : une variation conditionnée par le contexte d’abord, qui fait que certaines liaisons sont systématiquement réalisées, réalisées de manière variable ou pas réalisées – liaisons catégoriques, variables ou erratiques, selon la terminologie adoptée par Durand & Lyche (2008), appelées également obligatoires, facultatives ou interdites dans une perspective plus normative –, et, dans le cas des liaisons variables, une variation libre, qui reflète le choix du locuteur de réaliser ou non la liaison, généralement en fonction de facteurs d’ordre sociolinguistique.

18 Les difficultés posées par la liaison à l’apprenant sont donc multiples mais peuvent cependant, nous semble-t-il, être réparties en deux catégories distinctes : 1) les problèmes posés par le phénomène de liaison lui-même, qui sont de l’ordre de ce que l’on pourrait qualifier de microplanification : nature de la consonne de liaison à réaliser (en lien avec la graphie), placement de cette consonne dans la structure syllabique (avec resyllabation avec la voyelle initiale du mot suivant ou non), modification éventuelle de l’environnement immédiat (dénasalisation/ouverture de la voyelle précédente) ; 2) les problèmes posés par la variation inhérente à la liaison, qui relèvent davantage d’une planification à un niveau macro, cette fois-ci, et qui peuvent être résumés ainsi : identifier le contexte – sur la base de facteurs phonologiques, prosodiques, lexicaux, (morpho)syntaxiques et sociolinguistiques – afin de déterminer si la liaison doit – ou peut – ou non être réalisée.

19 L’essentiel des explications et des exercices consacrés à la liaison dans les manuels de FLE spécialisés dans le domaine de la prononciation se rapportent plutôt à ce deuxième type de difficultés, lié aux contextes de réalisation de la liaison. Les questions qui relèvent de la microplanification sont généralement mentionnées mais de manière sommaire, avec peu ou pas d’exercices ciblés et sans conscientisation des difficultés pour l’apprenant.

20 Les contextes de réalisation de la liaison sont généralement divisés en trois catégories – liaisons obligatoires, facultatives et interdites – et présentés sous forme de tableaux ou de listes basées sur des généralisations d’ordre morphosyntaxique (p. ex. : « la liaison est obligatoire entre le déterminant et le nom qui le suit »), suivies d’exemples. Les autres facteurs de variation – d’ordre sociolinguistique, lexical ou prosodique – ne sont généralement pas mentionnés, hormis la distinction, pour les liaisons facultatives, entre registre courant/standard et soutenu. On peut relever que les explications sont parfois opaques, que le nombre de règles énoncées est plutôt élevé (selon les manuels, entre 6 et 9 pour chacune des catégories « liaisons obligatoires » et « liaisons interdites »), avec des divergences d’un manuel à l’autre.

21 On constate également que certaines règles énoncées ne semblent pas correspondre à la réalité des usages actuels. Ainsi, par exemple, la liaison est présentée comme obligatoire après les prépositions monosyllabiques suivantes : « en », « dans », « chez », « sans », « sous » (Abry & Chalaron, 1994 : 110). Or, Eychenne et al. (2014 : 44), en se basant sur les données issues du corpus PFC, montrent que, si la liaison est quasi catégorique après « en » (taux de réalisation : 99.35 %), elle l’est moins après « sans » (93.13 %) et encore moins après « chez » (75.68 %). Le dernier cas illustre, selon les auteurs, le rôle primordial de la prosodie : la liaison est en effet catégorique dans le

Corpus, 15 | 2016 158

contexte « chez + clitique », alors qu’elle est variable à 50 % dans le contexte « chez + syntagme nominal ». Eychenne et al. (2014 : 34) expliquent ce décalage entre les descriptions traditionnelles et les usages – mis en avant par les travaux sur la liaison basés sur des corpus oraux (entre autres Ågren, 1973 ; Encrevé, 1988 ; De Jong, 1994 ; Durand & Lyche, 2008)9 – par le fait que, si de nombreux travaux ont été consacrés à la liaison dans la seconde moitié du XXe siècle, peu d’entre eux ont pris en compte les données authentiques. La plupart des analyses classiques en linguistique ont été élaborées sur la base de descriptions normatives destinées à faciliter l’apprentissage du phénomène par des apprenants étrangers – les auteurs citent notamment Delattre (1951) et Fouché (1959). Or, ce sont ces mêmes descriptions qui sont à la base des classements qui figurent généralement dans les manuels de phonétique. On peut ajouter que, hormis la question de l’authenticité des données sur lesquelles s’appuient ces descriptions, le décalage entre descriptions et usages réels peut également s’expliquer par le fait que l’on ne s’exprime plus aujourd’hui de la même manière qu’à l’époque où elles ont été élaborées. De Jong (1994) a en effet mis en évidence l’importance du facteur âge : les locuteurs jeunes de son corpus réalisent un taux de liaison significativement inférieur par rapport à leurs aînés, ceci étant particulièrement marqué entre la tranche des 18-29 ans et la tranche des 30-49 ans, ce qui semble indiquer qu’un changement majeur a eu lieu au milieu des années soixante10, les descriptions traditionnelles mentionnées – Delattre (1951) et Fouché (1959) – y étant donc antérieures.

22 Comme le soulignent Eychenne et al. (2014), les travaux basés sur des corpus oraux ont montré que l’on ne peut expliquer la liaison en se basant uniquement sur des principes d’association mécanique mais que d’autres facteurs, tels que par exemple la fréquence lexicale du mot liaisonnant et la prosodie, doivent être pris en compte. Le travail réalisé sur la liaison dans le cadre du projet PFC a permis d’affiner encore les descriptions des usages réels. Durand & Lyche (2008) peuvent ainsi réduire à quatre contextes les liaisons systématiquement réalisées dans les usages : déterminant + substantif (p. ex. : « un animal »), proclitique + verbe (« ils aiment », « ils y dorment souvent »), verbe + enclitique (p. ex. : « dit-il », « fais-en ») et expressions figées (p. ex. : « de mieux en mieux », « de temps à autre »). Les données PFC montrent également que la liaison variable est très peu réalisée en conversation spontanée, que les liaisons sont quasiment systématiquement produites avec enchaînement et que, du point de vue des facteurs externes, la liaison semble essentiellement influencée par l’âge et par l’origine géographique des locuteurs ainsi que par le registre (Eychenne et al., 2014).

23 Si, d’un point de vue linguistique, comme le relèvent Eychenne et al. (2014 : 56), il semble qu’on ne peut plus aujourd’hui se satisfaire de données « fabriquées » et que l’on se doit d’intégrer les résultats des études sur corpus dans les modélisations phonologiques, la même conclusion semble s’imposer dans le domaine de l’enseignement du FLE : les descriptions des manuels de phonétique doivent être renouvelées afin de mieux correspondre aux usages réels en vigueur. À ce titre, on peut déjà mentionner les ouvrages de Lauret (2007) et d’Abry & Chalaron (2011), qui proposent quant à eux une description des contextes de liaison catégorique qui correspond aux quatre contextes décrits par Durand & Lyche (2008) où la liaison est systématiquement réalisée.

24 Pour compléter ce panorama de la liaison, il paraît important d’examiner également la question du point de vue des productions des apprenants, afin de déterminer ce qui

Corpus, 15 | 2016 159

leur pose problème. Un certain nombre de travaux se sont penchés sur cette question et ont analysé les occurrences de liaison dans les productions d’apprenants de FLE (De Moras, 2011 ; Harnois-Delpiano et al., 2012 ; Howard, 2005, 2013 ; Mastromonaco, 1999 ; Thomas, 2002, 2010). On peut tout d’abord relever l’hétérogénéité des travaux qui portent sur cette question et qui ont examiné les productions des liaisons par des apprenants – en grande majorité anglophones – de niveaux variés (débutants à avancés), dans des contextes d’apprentissage divers – notamment avec ou sans séjour dans une région francophone – et avec des tâches distinctes (production de séquences isolées, description d’images, texte lu, entretien guidé et parole spontanée). Les résultats sont néanmoins assez homogènes et montrent d’une part un taux généralement élevé de réalisation des liaisons obligatoires chez les apprenants avancés, avec – lorsqu’une dimension longitudinale est intégrée, comme par exemple dans l’étude de Howard (2013) – une progression dans le taux de réalisation de certaines de ces liaisons obligatoires, notamment pour celles entre déterminant et substantif et après les pronoms sujets. Certains contextes semblent par contre poser plus de problèmes. Howard (2005, 2013) relève en effet des taux moins élevés après les pronoms clitiques et un taux très faible de réalisation de la liaison entre un adjectif et le substantif qui le suit. Toutefois, il faut rappeler que cette dernière catégorie n’apparaît pas comme catégorique dans les données de corpus de Durand & Lyche (2008). La comparaison avec les natifs doit donc être considérée avec précaution car les études portant sur les apprenants n’ont généralement pas constitué de corpus de données natives comparables11 et se basent donc sur la littérature dans le domaine. Or, comme le souligne De Moras (2011), les différentes catégories de liaison ne sont pas définies de manière uniforme dans la littérature. De plus, comme nous l’avons vu précédemment, la prise en compte des données de corpus, qui questionnent la classification traditionnelle en obligatoire/facultative/interdite et soulignent l’importance de certains facteurs, est encore relativement récente.

25 Les travaux qui ont examiné les productions des liaisons par des apprenants fournissent également des indications concernant les difficultés au niveau de ce que nous avons appelé la microplanification. Mastromonaco (1999), Harnois-Delpiano et al. (2012) et Thomas (2002) observent en effet des erreurs de type [ɡʁɑ̃dami] pour « grand ami » ou [ɡʁɑ̃nɔm] pour « grand homme » qui semblent découler d’une prononciation orthographique et qui n’apparaissent pas chez les enfants natifs (Wauquier, 2009). Mastromonaco (1999) et De Moras (2011) mentionnent la difficulté particulière engendrée par les liaisons en [n] liées à la question des voyelles nasales. Un autre phénomène intéressant est le taux important de liaisons réalisées sans enchaînement par les apprenants, qui est de 7 % chez Mastromonaco (1999) – sans distinction de tâches (lecture, description et conversation) – de 8.5 % chez Thomas (2002) et de 8.85 % – pour les liaisons obligatoires uniquement – chez De Moras (2011), alors que, comme mentionné auparavant, ce type de réalisation est quasiment absent des données de conversation du corpus PFC (Eychenne et al., 2014), et il semble également l’être des données d’acquisition en L1 (Wauquier, 2009). Pour Thomas (2002), cela peut refléter soit une hésitation devant un mot difficile, soit l’influence de la tendance à la syllabation fermée de l’anglais, la L1 des apprenants de son étude, hypothèse également avancée par De Moras (2011).

26 Il semble ainsi indispensable d’affiner davantage les connaissances dans le domaine de l’acquisition de la liaison en FLE, afin de déterminer si les difficultés observées dans les travaux portant sur des apprenants anglophones peuvent être généralisées aux

Corpus, 15 | 2016 160

apprenants d’autres L1 ou sont induites par des caractéristiques spécifiques aux langues germaniques, telles que la tendance à la syllabation fermée. De nouvelles données d’apprenants de L1 plus diversifiées doivent être collectées et la comparabilité non seulement avec les productions natives mais également entre les différentes populations d’apprenants doit être améliorée, de même qu’en termes de tâche(s) effectuée(s).

3. Le traitement de la liaison dans IPFC

27 Sur la base de ce qui a été décrit dans la première partie de ce chapitre, le projet IPFC semble être en mesure de répondre aux besoins mentionnés ci-dessus et par conséquent constituer un cadre adéquat pour approfondir les recherches dans le domaine de l’acquisition de la liaison en FLE.

28 Sur le modèle de la méthodologie adoptée dans PFC, la liaison y est traitée par le biais d’un codage alphanumérique inséré dans une tire spécifique, sous Praat (Boersma & Weenink, 2014). Le code PFC pour la liaison a été modifié afin de s’adapter aux caractéristiques des productions non natives et aux difficultés générées par la liaison. Pour pouvoir repérer les liaisons « orthographiques » (p. ex. : [ɡʁɑ̃dami] pour « grand ami » ou [ɡʁɑ̃nɔm] pour « grand homme ») observées dans les travaux antérieurs en FLE, il est en effet indispensable que la consonne cible soit codée, ce qui n’est pas le cas dans le code PFC, des erreurs de ce type n’apparaissant pas chez les natifs. Le code IPFC pour la liaison comprend donc sept champs. Les quatre premiers portent sur des éléments descriptifs : 1) nature de la consonne de liaison cible, 2) catégorie syntaxique du mot liaisonnant, 3) catégorie syntaxique du mot qui suit, 4) nombre de syllabes du mot liaisonnant et nature – orale ou nasale – de la voyelle du mot liaisonnant. Les trois derniers champs ciblent l’évaluation perceptive de la liaison : 5) réalisation de la liaison et, si oui, avec ou sans enchaînement, 6) nature et caractéristiques de la consonne de liaison (correspond à la cible ou non, etc.), 7) présence d’une pause, d’une hésitation ou d’un coup de glotte. Ces données sont ensuite décodées par le biais d’une interface spécifique du concordancier Dolmen, qui permet d’obtenir facilement des statistiques descriptives, telles que le nombre de liaison en [n] réalisées, le nombre de liaisons produites avec enchaînement, etc.

29 Cette procédure est actuellement appliquée à grande échelle dans le projet IPFC (voir Racine & Detey, 2015). Dans ce qui suit, nous l’illustrons en présentant les résultats d’une étude préliminaire portant sur des productions d’apprenants avancés hispanophones et japonophones.

4. Une illustration : la liaison en lecture de texte chez les apprenants hispanophones et japonophones

4.1 Méthode

30 Trente-sept apprenants avancés (B2-C1 du CECRL), 20 Espagnols et 17 Japonais, ainsi que 10 natifs suisses romands ont pris part à cette étude préliminaire. Les apprenants étaient répartis en deux groupes : avec séjour prolongé en milieu francophone vs sans séjour. Dans le groupe d’hispanophones, 10 apprenants (8 femmes et 2 hommes, âge

Corpus, 15 | 2016 161

moyen : 27.0) étudiaient le français – ou en français – à l’Université de Genève et vivaient dans un environnement francophone depuis au moins douze mois. Les 10 autres (8 femmes et 2 hommes, âge moyen : 26.6) étudiaient le français à Madrid, à l’Université ou dans une école de langue officielle. Aucun d’entre eux n’avait effectué de séjour de plus de trois semaines en milieu francophone. Pour le groupe de japonophones, 7 apprenants (5 femmes et 2 hommes, âge moyen : 24.7) étudiaient le français à TUFS (Tokyo University of Foreign Studies) et avaient effectué pendant leurs études un séjour prolongé (de 6 mois à 1 an) en milieu francophone. Les 10 autres (8 femmes et 2 hommes, âge moyen : 20.2) étaient également étudiants de français à TUFS mais n’avaient effectué aucun séjour en milieu francophone. Ces données ont été comparées avec celles d’un groupe contrôle constitué de 10 francophones natifs suisses romands (8 femmes et 2 hommes, âge moyen : 27.3), enregistrés dans le cadre de PFC.

31 Les participants disposaient de 5 minutes pour prendre connaissance du texte PFC intitulé « Le Premier ministre ira-t-il à Beaulieu » et le préparer, avant de le lire à voix haute. Rappelons que, dans le protocole PFC, ce texte a été conçu spécifiquement pour étudier la liaison et le schwa et contient donc 35 sites potentiels de liaison (17 sites de liaisons obligatoires, 14 de liaisons facultatives et 4 de liaisons interdites selon la classification de Delattre, 1951). 1 295 sites potentiels de liaison ont ainsi été codés selon le code liaison IPFC par une locutrice native et vérifiés par un deuxième évaluateur12.

4.2 Résultats et discussion

32 Les analyses montrent tout d’abord que si les deux populations d’apprenants hispanophones ne se distinguent pas des natifs au niveau du taux global de réalisation des liaisons dans le texte (59.43 % pour les apprenants sans séjour, 58.83 % pour ceux avec séjour et 56 % pour les natifs, ns13), les deux populations d’apprenants japonophones réalisent moins de liaisons que les natifs (44.63 % pour les apprenants sans séjour, 47.93 % pour ceux avec séjour vs 56 % pour les natifs, p < 0.01). Ce résultat, pour les hispanophones, contraste également avec les travaux portant sur des apprenants anglophones (Howard, 2005 ; Mastromonaco, 1999 ; Thomas, 2002), dans lesquels le taux de réalisation des apprenants était généralement inférieur à celui des natifs. Si l’on se base uniquement sur ce premier résultat, les hispanophones sembleraient donc a priori plus performants que les deux autres populations d’apprenants, au niveau du taux global de liaison réalisées.

33 Nous avons également analysé les productions en fonction des contextes obligatoires définis par Delattre (1951) ainsi que par Durand & Lyche (2008). Les résultats montrent que, si l’on se base sur la classification de Delattre (1951), le taux de réalisation de la liaison est significativement moins élevé dans les quatre populations d’apprenants que chez les natifs. Pour les hispanophones, on trouve 90.00 % de réalisation de la liaison pour les hispanophones sans séjour et 92.29 % pour ceux avec séjour, les deux groupes ne se différenciant pas entre eux mais effectuant moins de liaisons obligatoires que les natifs (99.41 %, p < 0.05). Les deux groupes d’apprenants japonophones réalisent également moins de liaisons que les natifs, avec 72.48 % pour les apprenants sans séjour, contre 85.10 % pour ceux avec séjour (p < 0.01). À noter que les japonophones sans séjour réalisent significativement moins de liaisons obligatoires que le groupe avec

Corpus, 15 | 2016 162

séjour (p < 0.05), le séjour en milieu francophone semblant donc avoir un effet positif au niveau de la réalisation des liaisons obligatoires.

34 Si l’on examine ces mêmes chiffres en fonction de la classification de Durand & Lyche (2008), établie sur la base du corpus PFC – et qui semble donc correspondre, comme mentionné précédemment, davantage aux usages actuels en vigueur –, on observe que seuls les japonophones se différencient des natifs avec un taux de réalisation de 75.28 % pour le groupe sans séjour et 86.03 % pour celui avec séjour, contre 99.17 % pour les natifs (p < 0.001). Si l’on se base sur ces quatre contextes uniquement, les hispanophones ne se distinguent plus des natifs, avec 93.33 % pour le groupe sans séjour et 93.24 % pour celui avec séjour (ns). Les hispanophones semblent donc également, au niveau des liaisons catégoriques, plus performants que les japonophones.

35 Comme les apprenants anglophones, les hispanophones et les japonophones réalisent des liaisons avec une consonne inattendue, très souvent présente orthographiquement dans le mot (p. ex. : [ɡʁɑ̃nɔnœʁ] « grand honneur » ou [siʁkɥitabitɥɛl]14 « circuits habituels »). On observe 9.46 % de productions de ce type chez les hispanophones sans séjour (dont 72 % le sont avec [n]) et 7.22 % chez les apprenants avec séjour (dont 52 % en [n]). Ces chiffres sont beaucoup moins élevés chez les japonophones, avec seulement 5.20 % chez les apprenants sans séjour (dont 68 % en [n]) et 2.10 % (dont 0 % en [n]) chez ceux avec séjour. Les apprenants japonophones ayant effectué un séjour en milieu francophone se rapprochent donc davantage des natifs, qui, eux, ne réalisent aucune liaison avec une consonne inhabituelle.

36 Les apprenants hispanophones et japonophones produisent également des liaisons non enchaînées (p. ex. : [ɔ̃n-ɑ̃n-a-vy] « on en a vu », [tʁu-veʁ-o] « trouver au ») dans des taux comparables à ceux observés chez les apprenants anglophones (7 % chez Mastromonaco, 1999, 8.5 % chez Thomas, 2002 et 8.85 % chez De Moras, 2011). On trouve ainsi 7.98 % de liaisons non enchaînées chez les hispanophones sans séjour et 7.51 % chez ceux avec séjour. Si l’on observe un taux comparable pour les apprenants japonophones sans séjour, avec 6.93 %, ce chiffre diminue drastiquement chez les japonophones avec séjour, avec seulement 1.68 % de liaisons non enchaînées. Les japonophones avec séjour se rapprochent donc à nouveau des natifs, qui eux ne produisent aucune liaison sans enchaînement dans la lecture du texte. Pour les autres trois groupes, ces résultats concordent avec les observations effectuées sur les apprenants anglophones dans les travaux précédents et semblent donc montrer que les difficultés ne peuvent être expliquées par la tendance à la syllabation fermée des langues germaniques, l’espagnol et le japonais ayant, comme le français, une prédilection pour les syllabes ouvertes.

37 Nos données révèlent également parfois un cumul des deux phénomènes, consonne orthographique et liaison non enchaînée (p. ex. : [ɡʁɑ̃n-ɔ-nœʁ] « grand honneur »), et ce plus fréquemment chez les hispanophones. Il paraît difficile toutefois dans ce cas – et ce même s’il s’agit d’apprenants avancés – de déterminer s’il s’agit réellement d’une liaison non enchaînée ou plutôt de la prononciation d’une consonne graphique, les apprenants produisant également en conversation des formes telles que [ɡʁɑ̃n-pʁɔ- blɛm] « grand problème ». Afin de mieux comprendre ces formes, une analyse parallèle des réalisations des consonnes graphiques finales semble donc indispensable, notamment pour les apprenants dont la L1 dispose d’une très bonne correspondance entre prononciation et orthographe, ce qui est le cas de l’espagnol. À noter également que la non-différenciation entre les deux groupes d’apprenants hispanophones et les

Corpus, 15 | 2016 163

natifs, au niveau du taux global de réalisation des liaisons de l’ensemble du texte, qui avait été interprétée dans un premier temps comme une meilleure performance des hispanophones par rapport aux autres populations d’apprenants (japonophones et anglophones) pourrait également s’expliquer par le fait qu’il ne s’agit pas réellement de liaisons réalisées mais plutôt de consonnes graphiques finales prononcées. Ce résultat surprenant doit donc être considéré avec prudence et être complété avec une analyse des réalisations de ces dernières.

38 Ces résultats mettent également en évidence l’intérêt d’élargir les analyses des productions de liaison à un plus grand nombre de populations d’apprenants, puisque le comportement des apprenants hispanophones et japonophones n’est pas identique. En effet, si les apprenants hispanophones ne se différencient pas des natifs au niveau du taux global de liaisons réalisées ainsi que du taux de liaisons catégoriques réalisées (basé sur les 4 catégories de Durand & Lyche, 2008), ils réalisent, dans des proportions comparables aux apprenants anglophones des études précédentes, des liaisons avec une consonne orthographique et des liaisons non enchaînées, avec parfois un cumul des deux phénomènes. Le schéma n’est pas identique pour les apprenants japonophones, puisque l’on observe d’une part des taux de réalisation globale de la liaison ainsi que des taux de liaisons catégoriques significativement moins élevés que les natifs. D’autre part, les taux de liaisons avec une consonne orthographique ainsi que ceux de liaisons non enchaînées semblent globalement légèrement inférieurs à ceux des hispanophones, avec surtout une amélioration notable en fonction du séjour : les apprenants japonophones ayant effectué un séjour prolongé en milieu francophone s’approchent des taux observés chez les natifs pour ces deux phénomènes.

5. Conclusion

39 Sur le plan didactique, ces résultats préliminaires montrent que les questions liées à la microplanification ne sont pas anodines, y compris pour des apprenants dont la L1 partage la prédilection du français pour les syllabes ouvertes, et qu’il semble nécessaire de les traiter de manière approfondie, notamment en les conscientisant, dans l’enseignement du FLE. De Moras (2011) observe en effet que le taux de liaisons enchaînées dans la catégorie des liaisons obligatoires augmente sensiblement après que les apprenants ont suivi un cours sur la liaison.

40 Les différences observées entre les apprenants hispanophones et japonophones soulignent également la nécessité d’élargir les analyses à d’autres populations. Les futurs travaux devront également intégrer la dimension inter-tâches, afin de déterminer l’impact de la tâche effectuée. Une analyse récente des productions de douze apprenants hispanophones montre en effet que les taux de liaisons avec une consonne orthographique ainsi que ceux de liaisons non enchaînées sont beaucoup moins élevés en conversation par rapport à ceux observés dans la lecture du texte. Cette tendance semble confirmée par des observations similaires effectuées chez les apprenants italophones (12 débutants et 12 avancés) examinés dans cette même étude (voir Racine et al., 2014). Les deux phénomènes observés (liaisons avec une consonne orthographique et liaisons non enchaînées) semblent donc intrinsèquement liés aux processus cognitifs impliqués dans la tâche de lecture, qui sont différents de ceux mis en œuvre dans la parole spontanée. Enfin, ajoutons encore que les différences observées (inter-populations et inter-tâches) dans le cadre de la liaison rejoignent les

Corpus, 15 | 2016 164

observations effectuées sur les aspects segmentaux (voyelles nasales et voyelles arrondies).

41 Ces premières données montrent donc que la méthodologie adoptée dans le projet IPFC devrait permettre de disposer de données de liaison diversifiées, en termes de L1 et de tâches, rendant possible des comparaisons à grande échelle. Cet approfondissement et cette diversification des travaux portant sur l’acquisition de la liaison en FLE, combinés à une meilleure prise en compte des usages réels en vigueur, rendue possible par le travail conséquent issu de la linguistique de corpus devraient en outre, à terme, permettre un renouvellement adéquat du matériel pédagogique pour l’enseignement de la liaison.

BIBLIOGRAPHIE

Abry, D. & Chalaron, M. (1994). 350 Exercices de phonétique. Paris : Hachette.

Abry D. & Chalaron M. (2011). Les 500 Exercices de phonétique. Paris : Hachette.

Ågren J. (1973). Enquête sur quelques liaisons facultatives dans le français de conversation radiophonique. Uppsala : Acta Universitatis Uspaliensis.

Baralo M. (1999). La adquisición del español como lengua extranjera. Madrid : Arco libros.

Bassetti B. (2006). « Orthographic input and phonological representations in learners of Chinese as a Foreign Language », Written Language and Literacy 9 (1) : 95-114.

Boersma P. & Weenink D. (2014). Praat : doing Phonetics by Computer. http://www.praat.org.

Carranza M., Cucchiarini C., Llisterri J., Machuca M. J. & Ríos A. (2014). « A corpus-based study of Spanish L2 mispronunciations by Japanese speakers », Proceedings of Edulearn14, 6th International Conference on Education and New Learning Technologies. Barcelone, Espagne : 3696-3705.

Coquillon A.-L. & Durand J. (2010). « Le français méridional : éléments de synthèse », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Les Variétés du français parlé dans l’espace francophone : Ressources pour l’enseignement, Paris : Ophrys, 185-197.

Côté M.-H. (2012). « Laurentian French (Quebec) : Extra vowels, missing schwas and surprising liaison consonants », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French : Illustrations from three continents. Amsterdam/Philadelphia : John Benjamins, 235-274.

Cylwik N., Wagner A. & Demenko G. (2009). « The EURONOUNCE corpus of non-native Polish for ASR-based Pronunciation Tutoring System », Proceedings of SlaTE 2009 – 2009 ISCA Workshop on Speech and Language Technology in Education. Birmingham, UK.

De Jong D. (1994). « La sociophonologie de la liaison orléanaise », in C. Lyche (éd.), French Generative Phonology : Retrospective and Perspectives. AFLS/ESRI : 95-130.

De Moras N. (2011). Acquisition de la liaison et de l’enchaînement en français L2 : Le rôle de la fréquence. PhD. Dissertation, University of Western Ontario.

Corpus, 15 | 2016 165

Debrock M. & Flament-Boistrancourt D. (1996). « Le corpus LANCOM : Bilan et perspectives », ITL – Review of Applied Linguistics 111-112 : 1-36.

Delais-Roussarie E. & Yoo H.-Y. (2010). « The COREIL corpus : a learner corpus designed for studying phrasal phonology and intonation », in K. Deziubalska-Kolaczyk, M. Wrembel & M. Kul (éd.) Proceedings of New Sounds 2010. Poznan, 100-105.

Delattre P. (1946). « Pour imiter un disque de français parlé », The French Review 20 (1) : 43-48.

Delattre P. (1951). Principes de phonétique française à l’usage des étudiants anglo-américains. Middlebury College.

Detey S. (2005). Interphonologie et représentation orthographiques. Du rôle de l’écrit dans l’enseignement/ apprentissage du français oral chez des étudiants japonais. Thèse de Doctorat, Université de Toulouse Le Mirail.

Detey S. (2012). « Coding and L2 phonological corpus : from perceptual assessment to non-native speech models – an illustration with French nasal vowels », in Y. Tono, Y. Kawaguchi & M. Minegishi (éd.) Developmental and Crosslinguistic Perspectives in Learner Corpus Research. Amsterdam/Philadelphia : John Benjamins, 229-250.

Detey S. (2014). « Vers une évaluation par codage perceptif sur corpus de la production des liquides françaises /R/ et /l/ des apprenants japonais en singleton et en groupe consonantique », Flambeau 40, 1-17.

Detey S. & Kawaguchi Y. (2008). « Interphonologie du français contemporain (IPFC) : récolte automatisée des données et apprenants japonais », Journées PFC. Phonologie du français contemporain : variation, interfaces, cognition. Paris, 11-13 décembre 2008.

Detey S. & Racine I. (2012). « Les apprenants du français face aux normes de prononciation : quelle(s) entrée(s) pour quelle(s) sortie(s) ? », Revue française de linguistique appliquée 17(1) : 81-96.

Detey S., Racine I., Eychenne J. & Kawaguchi Y. (2014a). « Corpus-based L2 phonological data and semi-automatic perceptual analysis : the case of nasal vowels produced by beginner Japanese learners of French », Proceedings of Interspeech 2014. Singapore, 14-18 Septembre : 539-544.

Detey S., Racine I. & Kawaguchi Y. (2014b). « Des modèles prescriptifs à la variabilité des performances non-natives : les voyelles nasales des apprenants japonais et espagnols dans le projet IPFC », in J. Durand, G. Kristoffersenm B. Laks avec la collaboration de J. Peuvergne (éd.) La Phonologie du français : Des normes aux périphéries (Festschrift pour Chantal Lyche). Paris : Presses universitaires de Paris-Ouest, 197-226.

Detey S., Racine I., Kawaguchi Y. & Zay F. (à paraître). « Variation among non-native speakers : Japanese and Spanish learners of French », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Detey S., Racine I., Kawaguchi Y., Zay F., Buehler N. & Schwab S. (2010). « Évaluation des voyelles nasales en français L2 en production : de la nécessité d’un corpus multitâches », in F. Neveu, J. Durand, T. Klingler, S. Prévost & V. Muni-Toké (éd.) Actes de CMLF’10. Paris : ILF, 1289-1301.

Durand J., Laks B. & Lyche C. (2009). Phonologie, variation et accents du français. Paris : Hermès.

Durand J., Laks B. & Lyche C. (2014). « French phonology from a corpus perspective : the PFC programme », in J. Durand, U. Gut & G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology. Oxford : Oxford University Press, 486-497.

Durand J. & Lyche C. (2008). « French liaison in the light of corpus data », Journal of French and Language Studies 18 (1) : 33-66.

Corpus, 15 | 2016 166

Durand J. & Lyche C. (à paraître). « Approaching variation in PFC : the liaison level », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Encrevé P. (1988). La liaison avec et sans enchaînement. Paris : Seuil.

Eychenne J., Lyche C., Durand J. & Coquillon A.-L. (2014). « Quelles données pour la liaison en français : la question des corpus », in C. Soum-Favaro, A.-L. Coquillon & J. P. Chevrot (éd.) La Liaison : approches contemporaines. Berne : Peter Lang, 33-60.

Eychenne J. & Paternostro R. (à paraître). « Analyzing transcribed speech with Dolmen », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Fouché P. (1959). Traité de prononciation française. Paris : Klincksieck. 2e édition.

Gut U. (2009). Non-native Speech : a Corpus-based Analysis of Phonological and Phonetic Properties of L2 English and German. Wien : Peter Lang.

Gut U. (2014). « Corpus phonology and second language acquisition », in J. Durand, U. Gut & G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology. Oxford : Oxford University Press, 286-301.

Harnois-Delpiano M., Cavalla C. & Chevrot J.-P. (2012). « L’acquisition de la liaison en L2 : étude longitudinale chez des apprenants coréens de FLE et comparaison avec enfants francophones natifs », in F. Neveu, V. Muni Toke, P. Blumenthal, T. Klingler, P. Ligas, S. Prévost & S. Teston- Bonnard (éd.) Actes du Congrès mondial de linguistique française (CMLF 2012). Paris : Institut de linguistique française, 1575-1589.

Howard M. (2005). « L’acquisition de la liaison en français langue seconde – Une analyse quantitative d’apprenants avancés en milieu guidé et en milieu naturel », CORELA, Numéros thématiques, Colloque AFLS. http://corela.edel.univ-poitiers.fr/index.php?id=1127.

Howard M. (2013). « La liaison en français langue seconde : une étude longitudinale préliminaire », Language, Interaction, and Acquisition 4 (2) : 190-231.

Lacoste V., Herry-Bénit N. & Kamiyama T. (2013). « The Interphonology of Contemporary English : An introduction ». Conférence annuelle du projet PAC : Spoken English corpora : from annotation to interphonologies. Aix-en-Provence, 30 mai-1er juin 2013.

Laks B. (2013). « Diachronie de la liaison dans la parole publique », Journées PFC 2013 Phonologie du français contemporain : Regards croisés sur les corpus oraux. Paris, 5-7 décembre 2013.

Landron S., Paillereau N., Nawafleh A. et al. (2011). « Le corpus PhoDiFLE : un corpus commun de français langue étrangère pour une étude phonétique des productions de locuteurs de langues maternelles plurielles », CJC Praxiling2011. Montpellier.

Lauret B. (2007). Enseigner la prononciation du français, questions et outils. Paris : Hachette.

Mallet G. (2008). La liaison en français : Description et analyses dans le corpus PFC. Thèse de Doctorat, Université Paris Ouest Nanterre la Défense.

Mastromonaco S.M. (1999). Liaison in French as a Second Language. Doctor of Philosophy. PhD Dissertation, University of Toronto.

Meng H., Tseng C.-Y., Kondo M., Harrison A. & Viscelgia T. (2009). « Studying L2 suprasegmental features in Asian Englishes : a position paper », Proceedings of Interspeech 2009. Brighton, UK.

Corpus, 15 | 2016 167

Myles F. & Mitchell R. (2007). French Learner Language Oral Corpora (FLLOC). University of Southampton, 13.3 GB.

Neri A., Cucchiarini C. & Strik H. (2006). « Selecting segmental errors in L2 Dutch for optimal pronunciation training », IRAL 44 : 357-404.

Perdue C. (1993). Adult Language Acquisition : Crosslinguistic Perspectives. Volume 1, Field Methods. Cambridge : Cambridge University Press.

Racine I. (2012). « Spanish learners’productions of French close rounded vowels : a corpus-based perceptual study » in Y. Tono, Y. Kawaguchi & M. Minegishi (éd.) Developmental and Crosslinguistic Perspectives in Learner Corpus Research. Amsterdam/Philadelphia : John Benjamins, 205-228.

Racine I. (2014). « Une approche par corpus de la liaison chez les apprenants hispanophones de français langue étrangère : quelles conséquences pour l’enseignement du FLE ? », Flambeau 40, 18-37.

Racine I. & Detey S. (2012). « La liaison dans IPFC : premiers regards sur les données hispanophones et japonophones », Colloque Du français et de l’anglais aux langues du monde : variation, structure et théorie du langage. Montpellier, 28-30 juin 2012.

Racine I. & Detey S. (2015). « L’apprentissage de la liaison en français par des locuteurs non natifs : éclairage des corpus oraux », Bulletin VALS-ASLA 102.

Racine I., Detey S., Buehler N., Schwab S., Zay F. & Kawaguchi Y. (2010). « The production of French nasal vowels by advanced Japanese and Spanish learners of French : a corpus-based evaluation study », in K. Deziubalska-Kolaczyk, M. Wrembel & M. Kul (éd.) Proceedings of New Sounds 2010 – Sixth International Symposium on the Acquisition of Second Language Speech. Poznan : Adam Mickiewicz University, 367-372.

Racine I., Detey S. & Kawaguchi Y. (2012). « Les voyelles /y-u/ dans IPFC : évaluation perceptive de productions natives, hispanophones et japonophones », Actes de JEP 2012. Grenoble : 385-392.

Racine I., Detey S., Zay F. & Kawaguchi Y. (2012). « Des atouts d’un corpus multitâches pour l’étude de la phonologie en L2 : l’exemple du projet “ Interphonologie du français contemporain” (IPFC) », in A. Kamber & C. Skupiens (éd.) Recherches récentes en FLE. Berne : Peter Lang, 1-19.

Racine I., Paternostro R., Falbo C., Janot P. & Murano M. (2014). « La liaison chez les hispanophones et les italophones : du texte lu à la conversation », Rencontres FLORAL 2014 « Corpus oraux et enseignement de la prononciation en FLE & Interphonologie et corpus oraux ». Paris, 8-9 décembre 2014.

Racine I., Zay F., Detey S. & Kawaguchi Y. (2011). « De la transcription de corpus à l’analyse interphonologique : enjeux méthodologiques en FLE », in G. Col & S. N. Osu (éd.) Travaux linguistiques du CerLiCO 24 (Actes du 24e colloque du CERLICO « Transcrire, écrire, formaliser », Université de Tours, juin 2010). Rennes : PUR, 13-30.

Thomas A. (2002). « La variation phonétique en français langue seconde au niveau universitaire avancé », AILE 17 : 101-121.

Thomas A. (2010). « La complexité en FLE2 universitaire avancé », in U. Paprocka-Piotrowska, C. Martinot & S. Gerolimich (éd.) Actes du colloque La complexité en langue et son acquisition. Paris : Université Descartes, 149-152.

Trouvain J. & Gut U. (2007). Non-Native Prosody. Phonetic Description and Teaching Practice. Berlin/ New York : Mouton de Gruyter.

Corpus, 15 | 2016 168

Visceglia T., Tseng C.-Y., Kondo M., Meng H. & Sagisaka Y. (2009). « Phonetic aspects of content design in AESOP (Asian English Speech cOrpus Project) », Proceedings of Oriental-COCOSDA. Urumuqi, Chine.

Vendelin I. & Peperkamp S. (2006). « The influence of orthography on loanword adaptations », Lingua 116 : 996-1007.

Wauquier S. (2009). « Acquisition de la liaison en L1 et L2 : stratégies phonologiques ou lexicales ? », in J.-Y. Dommergues (éd.), Phonétique, bilinguisme et acquisition, Aile-Lia 2 : 93-130.

Zampini M. L. (2008). « L2 speech production research : Findings, issues, and advances. », in J. G. Hansen Edwards, & M. L. Zampini (éd.) Phonology and Second Language Acquisition. Amsterdam : John Benjamins, 219-249.

NOTES

1. Bien que les termes « langue seconde » (L2) et « langue étrangère » (LE) ne soient pas synonymes (Baralo, 1999), ils sont utilisés ici de manière interchangeable, tout comme les termes « langue maternelle » et « langue première » (L1). 2. Parmi ceux-ci, on peut par exemple mentionner le corpus ESF (European Science Foundation Second Language, Perdue, 1993), le projet LANCOM (LANgue et COMmunication, Debrock & Flament- Boistrancourt, 1996) et le projet FLLOC (French Learner Language Oral Corpora, Myles & Mitchell, 2007). 3. www.cblle.tufs.ac.jp/ipfc/ 4. Une description détaillée des différentes enquêtes ainsi que la liste des publications liées sont disponibles sur le site du projet : (http://cblle. tufs.ac.jp/ipfc/). 5. Tous les codages sont effectués par des locuteurs natifs. Pour certains phénomènes, un double – voire triple – codage à l’aveugle est effectué. Une fonction de Dolmen permet de comparer aisément les codages effectués par des codeurs différents. Pour un exemple plus détaillé de cette procédure de double codage et du traitement des données, voir Detey et al. (2014a). 6. Les réflexions et analyses présentées dans cette section ont bénéficié des commentaires des participants à une conférence organisée a Montpellier, en 2012 (Racine & Detey, 2012), ainsi que de ceux des relecteurs anonymes du manuscrit de Racine (2014). Qu’ils en soient ici remerciés. 7. Ce nombre est toutefois soumis à la variation diatopique, le français laurentien connaissant par exemple des liaisons en [l] (Côté, 2012). 8. À noter, toutefois, que cette dénasalisation n’est pas systématique (dans « mon animal », la voyelle reste nasale, de même que dans « en effet » ou « un entrepôt ») et qu’elle est également soumise à la variation diatopique, étant en effet plus fréquente par exemple dans le français méridional (cf. Coquillon & Durand, 2010). 9. Pour un résumé récent des apports de ces différents corpus, voir Eychenne et al. (2014). 10. Selon Laks (2013), ce changement coïnciderait avec le mouvement de mai 68. 11. Certains auteurs ont tout de même constitué un groupe témoin de natifs qui sert de référence. C’est le cas de De Moras (2011) par exemple. 12. Les deux évaluateurs sont des linguistes, enseignants de FLE spécialisés en phonétique. 13. Une analyse ANOVA montre que cette différence n’est pas significative (ns). 14. Les transcriptions phonétiques ne cherchent pas à reproduire fidèlement la prononciation des apprenants, ce point n’étant pas le propos ici.

Corpus, 15 | 2016 169

RÉSUMÉS

Ce chapitre présente le projet « Interphonologie du français contemporain » (IPFC), qui vise à constituer et analyser une large base de données de français langue étrangère produit par des apprenants de diverses L1. Nous illustrons ensuite la méthodologie adoptée dans le projet à travers le phénomène de la liaison. Après avoir exposé les enjeux de la liaison pour le français L2, nous présentons une étude préliminaire des réalisations de liaisons par des apprenants hispanophones et japonophones en lecture de texte et montrons en quoi le projet IPFC est susceptible de fournir des données diversifiées en termes d’apprenants et de tâches, ce qui devrait, à terme, permettre un renouvellement des données pour l’enseignement de la liaison en français L2.

In this chapter, we present the project “Interphonology of Contemporary French” (IPFC). The aim of the project is to constitute and analyse a large database of L2 French, produced by learners of different origins. The methodology adopted in the project is then illustrated through the phenomenon of liaison. First we describe the challenges of liaison for L2 French learners and then we present a preliminary study of the realisations of liaison produced by Spanish and Japanese learners of French in the text reading task. We conclude by showing that the IPFC project provides an adequate framework to deepen our knowledge of L2 liaison, which in turn should help us to renew the pedagogical material used to teach liaison in L2 French.

INDEX

Mots-clés : corpus, interphonologie, français parlé, français langue étrangère, acquisition phonologique, liaison, IPFC, apprenants hispanophones, apprenants japonophones Keywords : corpus, interphonology, spoken French, French as a foreign language, phonological acquisition, liaison, IPFC, Spanish learners, Japanese learners

AUTEURS

ISABELLE RACINE ELCF, Université de Genève

SYLVAIN DETEY SILS, Université Waseda

Corpus, 15 | 2016 170

Le CFPP2000 : constitution, outils et analyses. Le cas des interrogatives indirectes The spoken Parisian French corpus in the 2000’: constitution, tools and analyses. The case of indirect interrogatives clauses

Sonia Branca-Rosoff et Florence Lefeuvre

1 L’objet de cet article est de préciser quel type de français apparaît dans le Corpus de français parlé parisien des années 2000, constitué par Sonia Branca-Rosoff, Serge Fleury, Florence Lefeuvre et Mat Pirès1. Ce corpus atteint, en mars 2015, 602 000 mots pour 42,5 heures d’enregistrement, réparties en 32 interviews, qui couvrent la plupart des arrondissements de l’est et du centre de Paris ainsi que quelques villes de la petite couronne. La diversité des locuteurs interrogés doit permettre de préciser l’ampleur de la variation observable dans cet usage oral du français contemporain, que nous appelons la langue commune. Dans cet article, nous nous appuierons sur l’exemple des interrogatives indirectes (percontatives) pour situer ce registre qui ne se confond ni avec le français standard, tel qu’il est décrit dans les grammaires et les dictionnaires, ni avec les variétés les plus vernaculaires.

1. L’hypothèse de la langue commune

2 Les choix qui ont présidé à la confection du CFPP2000 expliquent les formes de français parlé observables dans le corpus. Le CFPP2000 est un corpus d’entretiens semi-préparés (l’enquêteur disposant d’une grille de questions qui n’a pas été communiquée auparavant à l’enquêté) sur le thème du rapport des locuteurs à leur quartier et à la ville de Paris en général. Ce corpus ne relève donc pas de l’observation participante, où l’enquêteur cherche à disparaître pour ne pas modifier les échanges ordinaires du groupe qu’il observe. Les universitaires qui ont réalisé l’enquête n’ont pas davantage adopté « la neutralité » distante, recommandée un temps, notamment en sociologie, puisqu’ils n’hésitent pas à s’impliquer dans l’échange, ce qui rapproche les entretiens

Corpus, 15 | 2016 171

du CFPP2000 de « vrais » dialogues. L’enquêteur adopte une attitude empathique, mais il pousse parfois ses interlocuteurs dans leurs retranchements, rappelant ainsi qu’il est extérieur à leur groupe. Ce dispositif, marqué par l’asymétrie des pôles d’interlocution, a certainement des conséquences en ce qui concerne la production des opinions ; ainsi, lorsqu’il s’agit d’immigration, les enquêtés tiennent compte des positions défavorables à la critique des migrants qu’ils prêtent à l’enquêteur.

3 Ce dispositif a aussi des conséquences sur les activités langagières développées lors de l’entretien. Il entraîne, par exemple, le recours à des séquences argumentatives, car le locuteur, qui ne peut compter sur une étroite connivence avec l’enquêteur, entre souvent dans l’exposé de ses motifs et plus généralement dans un discours de justification. De même, il comporte une sur-utilisation des marques de réflexivité2. La volonté d’agir sur le point de vue de l’enquêteur s’accompagne, chez beaucoup d’enquêtés, de retours sur leurs formulations comme chez cette Ivryenne des « classes moyennes », soucieuse de n’être pas confondue avec la « racaille » des cités et de préserver les avantages procurés par une école d’élite, mais qui vit dans une banlieue communiste dont elle partage en principe les options généreuses : (1) on faisait partie de l’école + entre guillemets privilégiée d’Ivry hein (mm) de toute façon ça faut faut que ça soit bien clair (mm) + et euh nos enfants avaient une un très bon niveau qui se vendait très bien sur Paris + nous on peut dire notre fils on l’a vendu sur son livret scolaire hein c’est + on l’a vendu dans trois collèges parisiens [IV-02]

4 La locutrice revient sur la brutalité de l’étiquette « école privilégiée » qu’elle pourrait attribuer à une fiction d’énonciateur tenant du politiquement correct – soit l’enquêtrice, soit le public virtuel des lecteurs de l’interview – avant de proposer un « très bon niveau » qui induit une orientation argumentative moins négative.

5 Le dispositif d’enquête a aussi des effets en ce qui concerne le registre, question centrale, lorsqu’il s’agit des interrogatives indirectes. Les locuteurs n’usent pas librement de la variété qu’ils emploient dans leur milieu vernaculaire, si celle-ci s’écarte sensiblement de la variété utilisée par l’enquêteur. Les traits pouvant être perçus comme trop marqués sont inhibés au profit de traits où langue de l’interviewé et langue de l’intervieweur convergent3 : enquêtés et enquêteur vont avoir recours à une « langue commune ». Pour désigner cette variété, nous aurions pu utiliser la notion de standard très employée en sociolinguistique, mais les entretiens s’en distinguent sur de nombreux points. Nous conservons le terme standard pour renvoyer aux normes sociales instituées, telles qu’on les trouve dans les grammaires et les dictionnaires. De ce fait, le terme ne recouvre pas les normes émergentes déviantes que l’on rencontre dans le corpus CFPP2000 – comme nous le montrerons à propos des interrogatives indirectes. Le corpus ne peut davantage servir à décrire les différents vernaculaires (français dit « des cités », jeux bilingues…) ou les argots de métiers qui circulent dans la capitale. Il est centré sur la variété qui émerge dans la situation d’intercommunication cadrée comme « Entretiens-sur-la-ville-de-Paris-recueillis-par-des-universitaires-et- destinés-à-être-mis-en-ligne », une variété que les enquêtés jugent convenable dans une situation où ils sont bien avertis que leurs discours seront diffusés dans l’espace public, puisqu’ils doivent signer une autorisation de mise en ligne après anonymisation.

6 Pour résumer, le corpus permet d’aborder le comportement des locuteurs, en se référant non pas aux prescriptions des grammaires et des dictionnaires (il s’agit justement d’en mesurer l’efficacité) ou aux déclarations subjectives de ces locuteurs (on

Corpus, 15 | 2016 172

sait qu’elles sont souvent très normatives), mais en dégageant des « normes descriptives », statistiques, qui correspondent à une description objective des comportements des locuteurs. Dans la variété de CFPP2000, il s’agit d’un français oral, délesté d’un certain nombre de traits communautaires, l’accommodement réalisé entre les deux partenaires aboutissant à une variété qui présente une homogénéité suffisante pour qu’il y ait un échange. Plutôt que d’une variété, il faudrait d’ailleurs parler d’un espace de variation, où les locuteurs se rapprochent tantôt du pôle familier, tantôt du pôle standard. Le corpus implique actuellement 58 locuteurs4. C’est dire qu’il n’est pas encore parvenu au stade de la représentativité statistique. Toutefois, il ouvre sur la diversité des usages.

7 Les métadonnées permettent de tenir compte de la variation due à la situation sociale des locuteurs. Ces renseignements a priori peuvent être utilement complétés par la lecture de l’entretien afin de dégager les identités sociolinguistiques revendiquées par les locuteurs qui peuvent influencer leurs comportements.

8 Le corpus CFPP2000 permet par conséquent d’observer la diffusion d’une forme en tenant compte du sexe, de l’âge et du statut des locuteurs. Dans un corpus synchronique, une progression en cours se repère notamment aux emplois plus nombreux dans la jeune génération que dans la génération ancienne. Labov (1976) parle à ce propos de changement en temps apparent.

2. Les percontatives ou interrogatives indirectes : critères de reconnaissance

9 Dans ce travail, nous laissons de côté le problème des rapports entre questions, propositions relatives et interrogations indirectes. Nous ne discutons pas des choix théoriques impliqués par l’usage de telle ou telle terminologie. Nous adopterons celle de Le Goffic (1993), qui parle de percontatives. Nous savons bien que chaque terme renvoie à une définition différente de ce type de structures, mais dans la mesure où le lecteur peut identifier ce dont nous parlons, ce choix n’a pas paru trop gênant. Trois critères de reconnaissance (cf. Lefeuvre 2006) nous ont permis de relever les percontatives dans le CFPP2000 : le type de verbes introducteur, le type de mots en qu- et le rôle de la préposition.

2.1 Une approche sémantique : le verbe introducteur

10 D’après R. Martin 1984, le verbe introducteur doit évoquer un univers de croyance et la non-explication de la valeur de p dans la subordonnée5. Pour G. Serbat (1985 : 9) : Le verbe introducteur n’a pas besoin d’être lui-même percontatif. Il suffit qu’il soit compatible avec la conception ou l’énoncé d’une donnée problématique autrement dit il suffit qu’il appartienne aux classes larges « savoir » ou « dire ».

11 Le Goffic (p. 265), quant à lui, retient trois types de verbes : i) verbe d’action sur autrui (demander), ii) verbes déclaratifs et iii) verbes de connaissance : (2) les gens m’ont beaucoup demandé quand il est mort [14-01] (3) donc je lui ai dit où il était [IV-01] (4) je sais pas où c’est [03-01]

12 B. Defrancq (2005, p. 170), signale, en repartant de la liste des verbes introducteurs donnée dans L. Karttunen 1978, que les interrogatives indirectes « s’associent toutes à des verbes référant d’une façon ou d’une autre à un procès qui a trait à l’information »,

Corpus, 15 | 2016 173

même si « l’inverse n’est pas vrai : tous les verbes de ce type ne s’associent pas à une [interrogative enchâssée] ».

2.2 Les mots en qu-

13 Il se révèle parfois difficile de distinguer les percontatives des intégratives qui regroupent relatives sans antécédent et circonstancielles en comme, quand, si, que. Pour s’assurer qu’il s’agit bien d’une percontative, les grammairiens ont proposé différents tests de substitution dont nous rappelons quelques-uns ci-dessous.

2.2.1 comment ≠ comme

14 D’après P. Le Goffic, le verbe introducteur percontatif accepte des subordonnées en comment et non en comme (1993 : 45). Ainsi pour : (5) je sais pas où c’est [03-01]

15 où peut être remplacé par comment et non par comme : (6) Je sais pas comment c’est / *comme c’est

16 Ce qui montre que savoir se construit bien avec des percontatives.

2.2.2 quel

17 Le verbe introducteur percontatif accepte des subordonnées en quel (Le Goffic 1987 : 84)6 : (7) je sais pas quel est cet individu

2.2.3 insertion de est-ce que

18 M. Pierrard ajoute le test de l’insertion de est-ce que dans la subordonnée. Si l’insertion est possible, il s’agit d’une percontative (« interrogative indirecte », 1988 : 32) : (8) je sais pas où on irait jouer au foot [KB-01] (9) je sais pas où est-ce qu’on irait jouer au foot

2.3 L’intégrative et la préposition impliquée

19 L’intégrative (relative sans antécédent) dépend de la préposition impliquée par le verbe introducteur, à la différence de la percontative ou interrogative indirecte : (10) Je pense à qui tu sais (relative sans antécédent, ex. tiré de Léard 1992) (11) je ne sais (mm) même pas de quoi ils vivaient (interrogative indirecte, CFPP2000 [14-02])

20 Cela dit, il existe des structures intégratives dont la préposition dépend bien du verbe de la subordonnée : (12) C’est à quoi je pense (ex. tiré de Lefeuvre 2006 : 151)

21 D’autre part, dans le discours informel, ces tests sont moins pertinents. Ainsi peut-on trouver est-ce que dans des subordonnées qui ne sont pas ici des percontatives mais des intégratives (ou relatives sans antécédent) basées sur la structure de clivées : (13) je suis déjà allé où est-ce que j’ai envie d’aller [SO-02] (14) tu entendras pas quelqu’un dire : “c’est qu’est-ce que je t’ai dit” [12-02] (15) je pensais plutôt à qu’est-ce qui se passe dans la cour de récréation [11-02]

Corpus, 15 | 2016 174

22 En effet, les verbes aller, être, penser n’introduisent pas de percontatives et ne peuvent pas se construire avec quel : (16) *Je suis déjà allé dans quel lieu tu es allé *C’est dans quel lieu tu es allé *Je pensais à quel lieu tu es allé

23 En outre, certains verbes comme parler peuvent être pris comme des verbes introducteurs de percontatives, alors qu’ils ne le sont pas dans un discours standard. C’est ce que l’on a dans cet exemple qui renferme est-ce que et qui est proféré d’un seul tenant, sans pause ni décrochage intonatif, ce qui aurait pu faire penser à un abandon de construction et un redémarrage avec une interrogative directe. Il faut donc considérer qu’il s’agit d’une subordonnée dépendant du verbe parler et introduite par comment : (17) parler comment est-ce qu’on vit euh + comment est-ce qu’on vit en tant que Parisienne avec euh voilà avec deux enfants [11-01]

24 D’après ces deux indices (présence de comment et de est-ce que), il s’agit d’une interrogative indirecte mais le verbe parler n’est pas un verbe reconnu comme un verbe introducteur de percontatives en français standard. Nous avons le choix entre deux types d’analyse : soit il s’agit d’un verbe qui est transformé en verbe introducteur de percontative, proche de dire, soit il s’agit d’une subordonnée qui est une intégrative adverbiale (circonstancielle en comment), paraphrasable par de la façon dont on vit (cf. Lefeuvre 2009).

25 Voyons à présent quels types de percontatives figurent dans le CFPP2000.

3. Les types de percontatives dans le CFPP2000

26 Cinq types d’interrogatives indirectes apparaissent dans le CFPP, avec des fréquences variées.

3.1 Les percontatives attendues selon les grammaires du français standard

27 Il s’agit des percontatives qui se présentent sans inversion, sans est-ce que, avec le mot en qu- en début de subordonnée, comme elles sont décrites par exemple dans Riegel et al. 2009 (838).

28 Deux schémas sont attestés dans le CFPP. Le schéma S-V : (18) je sais pas où c’est chez (Özgur [H 32 ans, élevé dans le 3e arrondissement, 03-01]) (19) et et quand on sait où d’où on vient on se dit “je suis là j’ai beaucoup de chance” [Pierre-Marie Simo, H 34 ans, Camerounais d’origine, arrivé en France, dans le 18e arrondissement populaire, à 9 ans, 18-01]

29 Et le schéma avec postposition du GN sujet : (20) je sais pas où est la préfecture [SBR enq, F, 65 ans]

30 Nous n’avons pas relevé toutes les structures standard car leur décompte aurait nécessité de faire des requêtes longues pour chaque verbe introducteur, mais elles sont bien attestées et chez des locuteurs d’origine sociale variée (cf. plus bas le sondage pour les percontatives introduites par je (ne) sais pas).

Corpus, 15 | 2016 175

31 Il y a ainsi 11 occurrences de je ne sais pas ce que chez des locuteurs jeunes comme Paul Simo, âgé de 18 ans (je sais pas ce que je vais faire, [18-01]), et chez des locuteurs âgés comme J. Pelletier qui vit en banlieue et a un faible bagage scolaire (je sais pas ce que la vie me réserve [IV-01]).

3.2 Les percontatives en est-ce que

32 Cette structure, refusée par les grammairiens normatifs, est également bien ancrée dans les usages des locuteurs parisiens. Le CFPP2000 comporte 27 percontatives en est- ce que. Les verbes introducteurs se répartissent dans les trois catégories signalées plus haut :

33 – type demander (4 exemples) : (21) ils me demandent un peu euh + + où est-ce que j’aime bien aller dîner machin et tout + (Raphaël Larivière, H. 23 ans, vit dans le 7e, quartier le plus bourgeois de Paris, étudiant en médecine [07-04])

34 – type dire, énonciation (3 exemples) : (22) vous ne signalez pas qu’est-ce que vous faites (Thérèse Le Vern, F 70 ans, enfance jusqu’à 10 ans, île de la Réunion [12-03])

35 – type savoir, épistémique (20 exemples) : (23) euh c’est vrai que quand on s’cachait derrière les voitures on prenait rapidement l’réflexe de regarder où est-ce qu’on se cachait (Özgur, H. 32 ans, ingénieur du son pour l’audiovisuel, élevé à Paris dans le 3e arr. [03-01])

36 Le verbe introducteur le plus fréquent est savoir (11 occurrences), qui apparaît massivement avec la négation : 7 je sais pas, 2 je sais plus ; contre seulement 2 savoir affirmatifs, comme dans l’exemple cité plus haut. L’affinité entre la négation et la structure en est-ce que est un bon indicateur d’une probable influence de l’interrogative indépendante. La forme affirmative du verbe savoir n’a pas de signification interrogative et, dans ce cas, le locuteur a tendance à ne pas s’aligner sur l’interrogative directe en est-ce que. Au contraire, lorsque, sémantiquement, ne pas savoir exprime une question, le locuteur adopte davantage la structure syntaxique en est-ce que, caractéristique de la question.

37 Même si cette structure n’est pas répertoriée dans les grammaires ou est considérée comme ne relevant pas du bon usage (Riegel et al., 2009 : 838), elle existe depuis au moins quatre siècles. De grands auteurs du XVIIe siècle en ont usé sans soulever la réprobation des puristes de l’époque : (24) Il faut voir de quoi est-ce qu’elle est malade (Molière, Le Médecin malgré lui) (25) me demandant qu’est-ce que c’était que des tambours qui battaient (Cardinal de Retz, ex. tiré de Lefeuvre 2014) (26) Dites-nous qui est-ce que nous pouvons choisir pour notre roi (Fénelon, ex. tiré de Lefeuvre 2014)

38 Plusieurs linguistes, comme B. Defrancq (2000, p. 135 pour Corpaix) ou C. Blanche Benveniste (1997, p. 41), signalent que la structure est bien attestée dans d’autres corpus. C. Blanche Benveniste estime même qu’on ne devrait plus parler de faute à son propos. Dans le même sens, nous notons que, sauf exception7, les locuteurs, en usent sans se corriger. Le type « standard » est cependant le plus fréquent, ce que permet d’observer la comparaison d’énoncés introduits par je (ne) sais pas, structure dont nous avons dit qu’elle favorise est-ce que :

Corpus, 15 | 2016 176

Tableau 1. Fréquence des percontatives

Percontatives suivant l’ordre S-V Percontatives renfermant est-

(ou VS) ce qu-

je (ne) sais pas qui 4 1

je (ne) sais pas où 7 3

je (ne) sais pas pourquoi 8 0

je (ne) sais pas comment 23 0

je (ne) sais pas ce qu- /qu’est- 24 2 ce qu-

je (ne) sais pas quand 0 0

total 66 6

39 Je (ne) sais pas quand n’apparaît pas dans le corpus, mais en revanche nous avons trouvé un exemple avec l’introducteur je sais même plus : (27) je sais même plus quand est-ce qu’il est devenu à la mode [Anita Musso, 46 ans, licence, auxiliaire de vie a grandi dans le 11e, 11-01]

40 Il faut noter l’influence des mots en qu-. Où favorise l’emploi de est-ce que. Comment et pourquoi l’inhibent.

3.3 Les percontatives qui renferment deux mots en qu-

41 Seulement deux exemples de ce type ont été répertoriés, tous avec comment : (28) je sais pas comment que ça se passe dans les autres pays + mais je trouve qu’en (Valentine Testanier, 60 ans, [12-03]) (29) moi ce qui m’intéressait et ce qui m’intéresse toujours + + c’est + l’humain + le vécu des gens (mm) savoir comment qu’on va pouvoir les + les sortir de cette foutue merde + où on est en ce moment (mm) (Jacqueline Pelletier, 65 ans, [IV-01])

42 Nous n’avons pas trouvé d’exemples en quand qu- ni où qu-. Notons que ce schéma est également rare en ce qui concerne les interrogatives (directes). Nous n’en avons trouvé dans le CFPP que cinq, produites par le même locuteur (cf. Lefeuvre & Rossi-Gensane, 2015) : (30) comment que c’était j’en sais rien (Marie-Hélène Matera, 67 ans, secrétaire retraitée, enfant d’immigrés italien, [MO-02]) (31) et ben y a eu euh euh comment qu’il s’appelle + aidez-moi Mireille (Marie-Hélène Matera, [MO-02]) (32) + qui fabriquait bon euh comment que ça s’appelle ben des bougies (Marie-Hélène Matera, [MO-02]) (33) dans les dans les autres unités par exemple dans la distribution ou dans : comment que ça s’appelle la distribution puis l’autre c’est quoi déjà ? bougies (Marie-Hélène Matera, [MO-02]) (34) si un souvenir me me me tente tu sais des fois un vieux moulin à la main là comment que ça s’appelle (Marie-Hélène Matera, [MO-02])

Corpus, 15 | 2016 177

43 Dagnac (2014) rappelle la forte stigmatisation de ce type de structure qui serait en déclin. Defrancq (2005) n’évoque pas ce schéma pour les percontatives. Ce schéma semble bien inscrit en langue, puisque l’on peut trouver quelques percontatives en comment que à l’oral représenté (3 occurrences de sais pas comment que, toutes 3 sur la première moitié du XXe siècle) : (35) J’sais pas comment que tu te démerdes, mais t’es toujours d’attaque ! (Frantext, Genet, le Miracle de la rose, 1947) (36) Je ne sais pas comment que ça se fait. (Frantext, Péguy, Le Mystère de la charité de Jeanne d’Arc, 1910) Ce type de percontative est attesté sur Frantext à partir de 1879, (37) Dis-moi un peu comment que tu t’y prendrais ! (Huysmans, Les Sœurs Vatard, 1879) les dernières occurrences trouvées datant de 1966 : (38) Ceux d’entre nous qui avaient encore la force de parler se soulevèrent sur un coude et demandèrent comment que ça s’était passé. (Pérec, Quel Petit Vélo à guidon chromé au fond de la cour ?, 1966)

44 On peut donc faire l’hypothèse que ce schéma, pour les percontatives, est effectivement en déclin.

45 En revanche, il est davantage présent dans le CFPQ (corpus de français parlé québécois de 471 575 mots) ; pour les interrogatives (directes), 18 exemples sur les 50 relevés avec comment en position frontale adoptent cette structure (cf. Lefeuvre & Rossi-Gensane, 2015) : (39) comment qu’ils appellent ça dans les bu un bureau de travail/ là dans les::: (CFPQ, sous‐ corpus 15, CFPQ) et nous avons trouvé 11 exemples de percontatives amorcées par comment que : (40) hum hum hum hum hum hum hum et pour dire hein que tu sais pas comment que ça ça peut brimer un enfant (sous-corpus 20, CFPQ)

3.4 Les percontatives avec inversion

46 F. Gadet (1997, 108) relève des énoncés comme : (41) Je me demande quand part-il

47 Ce type d’énoncés avec inversion semble typique de conduites d’hypercorrection. Le locuteur en « fait trop » : il essaie de produire une forme d’interrogation qui relève d’un usage soutenu en inversant le verbe et le sujet, mais en alignant la percontative sur la forme la plus normée d’interrogative, il oublie qu’il n’y a pas d’inversion dans la subordonnée. De fait, on entend parfois ces formes à la radio ou à la télévision et on les trouve à l’écrit dans des copies d’étudiant. Dans la situation d’enregistrement du CFPP2000, les locuteurs n’ont pas jugé utile d’avoir recours au registre le plus soutenu. De fait ces structures ne sont pas attestées.

3.5 Les percontatives avec le mot en qu- in situ

48 Nous avons relevé seulement deux exemples de percontatives in situ dans le CFPP2000, et tous les deux chez des locuteurs d’origine maghrébine qui vivent dans des cités ghettoïsées de la même banlieue populaire, Saint-Ouen : (42) euh il me dit “ben écoute t’as encore trois trois autres entretiens entretien médical psychologique et un autre entretien je sais plus c’était quoi la fin et plus un test un test [mm] euh + un test un questionnaire (Youcef, 29 ans, actuellement sans emploi, titulaire d’un master de géographie, [SO-02])

Corpus, 15 | 2016 178

(43) non juste le le le le montrer euh euh la la la vie c’est quoi euh de se lever à six heures [mm] du matin récurer les toilettes avec les brosses à dents euh (Abdel, 25 ans, manutentionnaire au journal Le Parisien, CFPP2000, [SO-02])

4. Analyse des données

49 Le tableau ci-dessus montre que de nombreux locuteurs du CFPP2000 alternent entre deux variantes de percontatives qu’ils traitent comme appartenant toutes les deux à la langue commune. Les interrogatives indirectes en est-ce que ne sont pas cantonnées à un type de locuteur. On les trouve par exemple chez R. Larivière, un étudiant en médecine de 23 ans, qui habite le quartier le plus bourgeois de Paris, le 7e : (44) Je sais pas où est-ce que je vais

50 et dans la bouche de M. L. Orsin, qui a grandi dans le 11e (un quartier assez populaire), mais qui est fille d’instituteur et qui est elle-même devenue professeure des écoles, métier en rapport avec la transmission des normes linguistiques : (45) Je sais pas où est-ce que vous auriez été.

4.1 Les formes in situ et l’influence des français périphériques

51 En revanche, ce n’est pas le cas des percontatives in situ. Les deux formes répertoriées proviennent de locuteurs jeunes qui ont grandi dans la même banlieue défavorisée : (46) euh il me dit “ben écoute t’as encore trois trois autres entretiens entretien médical psychologique et un autre entretien je sais plus c’était quoi la fin et plus un test un test [mm] euh + un test un questionnaire (Youcef, 29 ans, actuellement sans emploi, titulaire d’un master de géographie, [SO-02]) (47) non juste le le le le montrer euh euh la la la vie c’est quoi euh de se lever à six heures [mm] du matin récurer les toilettes avec les brosses à dents euh (Abdel, 25 ans, manutentionnaire au Parisien [SO-02])

52 Des exemples relevés à la volée montrent qu’il s’agit d’une structure que l’on entend chez d’autres locuteurs d’origine maghrébine. L’exemple suivant est prononcé par une femme de ménage d’origine algérienne dans un entretien en cours de transcription : (48) quand il manque des bonbons vous savez c’est qui (adulte, Samia, origine algérienne, 49 ans, scolarité jusqu’en 6e, arrivée en France à 22 ans)

53 En français hexagonal, cette structure apparaît chez de jeunes enfants, mais a toutes les chances de disparaître par la suite, lorsqu’ils appartiennent à des milieux favorisés : (49) tu sais son nom de famille c’est quoi (enfant d’enseignant, 4 ans) (50) je sais c’est qui mes copines (enfant d’enseignant, 8 ans)

54 Elle a cependant été observée chez des élèves plus âgés qui sont scolarisés dans des établissements classés en Zone d’éducation prioritaire (Paris, CM2 / 6e). On en trouve de nombreuses attestations dans un corpus rassemblé par B. Lesort (2002) qui a été recueilli dans une école très ghettoïsée de Paris : presque tous les parents des classes observées viennent d’Afrique Noire, d’Asie ou du Maghreb. La plupart des percontatives utilisées par les enfants (prononcées sans pause, ni rupture intonative d’aucune sorte) sont des formes in situ : (51) je sais pas c’est quoi (Abdoulay) (52) je sais pas c’est comment (Idriss) (53) je sais pas c’est combien d’heures techno (Idriss) (54) y’a piscine, techno, après je sais pas y a quoi là-bas (Idriss) (55) je sais pas ça veut dire quoi (Malamine)

Corpus, 15 | 2016 179

(56) je demande à la maîtresse si j’ai pas compris, elle m’aide après elle me dit c’est quoi, après elle m’explique (Malamine)

55 Une comparaison avec d’autres corpus d’oral spontané permet de mieux situer les emplois du CFPP2000. D’après Defrancq (2005), Corpaix ne renferme pas ce type d’exemples. Nous n’en avons pas trouvé non plus dans OFROM.

56 En revanche, ils sont nombreux en français québécois. Le corpus CFPQ recueilli par G. Dostie en comporte beaucoup : Pour les seuls sous-corpus 17, 18, 19, nous avons relevé 12 percontatives de ce type : (57) ils savent c’est quoi t’sais (CFPQ, sous-corpus 19) (58) t’as dit c’est quoi c’est Good lu- (CFPQ, sous-corpus 17) (59) mais les gens justement ils le savent PAS c’est quoi (CFPQ, sous-corpus 19)

57 G. Ledegen (2007) signale l’existence de ce type d’exemples dans le français de la Réunion, et E. Biloa, dans le français du Cameroun. Il note ainsi qu’ils sont « nombreux chez les écrivains camerounais transcrivant le français oralisé / oral », et cite par exemple (Nganang, 2001 : 23).

58 En 2015, des témoignages littéraires ou tirés du Net indiquent que les percontatives in situ suscitent facilement des jugements négatifs en France, comme le montrent les deux exemples suivants.

59 Le premier provient d’une pièce de théâtre de la Comédie Saint-Michel. Le personnage du loup emploie cette structure, alors que le Petit Chaperon rouge propose la variante acceptée par la norme : (60) — j’sais pas c’est qui (le loup) — je ne sais pas qui c’est (reprise par le petit chaperon rouge) (Le petit Chaperon rouge, avril 2014)

60 L’auteur stigmatise le loup en lui faisant parler une langue incorrecte.

61 De même, sur Internet, un internaute, pour railler l’inculture de Nabilla, une vedette de téléréalité qui, semble-t-il, ignore qui est Jean Valjean8, résume son registre de langue par une percontative in situ : (61) www.public.fr ›. Les Anges de la téléréalité 4 : Nabilla : “Je connais Jean Valjean mais je sais pas c’est qui, c’est un clochard ?”

62 L’inculture de Nabilla est, semble-t-il, rendue encore plus manifeste par cette stylisation syntaxique.

63 Un autre message montre bien la différence d’évaluation des deux formes, puisqu’un commentateur, qui se voit comme un redresseur du mauvais français, fustige l’emploi de « je sais pas c’est quoi » et, ce qui ne manque pas de piquant, semble recommander l’usage de « qu’est-ce », sans prendre soin de différencier indépendante et enchâssée : (62) à propos de je sais pas c’est quoi : heavendoor ns Forumeur alchimiste, 49 a C’est la différence entre la langue écrite et parlé… C’est vrai que toutes les langues évoluent… pas toujours dans le bon sens d’ailleurs… Normalement à la place de “c’est quoi” nous devrions dire et écrire “Qu’est –ce ?” forme interrogative… (Coups de blues - FORUM Ados-Sante forum.ados.fr)

4.2 Hypothèses

64 Comment expliquer l’apparition des percontatives in situ, et quelle évolution future pouvons-nous prévoir ? Nous pouvons proposer des hypothèses complémentaires. Et non exclusives.

Corpus, 15 | 2016 180

4.2.1 Une évolution naturelle du français

65 Les percontatives in situ semblent assez récentes en français hexagonal : B. Conein et F. Gadet ont écrit qu’elles appartiennent aux « traits populaires héréditaires » (1998, p. 121), mais nous n’en avons trouvé aucun exemple dans les textes des XVIIe siècle - XXIe siècle de la base Frantext.

66 Parallèlement, ce n’est qu’à partir des années 1930 que l’on repère dans Frantext des interrogatives indépendantes où le syntagme interrogatif est in situ : 500 exemples de c’est quoi, de 1970 à nos jours vs 37 exemples de 1927 à 1970 et 1 seul exemple (1881) de 1600 à 1926 : (63) C’est quoi, ton boulot ? (Arnaud Claude, Qu’as-tu fait de tes frères ?, 2010, Frantext)

67 On pourrait dès lors se demander si les percontatives in situ ne constituent pas une étape qui suit logiquement le développement des interrogatives indépendantes in situ que le corpus Frantext permet de documenter surtout à partir de 1927 : on pourrait prévoir que, dans une échéance plus ou moins longue, s’installeront dans tous les registres du français des percontatives in situ.

68 Dans la lignée des explications de H. Frei (1920), on peut noter que l’alignement des percontatives sur les interrogatives directes va dans le sens d’une plus grande expressivité et d’une plus grande économie. La forme en est-ce que a l’intérêt d’être pragmatiquement marquée (et dans un premier temps) de produire un effet d’emphase9 ; d’autre part, les structures des percontatives s’alignent sur les structures des interrogatives (directes), ce qui permet aux locuteurs d’unifier leurs façons de poser des questions.

69 De même que les interrogatives en qu’est-ce que ont pu donner des percontatives en qu’est-ce que (cf. plus haut), de même les interrogatives in situ aboutiront logiquement à des percontatives in situ.

70 Les percontatives ne sont pas dans ce cas introduites par un mot subordonnant ; l’absence d’élément introducteur « subordonnant » n’empêche pas la relation de dépendance entre la proposition enchâssée et le verbe introducteur mais leur subordination s’établit en discours. Cela peut suggérer que les percontatives canoniques, du type : (64) bon on sait quand quelqu’un a besoin de quelque chose [IV-01]

71 s’établissent également en discours et que quand n’est pas en fait subordonnant dans cet emploi (cf. Le Goffic 1993 : 43 : « la subordonnée, enchâssée directement, conserv[e] un caractère proche d’une indépendante »).

4.2.2 Renforcement du phénomène

72 Ce développement récent est peut-être renforcé par l’immigration massive qui a eu lieu en France à partir des années 60. La présence de cette structure dans les français périphériques (français de la Réunion, du Québec, Cameroun) peut s’expliquer elle- même par une tendance à la parataxe plus forte dans les usages périphériques ou par l’influence qu’ils auraient reçue des français régionaux (mais les attestations manquent).

Corpus, 15 | 2016 181

4.2.3 La question de la rapidité des changements en cours

73 Nous serons prudentes pour faire des pronostics sur l’évolution. D’une part, la percontative en est-ce que et le tour normé coexistent depuis trois siècles au moins. Cette coexistence constitue un exemple de plus des variations sur la longue durée constatables dans toutes les langues. Le langage est par nature hétérogène et comporte beaucoup de variations semblables. Il n’y a donc pas de raison de supposer un effondrement proche et d’ailleurs, dans le CFPP2000, les occurrences normées semblent dominer.

74 Pour autant, l’usage des structures in situ – qui permettent elles aussi d’aligner les percontatives sur les structures directes – devrait se poursuivre. Le seul frein que l’on peut imaginer est celui de la pression scolaire. Jusqu’à récemment, l’institution scolaire cherchait à imposer des formes de subordination « classique » où un subordonnant marquait la frontière entre un élément introducteur et un élément enchâssé et indiquait la relation de dépendance entre les deux. Cet idéal est évidemment troublé par les cas où l’on observe une relation de dépendance entre une proposition enchâssée et le verbe dont elle dépend en l’absence d’élément introducteur, ce qui conduit jusqu’à aujourd’hui à stigmatiser ces formes.

5. Conclusion

75 En 2014, les interrogatives indirectes en « est-ce que » font partie du français commun que décrit CFPP2000. Les interrogatives indirectes in situ sont encore aux marges du système, comme l’indique le fait que leur usage suffit pour caricaturer un locuteur sur Internet.

BIBLIOGRAPHIE

Bell A. (1984). « Language Style as Audience Design », Language in Society 13 : 145-204.

Biloa E. Des traits syntaxiques et morphosyntaxiques du français au Cameroun, www.unice.fr/bcl/ ofcaf/27/BILOA.pdf.

Blanche Benveniste C. (1997). Approches de la langue parlée en français. Paris : Ophrys.

Branca-Rosoff S. (2015). « Dieu est dans les détails. L’expression entre guillemets et ses usages », in J. Angermuller & G. Philippe (dir.) Analyse du discours et dispositifs d’énonciation. Autour des travaux de Dominique Maingueneau. Limoges.

Branca-Rosoff S., Fleury S., Lefeuvre F. & Pires M. (2012). Discours sur la ville. Présentation du Corpus de français parlé parisien des années 2000 (CFPP2000). cfpp2000.univ-paris3.fr/Corpus.html

Corpus de français parlé au Québec (CFPQ), dir. Gaétane Dostie, CATIFQ, Université de Sherbrooke, 2006. http://re-cherche.flsh.usherbrooke.ca/cfpq/

Corpus, 15 | 2016 182

Dagnac A. (2014). « La variation des interrogatives en français », https://hal.archives- ouvertes.fr/hal-00988751, document préparatoire pour la GGF (Abeillé & Godard).

Defrancq B. (2005). L’interrogative enchâssée, Structure et interprétation. Bruxelles : De Boeck Duculot.

Defrancq B. (2000). « Un aspect de la subordination en français parlé : l’interrogation indirecte », Études romanes 47 : 131-141.

Frei H. (1929). La Grammaire des fautes. Genève : Reprints Slatkine.

Gadet F. (éd.) (1997). La variation en syntaxe (= Langue française, 115). Paris : Larousse.

Hadermann P. (1993). Étude morphosyntaxique du mot où. Paris/Louvain-la-Neuve : Duculot.

Karttunen L. (1978). « Syntax and semantics of questions », in Hiz H. (éd.) Questions. Dordrecht : D. Reidel.

Léard J.-M. (1992). Les Gallicismes, Étude syntaxique et sémantique. Paris/Louvain-la-Neuve : Duculot.

Ledegen G. (2007). « L’interrogative indirecte in situ à la Réunion : elle connaît elle veut quoi », in A. Abecassis et al. (éd.) Le français parlé du XXIe siècle : normes et variations géographiques et sociales.

Lefeuvre F. (2015). « Analyse grammaticale et sur corpus de l’expression c’est quoi (?) », in Dostie & Hadermann (éd.) La dia-variation en français actuel. Études sur corpus, approches croisées et ouvrages de référence. Bern : Peter Lang, coll. Sciences pour la communication, 39-62.

Lefeuvre F. (2006). Quoi de neuf sur quoi ?. Rennes : PUR.

Lefeuvre F. (2009). « Catégorisation de comment subordonnant », Travaux de linguistique, Études sur comment 58 : 63-88.

Lefeuvre F. (2014). Étude grammaticale du français classique à partir de textes. PSN.

Lefeuvre F. & Rossi-Gensane N. (2015). « Interrogation », in P. Larrivée & F. Lefeuvre (dir.) Projet Fracov. http://www.univ-paris3.fr/index-des-fiches-227311.kjsp? RH=1373703153287

Le Goffic P. (1993). Grammaire de la phrase française. Paris : Hachette.

Le Goffic P. (1987). « Sur l’ambiguïté des relatives / interrogatives indirectes en ce qui, ce que », in Fuchs (éd.) L’Ambiguïté et la paraphrase : opérations linguistiques, processus cognitifs, traitements automatisés. Centre de publication de l’Université de Caen, 83-88.

Lesort B. (2002). « Entretiens semi-directifs réalisés avec une classe de CM2 », in E. Bautier, S. Branca-Rosoff & J.-P. Terrail, Décrochage scolaire : genèse et logique des parcours. https:// halshs.archives-ouvertes.fr/halshs-00808806

Martin R. (1985). L’Interrogation comme universel du langage.

Nganang A. P. (2001). Temps de chien. Paris : Serpent à plumes.

Pierrard M. (1989). La Relative sans antécédent. Louvain : Peeters.

Serbat G. (1985). « Le verbe introducteur de la subordonnée interrogative en », in Valentin (éd.) L’Interrogation. Presses de l’Université de Paris-Sorbonne, 3-16.

NOTES

1. Avec le soutien de la Ville de Paris, de la DGLFLF et, récemment, d’Ortolang. 2. Voir Branca-Rosoff, 2015.

Corpus, 15 | 2016 183

3. Voir les théories de l’accommodation développées tout d’abord par A. Bell, 1984. 4. Ce faible nombre s’explique parce que nous avons préféré transcrire des entretiens longs (souvent de plus d’une heure) qui permettent entre autres de repérer des phénomènes fréquemment attestés chez une personne. 5. Tantôt le locuteur est dans l’ignorance (je ne sais pas quand, où, comment, etc.) ; tantôt, il laisse son interlocuteur dans l’incertitude en ne déterminant pas la valeur de vérité de p (je sais où, quand, comment…). 6. Cf. également Hadermann, 1993 : 126-130. 7. À l’exception d’un locuteur universitaire qui se reprend après une amorce : « je sais pas qu’est-ce qui te + quel axe euh est pour toi significatif » [SU-01]. 8. Héros des Misérables, roman supposé connu de tous les collégiens français. 9. Foulet, 1919, a bien noté qu’en ancien français les formes qu’est-ce que, qui est-ce qui n’étaient pas encore grammaticalisées et qu’elles avaient une valeur d’insistance qui a pu aider à leur diffusion. Le même phénomène se reproduirait pour l’interrogative indirecte.

RÉSUMÉS

L’article permet de préciser quelques spécificités du corpus CFPP2000 et montre à partir de l’exemple des interrogatives indirectes (percontatives) comment ce corpus peut contribuer à une description de ce que nous appelons « la langue commune ». Dans un premier temps, nous rappelons les choix qui ont présidé à la confection du CFPP2000. Puis nous examinons les types d’interrogatives indirectes qui apparaissent dans le CFPP2000, avec des fréquences variées. Les interrogatives indirectes selon la norme grammaticale dominent. Cependant les interrogatives indirectes en « est-ce que » sont bien représentées et elles apparaissent chez des locuteurs de toutes les origines sociales montrant que le corpus CFPP2000 ne se confond pas avec ce standard des grammaires. En revanche, les percontatives in situ sont très rares et plusieurs indices montrent qu’il s’agit encore de formes stigmatisées.

This paper gives some different points about the parisian french spoken corpora (CFPP2000) and shows, from indirect interrogatives clauses (“percontatives”), how this corpora can be exploited for a description of the “common language”. First, the choices of the making of the corpora are mentioned. Then the diffents kinds of the indirect interrogatives clauses in the parisian french spoken corpora are evoked. The indirect interrogatives clauses based on grammatical norm are the more frequent. The indirect interrogatives clauses with “est-ce que” occur regularly in the speeches of speakers of all social origins, what shows that the parisian french spoken corpora differs from grammatical norm. On the other hand, the indirect interrogatives clauses in situ are very rare; many clues show that they are stigmatized structures.

INDEX

Mots-clés : corpus, interrogative indirecte, percontative, langue commune Keywords : corpus, indirect interrogative, percontative, common language

Corpus, 15 | 2016 184

AUTEURS

SONIA BRANCA-ROSOFF SYLED, ED268, Paris 3 Nouvelle Sorbonne

FLORENCE LEFEUVRE SYLED, ED268, Paris 3 Nouvelle Sorbonne

Corpus, 15 | 2016 185

Construire un corpus pour des façons de parler non standard : « Multicultural Paris French » Constructing a corpus for non standard ways of speaking: MPF

Françoise Gadet et Emmanuelle Guerin

1 L’observation de parlers non standard suppose un recueil de données illustrant des pratiques réglées selon des normes locales, en marge des règles reconnues comme légitimes. Afin de constituer un tel corpus, il faut commencer par questionner les conditions auxquelles ces pratiques prennent place. L’opposition traditionnelle entre situation formelle vs informelle (en supposant qu’on sache la circonscrire), suffit-elle à garantir l’émergence de faits de langue marginaux ? Peut-on déterminer en amont les types de locuteurs concernés ? Pour s’assurer que l’on a affaire à des données non standard, la sélection de locuteurs et de situations d’interaction (entretiens avec un chercheur, échanges entre pairs, prises de parole publique…) doit ainsi être problématisée. Autrement dit, il n’est pas certain que l’identité des locuteurs dans certains contextes suffise pour actualiser un type de parler donné. Partant, un corpus de données non standard semble une entreprise à peu près irréalisable.

2 Nous présentons ici un corpus tenant compte de ces difficultés, MPF (Multicultural Paris French). Si, comme les autres corpus, il n’est pas exempt d’a priori catégoriels (choix de territoires socialement et géographiquement déterminés, choix de locuteurs), ceux-ci sont réévalués au fur et à mesure de l’observation des données recueillies. Le projet a été mis en place dans le cadre d’une ANR (09 FRBR-037-01, avec une contrepartie britannique, Multicultural London English). Après la fin de l’ANR, le projet continue en s’étant recentré sur le français et non plus sur la comparaison1. Le corpus ainsi constitué en région parisienne récuse la sélection des enquêtés à travers les seuls critères de catégories externes tels qu’ils sont assurés par la tradition de corpus antérieurs ou par des points de vue privilégiant des quadrillages sociodémographiques, où les questionnements sociolinguistiques ne sont pas constitutifs. On a ainsi fait en

Corpus, 15 | 2016 186

sorte que la réalisation d’un grand corpus soit un moment de réflexion théorique et méthodologique, accordant une place centrale à la sociolinguistique.

1. Le corpus MPF, les principes à ses fondements, ses modalités de recueil

3 Suite à l’immigration qu’a connue la région parisienne depuis la fin du XIXe siècle (Noiriel, 2002 ; Blanc-Chaléard, 2001 ; Rabaud, 2014), on peut aujourd’hui parler d’une « Île-de-France multiculturelle », qui se matérialise linguistiquement à travers des effets de contacts de langues sur le français tel qu’il y est parlé. On peut ainsi considérer ces effets comme relevant de formes non standard du français. Dans le droit fil de réflexions de Labov (1972) ou de Kerswill (2010) sur les locuteurs innovateurs, on considère que les phénomènes langagiers issus des effets du contact sont observables dans les pratiques de locuteurs répondant aux critères : « jeunes », « de milieu modeste ou populaire », « connaissant des contacts multiculturels réguliers ».

1.1 Des corpus antérieurs

4 Toutes les métropoles occidentales ont aujourd’hui affaire à une telle immigration et à la présence (que l’on peut désormais considérer comme pérenne) de populations influencées plus ou moins directement par d’autres cultures. De fait, des études (socio)linguistiques sur ce thème ont été pratiquées dans plusieurs des métropoles européennes, surtout d’Europe du Nord, où le phénomène est un peu plus ancien qu’au sud (voir les travaux de Cheshire et al., 2011, sur Londres ; Wiese, 2013, sur Berlin ; Kotsinas, 1998, sur Stockholm ; Quist, 2008, sur Copenhague ; Jaspers, 2008, sur Anvers… 2). La France, quant à elle, a pris un gros retard dans l’étude des effets linguistiques pouvant ainsi être induits sur le français, alors même qu’elle est l’un des plus anciens pays d’immigration d’Europe (depuis la seconde moitié du XIXe siècle, où la plupart des autres pays européens étaient des terres d’émigration). Le projet MPF a été constitué avec l’objectif de contribuer à combler ce retard.

5 Ce n’est pas qu’il n’existe aucun corpus sur Paris, mais d’une part il y en a peu, d’autre part ceux qui existent n’intègrent pas la question des contacts comme un facteur de dynamique langagière. Parmi les quelques corpus sur la région parisienne (petits ou de taille moyenne), les recueils de données ont en général été construits pour cibler un seul aspect de la langue : soit le niveau phonique – voir Jamin (2004), Fagyal (2010) –, soit le plan lexical – voir les nombreux dictionnaires, dont aucun ne s’appuie réellement sur un corpus (en tous cas visible et publié), même si, dans le meilleur des cas, ils mettent en jeu des relevés et des observations systématiques. Parmi les corpus plus grands sur Paris, on peut évoquer le récent CFPP2000 (Branca-Rosoff et al., 2011). Bien que constitué « en premier lieu pour étudier les modifications qui interviennent dans ce qu’on peut considérer comme un parisien véhiculaire en tension entre le pôle du standard et le pôle du vernaculaire », il exclut volontairement la question du contact. Le corpus MPF adopte une autre position, puisque les effets du contact y sont considérés comme constitutifs d’une forme de vernaculaire. Des corpus à objectifs sociolinguistiques ont aussi été recueillis dans d’autres grandes villes françaises, comme Grenoble (Billiez, 1992), Orléans3, Marseille ou Lille (Pooley, 2012)4 ; voir aussi Jamin & Trimaille (2008), Jamin et al. (2006) pour des comparaisons entre villes.

Corpus, 15 | 2016 187

6 MPF s’inscrit ainsi dans le paysage des corpus de français avec un positionnement original puisqu’il est multi-objectif et situe les contacts de langue comme intégrant la réflexion sur la dynamique des pratiques langagières.

1.2 La méthodologie adoptée dans MPF

7 Pour constituer le corpus MPF, on a renoncé à la problématique du vernaculaire théoriquement abordée dans l’opposition entre situations formelles et informelles (Labov, 1972) pour privilégier la qualité des interactions entre les protagonistes, qui correspondait mieux à nos hypothèses. Les options sous-jacentes à ce choix concernent les facteurs susceptibles de produire de la variation et de la diversification langagières dans une même langue : les facteurs décisifs relèvent-ils des situations ? Des genres ? Des caractéristiques sociodémographiques des locuteurs ? Des interactions ? Ces questions ne sont pas indépendantes les unes des autres, et la méthodologie adoptée tient compte de leur imbrication.

8 Nous étions conscients du caractère partiel des réponses apportées par un quadrillage sociodémographique (Eckert, 2012) et nous voulions acter dans le corpus même le fait que la réalité sociolinguistique est bien plus complexe (Gadet & Guerin, 2012 ; Gadet, 2013). Les informateurs ont ainsi été sélectionnés sur réseaux, soit préalables aux enregistrements, soit construits pour l’occasion à travers une immersion prolongée, avec l’idée de se rapprocher de l’immédiat communicatif authentique, c’est-à-dire d’interactions entre locuteurs entretenant une réelle connivence. La réflexion méthodologique a ainsi débouché sur une démarche innovante, privilégiant la qualité des échanges conversationnels et le contenu de ce qui est dit, plutôt qu’une illusoire représentativité sociodémographique, quadrillant surtout des facteurs aisément quantifiables en dichotomie ou en continuum, comme le sexe, l’âge, la classe sociale, et éventuellement l’origine ethnique – tous facteurs dont il reste à montrer qu’ils constitueraient bien une clef de la production de diversité langagière (voir Gadet & Wachs, 2015, pour une critique de ce point de vue).

9 Bien que MPF joue aussi sur les identités pré-assignées par le chercheur (jeunes, de milieux populaires, multiculturels), le profil des informateurs tient compte de métadonnées éclairant notamment la relation préalable enquêteur/enquêté, et les circonstances de l’enregistrement. C’est l’identité en interaction (Greco et al., 2014) qui prévaut sur les caractéristiques objectivables et quantifiables. Quand cela a été possible, on a fait faire, parallèlement à l’entretien (dit « de proximité » quand l’enquêteur est parvenu à établir une interaction connivente), un enregistrement écologique 5 afin de disposer de matériau pour étudier la variation intra-locuteur : il s’agit d’enregistrements effectués en l’absence de l’enquêteur – parfois en sa présence, mais sans qu’il se trouve alors en posture d’enquêteur (conversations entre pairs, non provoquées). Toutefois, différents obstacles, plus ou moins prévisibles du point de vue méthodologique, ont conduit à ce que le nombre d’enregistrements écologiques soit plus réduit que celui des entretiens.

10 Le recueil du corpus a été soutenu d’une mise au point du vocabulaire, la plupart des termes s’avérant problématiques, qu’ils soient issus de la réflexion linguistique, de la reprise sociale (en particulier médiatique) ou encore d’ordre sociologique/ ethnographique : jeunes (si l’on convient que ce qui aboutit à de la différentiation sociolinguistique dépasse largement le sociodémographique – voir Cheshire, 2005), la

Corpus, 15 | 2016 188

catégorisation ethnique qui tend à ne pas se dire (voir une critique de ce point de vue bien français dans Lagrange, 2010), la caractérisation par le type d’habitat (banlieue, quartier, cité, ghetto… et même le fréquent langue de la rue) ; mais aussi quant à la façon de parler : langue des jeunes ou parlers jeunes… (voir Gadet & Hambye, 2014).

2. Le traitement du corpus

11 Il n’y a pas lieu de distinguer les exigences pour le recueil et celles des étapes du traitement. Elles sont toutes intégrées à la réflexion qui oriente les choix méthodologiques. Ces derniers étant le reflet du cadre théorique adopté.

2.1 En amont du recueil : les options méthodologiques

12 Tout recueil d’une certaine envergure confronte au fait que la qualité des données n’est pas en dichotomie (entretiens en face à face vs enregistrements écologiques) : il y a des continuums entre ces deux pôles, de plusieurs types, d’une complexité telle que les effets n’en sont pas toujours convergents ni prévisibles.

13 Constituer un corpus multi-objectifs dont l’exploitation pourra concerner et des phénomènes linguistiques et des contenus susceptibles d’une analyse de discours, impose de songer non seulement à la qualité phonique des enregistrements (objectif facile à atteindre avec les moyens actuels), mais aussi à des qualités intrinsèques du discours, linguistiques, énonciatives, langagières et communicatives. On rend ainsi possible le traitement de certains phénomènes, en croisant les points de vue (voir p. ex. Guerin & Paternostro, 2013 ; ou Moreno & Paternostro, 2014).

14 Ce sont les exploitations morphosyntaxiques et discursives qui s’avèrent les plus exigeantes pour la nature des données. Au-delà de l’évidente nécessité de diversifier les genres discursifs pour garantir la diversité des productions (voir Blanche-Benveniste, 2010), on prendra les deux exemples d’exigences quant à la longueur et quant à la complexité des séquences : pourquoi et comment chercher à obtenir du « discours long » et du « discours complexe » ?

15 La sociolinguistique et l’analyse de la conversation ont établi qu’il y avait deux occasions sociales privilégiées de production de discours long : les récits, où une suspension conversationnelle autorise le locuteur en place à conserver la parole (voir p. ex. Gülich & Mondada, 2001), et les argumentations. Une condition nécessaire mais non suffisante est la longueur des tours de parole, réduite quand la parole circule vite, ce qui est justement un indice de naturel dans la conversation ordinaire. Aussi, si l’on veut étudier des phénomènes qui ne se manifestent qu’en discours long, il faut une collecte ciblée. Maintenant, qu’est-ce que la longueur des séquences assure ? En tous cas pas la diversité de phénomènes, et on peut de ce point de vue opposer les récits et les argumentations/explications. Dans beaucoup d’échanges ordinaires, en effet, les récits manifestent dans le format long des structures monotones, peu complexes. Ce sont surtout les argumentations/explications qui peuvent recéler des structures complexes et des imbrications. Mais il y en a peu dans la conversation ordinaire, car elles répondent à des situations très particulières : discours didactique, recherche d’explications spontanées ou sollicitées, provocation amenant à se justifier. On peut voir à ce propos Blanche-Benveniste (2008) sur des spécialistes expliquant leur expertise, et de nombreux exemples dans Blanche-Benveniste (2010). Lorsque l’on

Corpus, 15 | 2016 189

cherche à recueillir de la parole d’interactions en proximité communicationnelle, obtenir des argumentations ou des explications est difficile, puisque ces situations supposent une connivence et le partage d’un ensemble dense de savoirs et d’expériences à l’origine de nombreux implicites.

16 Les entretiens n’excluent pas ces deux genres discursifs, surtout les récits. Thibault & Vincent (1990 : 49), qui ont pratiqué des interviews pour le corpus de Montréal (1984), soulignent que celles-ci tendent à produire des données « monologiques », contraignant l’occurrence de certaines formes. Cependant, il est difficile de corréler cette tendance avec d’autres éléments en rapport avec la proximité/distance communicationnelle, puisque le corpus est constitué d’entretiens traditionnels, avec des locuteurs inconnus. Ainsi, si le genre discursif favorise l’apparition de tours de parole longs, il reste à déterminer si d’autres paramètres peuvent rectifier la tendance : la reconnaissance d’une connivence (comme la découverte au cours de l’entretien d’une passion commune) aurait-elle un effet sur la production de monologues/dialogues ?

17 Quoi qu’il en soit, les modalités d’obtention des données sont liées aux attentes du chercheur, une même propriété pouvant s’avérer qualité ou limite. Nous avons obtenu beaucoup plus de récits, en particulier sur les rapports des jeunes avec la police, que d’argumentations, ce qui n’est pas inattendu.

2.2 La transcription et l’état actuel du corpus MPF

18 La transcription a été effectuée sous Praat, par exigence d’alignement son- transcription6. En droite ligne des travaux de Blanche-Benveniste, synthétisés en particulier dans un article de 2003, on a renoncé à toute forme de trucage orthographique7 (Cappeau et al., 2011 pour des précisions sur les choix de transcriptions dans MPF). On peut dire, comme Baude & Dugua (2011 : 107) : Nous avons adopté des principes de base généralement partagés à savoir une transcription orthographique qui conserve les spécificités de l’oral (amorces, disfluences, répétitions, etc.), sans usage de la ponctuation, et avec la segmentation des tours de paroles. (p. 105)

19 La transcription est ainsi regardée comme une notation facilitant l’accès à la source sonore. C’est pourquoi la transcription de MPF ne cherche pas à représenter de spécificités phoniques (voir aussi note 8).

20 Des conventions ont été établies pour les termes à la graphie peu ou pas du tout stabilisée, en particulier pour les mots empruntés à l’arabe, pour lesquels on rencontre jusqu’à trois ou quatre graphies différentes (par exemple zaama, aussi écrit zarma, zaâma) : ces termes ont été répertoriés dans un petit lexique, utile tout autant pour les transcripteurs que pour les réflexions sur le lexique (voir le point 3.1).

21 Le corpus comporte, en avril 2016, dans les 820 000 mots transcrits, révisés, anonymisés, traduits quand il y a lieu, ce qui correspond à un peu plus de 60 heures enregistrées. Sont considérées comme « finalisées » les données qui ont parcouru les trois étapes de la transcription, la révision par un chercheur autre que le transcripteur – parfois plusieurs, pour les enregistrements particulièrement complexes comportant beaucoup de recouvrements de parole, et de l’anonymisation, pour le son et pour la transcription. À terme, les données ainsi traitées seront mises en ligne à disposition de la communauté scientifique. S’y ajoute une « traduction » de tous les termes considérés comme « non-standard », qu’il s’agisse de verlan, d’argot ou d’emprunts, ces derniers

Corpus, 15 | 2016 190

provenant surtout de l’arabe (mots, parfois alternances codiques, quand l’enquêteur parle lui aussi arabe) ainsi que de l’anglais – mais aussi des néologismes.

22 D’autres enregistrements ont été recueillis, et en sont actuellement à différents stades de traitement. Il n’y a pour le moment pas d’annotations. Une vitrine en ligne montre un extrait de 34 enregistrements8 : elle offre la possibilité d’écouter et de visualiser une minute (son + transcription) d’une partie des enquêtes.

2.3 Les métadonnées et leur mise en fiches

23 Comme il est désormais de coutume, les enregistrements sont accompagnés des consentements des enquêtés et de fiches de métadonnées, concernant à la fois les locuteurs et les modalités d’enregistrement. Elles donnent accès à des renseignements de différentes sortes : sociodémographiques, linguistiques et sur les circonstances de l’enregistrement. Mais elles insistent surtout sur des facteurs autres que sociodémographiques, qui renseignent sur la connivence des interactants lors de l’échange. Elles donnent ainsi une idée, faute de pouvoir l’évaluer plus finement, de la proximité communicationnelle entre interactants (informateur/enquêteur pour les entretiens, informateurs entre eux pour les enregistrements écologiques).

24 On cherche ainsi à préciser les caractéristiques objectives des locuteurs et des situations, de même que des spécificités de l’interaction. Dès lors, tous les items n’appellent pas le même traitement dans les fiches de métadonnées : certaines rubriques sont des questions ouvertes, laissant à l’enquêteur la liberté d’évaluer la pertinence de certaines informations. Par exemple, indiquer que l’enquêteur partage avec l’informateur un intérêt pour un style de musique, sans qu’ils entretiennent d’intimité, peut s’avérer déterminant pour la proximité communicationnelle si le thème de la musique est abordé. Inversement, un sujet inconnu de l’un des interactants favorise la distance communicationnelle, même dans un échange entre proches (voir Koch & Œsterreicher, 2001).

2.4 Classifier les enregistrements

25 Les enregistrements ont finalement été classifiés en 3 groupes, sur la base de la qualité sonore perceptible (telle qu’elle peut être reconnue par un groupe d’évaluateurs de l’équipe) : A) « entretiens traditionnels », B) « entretiens de proximité », et C) « corpus écologiques » – à quoi ont été ajoutés des entretiens avec des « grands témoins »9.

26 La qualité du lien interpersonnel entre les protagonistes l’emportant sur tout autre critère pour la sélection des enquêtés, les localisations géographiques ne sont pas regardées comme prioritaires, et les enquêtés proviennent de 4 arrondissements parisiens et de 27 villes de la couronne parisienne. On est ainsi très loin aussi bien des monographies que des études de cas.

27 Si l’on peut distinguer entre ces trois types d’enregistrements, les frontières entre eux ne sont pas étanches, et il a parfois été difficile de catégoriser, malgré les qualifications fines des interactions. On peut citer l’exemple d’une conversation entre un membre du projet, son conjoint et la sœur de ce dernier. A priori, cette situation aurait pu donner lieu à un enregistrement de type B ou C. Mais l’incongruité de la présence de l’enregistreur et du questionnement de l’enquêteur dans un contexte intime a conduit à une production contrôlée, relevant plutôt du type A. De plus, dans un même

Corpus, 15 | 2016 191

enregistrement, il n’est pas rare que différents moments tendent vers des catégorisations différentes. C’est pourquoi, si l’on maintient ce type de classement par commodité, on n’ignore pas son caractère approximatif dans un continuum.

28 Le programme se prolongera avec la constitution d’une banque de données (en cours de réalisation) qui retiendra des critères d’interrogation de trois ordres : 1) paramètres, difficilement quantifiables, concernant la proximité/distance entre les interactants, 2) phénomènes linguistiques et langagiers, 3) aspects sociodémographiques (ville, âge, sexe des interactants, origine ethnique…). L’architecture même de cette banque de données reflète ainsi le fait que la priorité ne va pas aux paramètres sociodémographiques en tant qu’ils constitueraient une clé de la diversification des façons de parler : la complexité et l’intrication des différents facteurs doivent être reflétées.

3. Quelques exploitations pour un corpus

29 Quant aux exploitations d’ores et déjà permises pour ce corpus, on en prendra quatre exemples, en diversifiant les domaines et les auteurs. Ils concernent des thèses, soutenues ou en cours, et/ ou des communications et articles. Les trois premiers exemples portent sur des formes linguistiques, le dernier sur les représentations sur les langues.

3.1 Plan lexical

30 Un premier domaine concerne le lexique, avec un inventaire et un classement de termes d’argot, de verlan, d’emprunts et de néologismes. Il s’agit, au-delà de la collection de mots, de tenter de dégager les matrices qui les sous-tendent et de les comparer avec les dictionnaires, en particulier le Dictionnaire de la zone (collaboratif), Keskiladi, Langue française bob, le Dico-des-mots (collaboratif), ou le Petit Momo.

31 L’étude d’un premier échantillon a montré que, selon le dictionnaire retenu pour la comparaison, il n’y avait que de 35 % à 70 % des mots de notre corpus qui y figuraient, certains mots du corpus (comme tchipage) n’apparaissant dans aucun dictionnaire. Ce qui permet d’évaluer comparativement la qualité des dictionnaires, avec l’intérêt d’exemples en usage pris dans un contexte large.

32 L’une des particularités du lexique ainsi recueilli concerne le traitement des mots d’origine étrangère, qui ne sont pas regardés comme une classe à part. Ce choix reflète un positionnement théorique quant aux effets des contacts de langues, renforcé par l’étude du corpus. En effet, en écoutant les informateurs, il apparaît que l’usage de termes d’origine étrangère ne relève le plus souvent pas de phénomènes de code- switching ou de crossing, qui impliqueraient la conservation de leur valeur « ethnique » initiale. Des termes comme wesh ou zaama, employés fréquemment par des informateurs sachant l’interlocuteur arabophone (ou ayant un rapport avec l’arabe), peuvent dans un même discours relever du code-switching ou constituer des marqueurs discursifs d’une certaine forme de français, le « parler jeune ». En ce cas, wesh ou zaama employés par des non-arabophones n’illustreraient du crossing que si les locuteurs n’appartiennent pas au groupe des jeunes.

Corpus, 15 | 2016 192

33 Il semble plutôt s’agir d’usages relatifs à des éléments de l’environnement des informateurs. En d’autres termes, ils ne sont pas à comprendre d’abord comme des manifestations d’identité « ethnique » (réelle ou fantasmée), mais ils indexent l’appartenance à un groupe de locuteurs du français, les jeunes, dont les normes autorisent des formes non standard et innovantes, produits de la « distorsion » de formes attestées (par exemple, le verlan), de la créativité de formes inédites ou du détournement de formes provenant d’une autre langue ou propres à d’autres groupes de locuteurs (comme le vieil argot). Le travail de Sandrine Wachs, Nacer Kaci, Nawal Boussouira, Joanne Kanguara, Magali Floren et Zakia Ayadi a notamment été présenté dans Wachs (2014), tentant d’établir l’extension de termes rencontrés dans MPF, de points de vue à la fois régional et social.

3.2 Plan phonique

34 Un deuxième exemple concerne la prosodie de contours intonatifs montant- descendant, réputés typiques d’un « accent banlieue ». Après l’annotation manuelle d’environ 600 contours intonatifs extraits du corpus (ce qui est loin de constituer la totalité de ces contours), Roberto Paternostro a pu montrer que, plutôt qu’à un contour banlieue, on a affaire à un contour déjà repéré et bien attesté en français standard et dans les usages ordinaires, où il est associé à l’expression de l’emphase. Ce qu’il y a de particulier dans les usages des jeunes réside non dans la spécificité, mais dans la fréquence, et dans les lieux d’apparition inhabituels de ce contour (voir Paternostro, 2013 et 2014 ; Paternostro & Goldman, 2014).

35 Une telle analyse a été rendue possible parce qu’on a pris des distances par rapport à la précatégorisation des locuteurs, qui aurait poussé à intégrer ce contour à l’ensemble des manifestations phoniques traditionnellement relevées pour caractériser les parlers jeunes (voir Jamin et al., 2006), comme une certaine prononciation du r, qui selon certaines interprétations aurait à voir avec la langue arabe. De même que ce r renseignerait sur les influences multiculturelles des locuteurs concernés, la surreprésentation des contours emphatiques pourrait être interprétée comme l’expression d’une certaine violence verbale à l’image de la violence associée communément aux pratiques des jeunes de banlieue.

36 Cependant, qu’il s’agisse d’influence de l’arabe (voir ce que nous avons vu pour le lexique) ou de violence verbale dans une posture de mise en scène de « langue de la rue », on peut se demander si ces interprétations ne risquent pas d’être orientées par des a priori liés aux catégories sociales et/ou ethniques. Le corpus MPF a ainsi l’intérêt d’étayer la possibilité d’autres interprétations, sur la base d’analyses objectives.

3.3 Morphosyntaxe et discours

37 Pour la morphosyntaxe et le discours, plusieurs exploitations sont en cours, comme le recensement des formes verbales non conjuguées, à la fois l’inventaire (ken, marave, tèj, il va graille…), le contexte où elles apparaissent et les contraintes que l’on peut dégager. D’autres phénomènes syntaxiques notables concernent l’absence de clitique (comme dans les exemples (1) ou (11)), des usages élargis de que comme en (2), ou son absence, comme en (3) et (4), tous phénomènes déjà répertoriés dans différentes variétés de français… D’autres phénomènes, que l’on qualifiera d’« émergents » faute de

Corpus, 15 | 2016 193

dénomination plus adéquate, concernent en particulier total, direct, obligé, grave, même (pas), wesh, zaama, vas-y, perso (voir les exemples de (5) à (10)) : (1) – vous faites la différence entre l’arabe littéraire et l’arabe marocain ? – non je fais pas (Wajih 4, 46410) (2) c’est bizarre que un français qui dit ça / que normalement ça doit être un arabe (Emmanuelle 2, 246) (3) moi le bled moi franchement ça fait longtemps je suis pas parti (Wajih 4, 244) (4) c’était la première fois ils y allaient (Wajih 4, 367) (5) parce que vas-y c’est un peu cher les billets et tout (Wajih 4, 254) (6) même pas je sais parler rebeu (Wajih 4, 953) (7) je sais pas c’est quoi zaama on fait trop de bruit je sais ap (Wajih 4, 1396) (8) moi perso comme j’ai dit moi ça sert à rien des longues études de toute façon (Wajih 4, 1914) (9) elles par contre ça les a grave aidées au niveau de l’anglais quoi (Aristide 2a, 292) (10) obligé à la rentrée d’octobre je me donne au moins une semaine pour oublier (Emmanuelle 4, 746)

38 On peut prendre l’exemple de genre, dans des emplois comme (11). Le nombre élevé d’occurrences permettra d’affiner la connaissance des contraintes gouvernant ses emplois : on en trouve par exemple 55 dans un enregistrement pris au hasard, Nacer 2, qui dure 86 minutes : (11) si une fois genre quelqu’un il te demande quelque chose et il voit que tu as de l’argent et tu dis non j’ai pas ou je peux pas nananinanana après genre tu as une réputation tout le monde sait que tu es tu es une radine (Nacer 2, 1651)

39 On rencontre aussi des phénomènes qui impliquent des tronçons d’énoncés plus vastes, comme le discours rapporté (mode d’introduction, continuateurs – voir Moreno, 2014 ; Guerin & Moreno, 2014, et ici-même les exemples (11) ou (12)), des interrogatives indirectes sur le schéma des interrogations directes par intonation (exemples (7), (13) ou (14)). MPF permet aussi de s’interroger sur des tendances à plus long terme de la langue française, comme la gestion de certains accords morphologiques. Ainsi, un travail a porté sur des cas de non-accord entre le sujet et le verbe (Benzitoun & Cappeau, à paraître – ici, exemple (15)), supposant que le corpus MPF pourrait être regardé comme du « français avancé » : (12) une fois elle m’a dit euh ah non elle m’avait dit elle est où ta racli (Nacer 3, 393) (13) je sais même pas moi ça veut dire quoi (Wajih 4, 1004) (14) à chaque fois il me voit je sais ap il a quoi contre oim (Wajih 4, 1289) (15) genre les meufs qui dit je m’en bats les couilles (Roberto 2c, 386)

40 D’autres exploitations en morphologie et en syntaxe sont en cours de réalisation ou en projet.

3.4 Les représentations sur la/les langue(s)

41 Enfin, du côté du contenu des enregistrements, et dans les enregistrements écologiques et dans certains entretiens, nous nous sommes intéressés aux représentations sur les langues et les identités qu’elles manifestent, qui ont d’évidents effets sur les pratiques langagières : les discours tenus sur le français – en particulier sur la notion de « parler normal », comme en (16), et ceux sur les langues d’origine, quel que soit le degré de maîtrise par l’informateur : (16) wallah je les ai pas traités je leur parlais normal wesh (Wajih 4, 4122)

Corpus, 15 | 2016 194

42 Ces pratiques sont crucialement adressées à un interlocuteur spécifiquement identifié, comme le montre l’exemple d’un enregistrement où l’enquêteur, lui-même Algérien, se trouve de plain-pied avec un Beur qui se dit algérien bien qu’il ne parle pas arabe et ne soit jamais allé en Algérie (voir Gadet & Kaci, 2012 [2015]). Plusieurs des enquêteurs de MPF étant des Maghrébins, il y a des effets pour des jeunes dont les origines maghrébines appuient une identité en partie fantasmée (ils se disent souvent « rebeus » et non « beurs »). On a ainsi exploré l’intrication de discours tenus sur les langues, en particulier quant aux relations entre arabe et français. De façon générale, il apparaît que les jeunes locuteurs, quelle que soit leur propre façon de parler, sont souvent porteurs d’idéologie du standard dans leurs représentations du français, tout en paraissant s’y opposer (ce qui revient à réasserter quelque chose par le fait même de le mettre en cause – à la marge d’ailleurs ; voir Gadet & Guerin, 2015 ; Jaspers, 2011, sur des jugements à propos du flamand dans une école de Gand).

43 Ces différents travaux et d’autres qui sont en cours visent à exploiter désormais les possibilités de croisements entre les domaines.

4. Remarques conclusives : qu’est-ce que MPF manifeste de spécifique ?

44 Le corpus MPF permet des réflexions qui n’auraient pas nécessairement pu prendre place sur la base d’autres corpus.

45 Tout d’abord, à une étape de mise en place des conditions du recueil, MPF a été l’occasion d’une réflexion sur le recueil de données, une préoccupation que les linguistes ont trop souvent, dans l’élaboration de grands corpus, traité avec quelque légèreté, ou comme une évidence ne méritant pas d’élaboration ; au contraire du souci constant manifesté par les ethnologues dans l’élaboration de leurs données (voir p. ex. les réflexions de Lepoutre, 2001, qui revient après coup sur son travail de 1997).

46 Au niveau de la collection de données et d’un point de vue avant tout formel, MPF permet de disposer d’une ample documentation sur des catégories « émergentes » ou « innovantes », en tous cas encore peu décrites – le terme émergent étant d’ailleurs à manier avec précaution car difficile à définir, mais n’étant certainement pas à confondre avec « nouveau » (qui ne serait guère adapté que pour le lexique, et encore…). Il permet aussi de mesurer des contraintes sur des phénomènes déjà connus. La pratique de recueil d’immédiat communicatif sur base de réseaux ouvre-t-elle l’accès à des données différentes de celles qui sont recueillies dans des entretiens traditionnels ? C’était en tout cas notre hypothèse. Maintenant, à quel(s) niveau(x) linguistique(s) des effets se manifestent-ils ? Il apparaît impossible de répondre à cette question – ce qui n’empêche pas de la soulever –, les entretiens n’étant pas réitérables ad libitum afin de mesurer un éventuel « effet enquêteur »11.

47 L’empreinte de la sociolinguistique et de l’ethnolinguistique dans la réflexion sur MPF est plus nette encore pour ce qui est de la considération des effets du contact des langues. S’il apparaît en effet certain que les langues peuvent emprunter du lexique ou des intonations d’une autre langue, il est moins évident – et cela demeure à documenter – qu’il soit possible de « copier » des phénomènes phoniques segmentaux, des faits syntaxiques et, probablement, encore moins des faits morphologiques. Il faut ainsi se garder de sauter trop vite à l’hypothèse qu’on a affaire à des effets du contact,

Corpus, 15 | 2016 195

et confronter les phénomènes qui pourraient être des candidats à être traités comme des emprunts à d’autres hypothèses, dont celle de l’évolution endogène. Toutefois, une telle démonstration exigerait une documentation, à travers toute la francophonie, bien plus solide que celle dont on dispose actuellement.

48 Enfin, MPF permet aussi de s’intéresser à ce qui est dit dans les enregistrements, au contenu, au-delà du corpus conçu comme un « réservoir de données » pour pratiquer des études linguistiques. Ainsi, on peut entrevoir la possibilité d’aborder des questions sociolinguistiques, didactiques et même politiques (sur le système d’enseignement et au-delà – voir Sayad, 201412), avec un éclairage sur la posture de mise en scène de soi des jeunes, en rapport à l’intensité, à l’emphase et à la culture des rues (Lepoutre, 1997 ; Gadet & Hambye, 2014). Des analyses plus fines à ce propos permettront sans aucun doute de mieux comprendre la difficile quête d’identité de beaucoup de ces jeunes.

BIBLIOGRAPHIE

Baude O. & Dugua C. (2011). « (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf, linguiste ? », Corpus 10 : 99-118.

Benzitoun Ch. & Cappeau P. (2014). « Quel accord ? Retour sur les cas de ‘non accord’ entre sujet et verbe à l’oral », Colloque Les relations d’accord dans la syntaxe du français. Fribourg, 25-26 septembre 2014.

Billiez J. (1992). « Le ‘parler véhiculaire interethnique’ de groupes d’adolescents en milieu urbain », in E. Gouaini and N. Thiam (éd.) Des langues et des villes. Paris : Didier-Érudition, 117-126.

Blanc-Chaléard M.-Ch. (2001). Histoire de l’immigration. Paris : La Découverte.

Blanche-Benveniste C. (2003). « Réflexions sur les transcriptions de corpus de français parlé », Revue PAroles 22-23-24 : 91-116.

Blanche-Benveniste C. (2008). « Le français parlé au XXIe siècle. Réflexions sur les méthodes de description : système et variations », in M. Abecassis, L. Ayosso, E. Vialleton (éd.) Le français parlé au XXIe siècle : normes et variations dans les discours et les interactions. Volume 2. Paris : L’Harmattan, 17-39.

Blanche-Benveniste C. (2010). Le français : Usages de la langue parlée. Leuven : Peeters.

Branca-Rosoff S. et al. (2011). « Constitution et exploitation d’un corpus de français parlé parisien », Corpus 10 : 81-98.

Cappeau P. & Gadet F. (2010). « Transcrire, ponctuer, découper l’oral. Bien plus que de simples choix techniques », Cahiers de linguistique 35/1 : 187-202.

Cappeau P. & Gadet F. (2014). « Quand l’œil écoute… Que donnent à lire les transcriptions d’oral ? ». Actes du colloque CILPR de Nancy, en ligne : http://www.atilf.fr/ cilpr2013/.

Cappeau P., Gadet F., Guerin E. & Paternostro R. (2011). « Réflexions sur les incidences de quelques aspects de la transcription outillée », LINX 64-65 : 85-100.

Corpus, 15 | 2016 196

Cheshire J. (2005). « Age and generation-specific use of language », in U. Ammon, N. Dittmar, K. Mattheier & P. Trudgill (éd.) Sociolinguistics : An Introductory Handbook of the Science of Language and Society. Berlin : Mouton de Gruyter, 1552-1563.

Cheshire J., Kerswill P., Fox S. & Torgersen E. (2011). « Contact, the feature pool and the speech community : the Emergence of Multicultural London English », Journal of Sociolinguistics 15-2 : 151-196.

Dico-des-mots http://dico-des-mots.com/liste-de-mots.

Dictionnaire de la zone http://www.dictionnairedelazone.fr/?index=lexique&let=0.

Eckert P. (2012). « Three waves of variation study : the Emergence of meaning in the study of sociolinguistic variation », Annual Review of Anthropology 41 : 87-100.

Fagyal Z. (2010). L’Accent de banlieue. Paris : L’Harmattan.

Gadet F. (2008). « L’oreille et l’œil à l’écoute du social », in M. Bilger (dir.) Données orales. Les enjeux de la transcription. Les cahiers 37. Presses universitaires de Perpignan, 35-48.

Gadet F. (2013). « Collecting a new corpus in the Paris area : intertwining methodological and sociolinguistic reflections », in D. Hornsby & M. Jones (éd.) Language and Social Structure in Urban France. Oxford : Legenda, 162-171.

Gadet F. (2015). « Le style et les corpus : réflexions à partir d’un corpus recueilli en région parisienne », in K. Jeppesen Kragh & J. Lindschouw (éd.) Les Variations diasystématiques et leurs interdépendances dans les langues romanes. Société de linguistique romane, série TraLiRo, collection Sociolinguistique, dialectologie, variation.

Gadet F. & Guerin E. (2012). « Des données pour étudier la variation : petits gestes méthodologiques, gros effets », Cahiers de linguistique 2012-1 : 41-65.

Gadet F. & Guerin E. (2015). « Le français en contact en région parisienne : le poids des représentations sur les langues », in Actes du colloque de Raguse, Repères DoRIF. Revue en ligne.

Gadet F. & Hambye Ph. (2014). « Contact and ethnicity in ‘youth language’ description : in search of specificity », in R. Nicolaï (dir.) Questioning Language Contact. Limits of Contact, Contact at its limits. Leiden/Boston : Brill, 183-216.

Gadet F. & Kaci, N. (2012 [2015]). « Identification en première personne. Le discours d’un ‘jeune de banlieue’ en entretien », Cahiers de praxématique, no 59, 29-44.

Gadet F. & Paternostro R. (2013). « Un accent multiculturel en région parisienne ? », Repères DORIF 3. http://www.dorif.it/ezine/.

Gadet F. & Wachs S. (2015). « Comparer des données de corpus : évidence, illusion, ou construction ? », Langage & Société, no 154, 33-49.

Greco L., Mondada L. & Renaud P. (dir.) (2014). Identités en interaction. Limoges : Lambert Lucas.

Guerin E. & Moreno A. (2014). « Le discours rapporté dans les interactions orales et écrites. Au- delà d’une opposition de surface », Actes du colloque CILPR de Nancy. En ligne : http://www.atilf.fr/ cilpr2013/

Guerin E. & Paternostro R. (2014). « What is langue des jeunes and Who speaks it », in H. Tyne et al. (éd.) French through Corpora : Ecological and Data-driven Perspectives in French Language Studies. Actes du colloque AFLS de Nancy 2011. Cambridge Scholars Publishing.

Gülich E. & Mondada L. (2001). « Analyse conversationnelle », in Lexikon der Romanistischen Linguistik. Tübingen : Max Niemeyer Verlag, 196-250.

Corpus, 15 | 2016 197

Jamin M. (2004). « ‘Beurs’ and accent des cités : a case study of linguistic diffusion in La Courneuve », Contemporary French and Francophone Studies 8-2 : 169-176.

Jamin M. & Trimaille C. (2008). « Quartiers pluriethniques et plurilingues en France : berceaux de formes supra-locales (péri-)urbaines ? », in M. Abecassis, L. Ayosso & V. Alleton (éd.) Le français parlé au XXIe siècle. Normes et variations géographiques et sociales, Volume 1. Paris : L’Harmattan, 225-246.

Jamin M., Trimaille C. & Gasquet-Cyrus M. (2006). « De la convergence dans la divergence : le cas des quartiers pluriethniques en France », Journal of French Language Studies 16-3 : 335-356.

Jaspers J. (2008). « Problematizing Ethnolects : Naming linguistic practices in an Antwerp secondary school », International Journal of Bilingualism 12 (1-2) : 85-103.

Jaspers J. (2011). « Talking like a ‘zerolingual’ : Ambiguous linguistic caricatures at an urban secondary school », Journal of Pragmatics 43 : 1264-1278.

Kerswill P. (2010). « Youth Languages in Africa and in Europe : Linguistic subversion or emerging vernaculars ? ». http://www.lancaster.ac.uk/fass/doc_library/linguistics/kerswill/Kerswill- African-Studies-19-10-10.pdf

Keskiladi http://www.keskiladi.com/.

Koch P., Œsterreicher W. (2001). « Langage oral et langage écrit », in G. Holtus, M. Metzeltin & C. Schmitt (éd.) Lexikon der Romanistischen Linguistik, Tome 1. Tübingen : Max Niemeyer Verlag, 584-627.

Kotsinas U.-B. (1998). « Language Contact in Rinkeby – an immigrant suburb », in J. Androutsopoulos & A. Scholz (éd.) Jugendsprache, langue des jeunes, Youth Language. Frankfurt am Main : Peter Lang, 125-148.

Labov W. (1972). Sociolinguistic Patterns. Philadelphia : University of Pennsylvania Press.

Lagrange H. (2010). Le Déni des cultures. Paris : Le Seuil.

Langue française bob. http://www.languefrancaise.net/bob/.

Lepoutre D. (1997). Cœur de banlieue. Paris : Odile Jacob.

Lepoutre D. (2001). « La photo volée. Les pièges de l’ethnographie en cité de banlieue », Ethnologie française XXXI-1 : 89-101.

Moreno A. (2014). « Le discours rapporté dans l’interaction : proximité et variabilité », in Actes du Congrès mondial de linguistique française de Berlin.

Moreno A. & Paternostro R. (2014). « Les parlers jeunes en banlieue parisienne au croisement de la syntaxe et de la prosodie », Communication au Colloque de Nanterre (5-6-7 juin 2014), Les Métropoles francophones en temps de globalisation.

Noiriel G. (2002). Atlas de l’immigration en France. Paris : Éditions Autrement.

Paternostro R. (2013). « La langue des jeunes parisiens : une forme actualisée dans la proximité ? », Cahiers de l’École doctorale de Brescia 7 : 9-19.

Paternostro R. (2014). L’Intonation des jeunes en région parisienne : aspects phonétiques et sociolinguistiques, implications didactiques. Thèse non publiée des universités de Brescia et de Paris Ouest Nanterre la Défense.

Corpus, 15 | 2016 198

Paternostro R. & Goldman, J.-Ph. (2014). « Modeling of a rise-fall intonation pattern in the language of young Paris speakers », Actes du colloque Speech Prosody 7. Trinity College de Dublin, 20-23 mai 2014.

Petit Momo. http://michel.buze.perso.neuf.fr/lavache/petit_momo.htm.

Pooley T. (2012). « Code-crossing and multilingualism among adolescents in Lille », Journal of French Language Studies 22-3 : 371-394.

Quist P. (2008). « Sociolinguistic approaches to Multiethnolect : Language variety and stylistic practice », International Journal of Bilingualism 12 (1-2) : 43-61.

Rabaud A. (2014). « Une histoire de l’immigration en France », in J.-Y. Blum Le Coat et M. Eberhard (dir.) Les Immigrés en France. Paris : La Documentation française, 15-36.

Rickford J., McNair-Knox F. (1994). « Addressee – and topic –influenced style shift : a quantitative sociolinguistic study », in D. Biber & E. Finegan (éd.) Sociolinguistic Perspectives on Register. New York : Oxford University Press, 235-276.

Rougé J.-L. (2013). « Faire le portrait linguistique d’une ville. Présentation du projet de recherche langues en contact à Orléans (LCO) », Langage & Société 145 : 123-129.

Sayad A. (2014). L’École et les enfants de l’immigration. Paris : Le Seuil (La couleur des idées).

Thibault P. & Vincent D. (1990). Un corpus de français parlé. Québec : Recherches sociolinguistiques 1.

Wachs S. (2014). « Paris, créativités lexicales et frontières géographiques », Communication au Colloque de Nanterre (5-6-7 juin 2014), Les Métropoles francophones en temps de globalisation.

Wiese H. (2013). « What can new urban dialects tell us about internal language dynamics ? The power of language diversity », Linguistische Berichte 19 : 208-245.

NOTES

1. Il bénéficie actuellement de soutiens par la DGLFLF (budget 2015) et par le GTRC canadien Le français à la mesure d’un continent (France Martineau, directrice). 2. Pour chacun de ces auteurs, on ne donne ici qu’une référence afin de ne pas surcharger la bibliographie. Pour une bibliographie plus complète sur l’Europe, voir Gadet & Hambye, 2014. Nous n’envisageons pas ici les comparaisons avec l’Afrique ou l’Amérique « francophones ». 3. Pour les corpus sur Orléans, le contact est traité de façon spécifique dans un projet parallèle aux corpus des ESLOs (« Étude SocioLinguistique sur Orléans ») : le projet LCO, « Langues en contact à Orléans », dont on trouve une présentation dans Rougé, 2013. 4. Nous adoptons ici le même choix que celui exposé à la note 2, en renvoyant à la même publication pour une bibliographie plus ample. On pourrait certes évoquer d’autres corpus, mais nous nous arrêterons là, du fait de la modestie de taille ou de ce que l’option de qualité interactive empêche de s’appesantir sur des entretiens faits sans beaucoup de préoccupations sociolinguistiques. 5. Le terme écologique appuie dans MPF la distinction entre les auto-enregistrements et les entretiens. Cependant, il ne s’agit nullement d’une dichotomie, et les entretiens peuvent tendre plus ou moins vers l’écologique, compte tenu de l’attention portée aux spécificités contextuelles et au rôle des réseaux liant les interactants. 6. Cappeau et al., 2011 tente de justifier le choix qui a été fait de Praat pour MPF, parmi les différents logiciels de transcription offrant le même type de propriétés.

Corpus, 15 | 2016 199

7. Tous les chercheurs qui travaillent sur des parlers non standard ont eu à se demander comment éviter de stigmatiser le parler qu’ils étudient, dès l’étape de la transcription. MPF a suivi la perspective de Blanche-Benveniste (2003, 2010) pour laquelle seul un écrit standardisé prenant acte de l’incommensurabilité sémiotique des ordres de l’oral et de l’écrit peut satisfaire cette exigence. On ne cherche ainsi pas à représenter graphiquement des particularités phoniques comme la chute d’un e muet ou une liaison, mais les mots non prononcés ne sont pas restitués (voir aussi Gadet, 2008 ; Cappeau & Gadet, 2014). 8. http://mpfvitrine.modyco.fr 9. Il s’agit d’entretiens avec des « personnalités » ayant un rapport, de types variés, avec les pratiques langagières visées. Si ces enregistrements peuvent parfois constituer un matériau intéressant pour l’analyse linguistique, ils sont avant tout recueillis pour l’intérêt des propos qui y sont tenus. Ces « grands témoins », en général un peu plus âgés, sont des responsables d’association de quartier, des enseignants en ZUS, des acteurs de la culture urbaine… 10. Les exemples sont ici présentés avec le prénom de l’enquêteur et le numéro de l’enquête. Le chiffre qui suit est le minutage en secondes. 11. Des tentatives ont pourtant été faites en ce sens (p. ex. Rickford & McNair Knox, 1994). Elles permettent certes de montrer quelque chose quant au fonctionnement du style dans les langues, mais elles ont selon nous l’inconvénient de négliger le point de vue de l’enquêté, pourtant crucial pour la qualité des données obtenues. Comment un enquêté qui se trouve sollicité pour réitérer le même type d’entretien, avec des enquêteurs différents, mais avec lesquels il n’a toujours aucune histoire conversationnelle antérieure, peut-il construire une interprétation vraisemblable de la situation ? 12. Ces inédits d’un auteur décédé en 1998 reproduisent des textes datant du début des années 80, permettant ainsi de mesurer que ce sont à peu près les mêmes problèmes qui se posent aujourd’hui, en particulier à l’école, demeurés intraités ou négligés, et donc qui n’ont fait entre- temps que s’aggraver.

RÉSUMÉS

Dans cet article, nous présentons le corpus « Multicultural Paris French » (MPF), en en montrant les enjeux théoriques et méthodologiques, ainsi que quelques directions d’exploitation. En visant des données non-standard illustrant ce qu’il est de coutume d’appeler « parler jeune », MPF repose sur une réflexion quant à la façon d’appréhender les situations propices à leur émergence, au-delà d’informations généralement retenues, d’ordres sociodémographiques ou ethniques, ou du degré de formalisme de l’échange. Si ces considérations ne sont évidemment pas évacuées, elles sont combinées à d’autres qui concernent les effets de la relation entre locuteurs au moment de l’enregistrement. De ce fait, MPF apparaît comme un corpus original dans le champ des corpus de français parlé contemporain, tant du point de vue de la nature des données recueillies que de celui du traitement rendu possible par cette spécificité.

This article presents the “Multicultural Paris French” (MPF) corpus, focusing on the theoretical and methodological issues and possible research avenues that it opens up. The MPF corpus comprises non-standard speech, commonly referred to as ‘youth language’. A key aspect of the corpus design is that it inquires into the situational factors conducive to the emergence of this type of speech, beyond the features generally taken into consideration, such as socio-

Corpus, 15 | 2016 200

demographic and ethnic data or the degree of formality of the exchange. While these features are obviously not ignored, they are combined with others concerning the effect of the relationship between speakers during the recording. This specificity distinguishes MPF from other corpora of contemporary spoken French, making it original both as regards the type of data collected and the possible avenues for investigation that it offers.

INDEX

Mots-clés : corpus, non-standard, langue parlée, parlers jeunes, multiculturalisme Keywords : corpus, non-standard, speech, youth language, multiculturalism

AUTEURS

FRANÇOISE GADET Université Paris Ouest & MoDyCo

EMMANUELLE GUERIN Université d’Orléans & LLL

Corpus, 15 | 2016 201

De l’archive de parole au corpus de référence : la base de données orales du français de Suisse romande (OFROM) From speech archive to reference corpus: the spoken Swiss French database (OFROM)

Mathieu Avanzi, Marie-José Béguelin et Federica Diémoz

1. Introduction

Le français est, avec l’allemand, l’italien et le romanche, l’une des quatre langues officielles de la Confédération suisse. Il y est parlé par un peu plus de 22 % de la population (Lüdi & Werlen, 2005)1, sur un territoire que l’on nomme Suisse romande, parfois Romandie. Au plan politique, la Suisse romande est composée de sept cantons, dont quatre sont officiellement unilingues (Genève, , Neuchâtel, Jura) et trois bilingues (Fribourg et , à majorité francophone ; Berne, à majorité germanophone, cf. Schläpfer, 1985). Du fait de sa situation périphérique par rapport à la France, la Suisse romande a été, tout au long du XXe siècle, sujette à l’insécurité linguistique (Jolivet, 1984). Comme l’ont montré des études sociolinguistiques menées, pour l’essentiel, dans le canton de Vaud, les Romands, bien qu’ils se déclarent parfois fiers de leur accent (Singy, 1996, 2004), entretiennent une attitude de « subordination linguistique » (Prikhodkine, 2011 : 24) par rapport aux Français, notamment parisiens, à qui ils tendent à attribuer une meilleure qualité de langue (Bayard & Jolivet, 1984 ; Singy, 1996 ; L’Eplattenier, 1998). Le français que l’on parle en Suisse romande (désormais, pour plus de commodité, FS) n’est cependant pas uniforme (Knecht & Rubattel, 1984 ; Mahmoudian & Jolivet, 1984)2. Des variétés de FS ont ainsi été distinguées en fonction du canton où elles sont parlées (Voillat, 1971 ; Singy, 1996, 2004 ; Matthey, 2003 ; Andreassen, Maître & Racine, 2010) :

Corpus, 15 | 2016 202

on a opposé la variété vaudoise à la variété fribourgeoise ou à la variété neuchâteloise, même si des distinctions plus fines peuvent être faites parmi les locuteurs d’un même canton (Voillat, 1971 ; Singy, 2004 ; Racine & Andreassen, 2012), voire à l’intérieur d’un même district ou d’une même bourgade (Métral, 1977 ; Matthey, 2003). Par ailleurs, les variétés de français parlé en Suisse ne figurent pas sur un pied d’égalité dans les représentations des Romands. Bien que le français parlé à Genève suscite des sentiments ambivalents, il semble jouir, de l’extérieur, d’un prestige plus grand que les autres variétés romandes (Schoch, 1980 ; L’Eplattenier, 1998), du fait qu’il est considéré comme plus proche du français dit « de référence » (désormais FR3). Pourtant, c’est le français parlé dans la ville de Neuchâtel qui a longtemps passé pour être le « meilleur » français de Suisse romande (Jolivet & Bayard, 1984 ; L’Eplattenier, 1998 ; Racine, Schwab & Detey, 2013), notamment parce que les patois s’y sont maintenus moins longtemps qu’ailleurs (Gauchat, 1902 ; Gauchat, Jeanjaquet & Tappolet, 1925 ; Terrier, 1998 ; Kristol 1999 ; Kristol, 2013). Le français du canton de Vaud demeure associé à un accent rural, voire rustique (Knecht & Rubattel, 1984 ; Singy, 1996). Quant au français parlé dans le canton du Valais, s’il est parfois qualifié « d’incompréhensible » et de « chantant », il n’en a pas moins bonne presse chez les Romands, étant associé au sud et aux vacances… Ces représentations reposent cependant sur des stéréotypes plus ou moins caricaturaux et rendent imparfaitement justice à la diversité des accents et des pratiques linguistiques que l’on peut observer sur le terrain. La base OFROM, que nous allons présenter dans cet article, a précisément pour vocation de permettre une observation directe des pratiques langagières en Suisse romande et de développer à ce sujet des études descriptives empiriquement fondées. Au siècle dernier, les spécificités du français de Suisse romande ont été étudiées essentiellement sur la base de documents écrits ou d’exemples oraux recueillis à la volée (Pierrehumbert, 1926 ; Hadacek, 1983 ; Thibault, 1997). Les usages oraux, qu’il s’agisse de lexique, de syntaxe ou de phonologie, ont été moins bien documentés. De fait, on ne sait toujours pas quel crédit accorder aux stéréotypes populaires associés aux variétés de FS. Les locuteurs du canton de Neuchâtel, censés parler un français plus « pur », plus conforme à la norme, réalisent-ils de facto plus de ne de négation, d’accords en genre du participe passé et moins de dislocations du sujet que les locuteurs des autres cantons ? D’autre part, le FS a été décrit comme archaïsant. Mais qu’en est-il, de nos jours, des régionalismes attestés dans le parler des générations précédentes ? Les locuteurs actuels les utilisent-ils encore, et si oui, dans quelles conditions ? Quelles sont en outre, à date récente, les incidences linguistiques liées à la mobilité des personnes et à l’essor des nouvelles technologies de l’information et de la communication ? Et qu’en est-il, dans le parler des Romands, des néologismes observés dans les autres régions de la francophonie ? Se retrouvent-ils en Suisse, et si oui, chez quelles catégories de locuteurs ? Le manque de données documentant le français parlé en Suisse romande4 a longtemps freiné la recherche relative à ces différents points ; c’est la raison pour laquelle nous avons entrepris, à partir de 2011, de constituer une base de données de FS. Celle-ci a été mise en ligne en décembre 2012 sous le nom d’OFROM (i. e. Oral de Français de Suisse ROMande). Dans le présent article, nous présenterons d’abord les principes qui ont guidé la création de cette base. En deuxième partie, nous illustrerons les potentialités d’OFROM en examinant une série de faits relatifs au lexique et à la syntaxe5.

Corpus, 15 | 2016 203

2. Principes de constitution de la base

2.1 Enregistrements

Les enregistrements que la base contient actuellement sont pour les uns extraits d’entretiens guidés à dominante monologique, dans lesquels l’interviewé (un locuteur né en Suisse, et vivant en Suisse romande) était sollicité pour répondre à des questions nécessitant des réponses plus ou moins longues posées par l’intervieweur (le responsable de l’enquête) ; pour les autres, il s’agit d’interactions, impliquant généralement deux personnes (nées en Suisse, et vivant en Suisse romande) qui parlent à bâtons rompus. Les thèmes abordés concernent aussi bien le rapport à la langue, aux métiers, aux voyages, aux passe-temps des locuteurs, leurs relations de voisinage, leurs projets ou les situations incongrues auxquelles ils ont été confrontés dans leur vie. Ils peuvent également être en rapport avec le système politique ou la situation linguistique de la Suisse, voire porter sur les us et coutumes de la région où les locuteurs ont passé la plus grande partie de leur vie, etc. En moyenne, les entretiens enregistrés durent entre 30 et 40 minutes, mais seules une vingtaine de minutes sont transcrites pour chacun des locuteurs de la base (en moyenne, 10 minutes par conversation guidée, 10 minutes par discussion libre).

2.2 Locuteurs

Tous les locuteurs enregistrés sont originaires de Suisse. Ils sont en général enregistrés à l’endroit où ils ont passé la plus grande partie de leur vie. En plus de l’information géographique, cruciale dans OFROM (lieu de naissance, localité dans laquelle le locuteur a passé la plus grande partie de sa vie, localité d’habitation actuelle, nombre d’années passées dans la localité actuelle), nous récoltons pour chaque locuteur enregistré des informations sociodémographiques classiques, telles que l’âge du locuteur au moment de l’enquête, son sexe, sa langue maternelle, son métier et son niveau socio-éducatif6.

2.3 Transcriptions

2.3.1 Support et conventions

Les transcriptions associées aux fichiers sons ont été faites soit par les étudiants en charge de l’enquête, soit par les collaborateurs scientifiques de la chaire de linguistique française et du Centre de dialectologie et d’étude du français régional de l’Université de Neuchâtel. Elles ont toutes été vérifiées, anonymisées et uniformisées par des étudiants de master et des collaborateurs scientifiques avant leur mise en ligne. Les enregistrements sont transcrits directement dans le logiciel Praat (Boersma & Weeninck, 2015), en orthographe standard, sans « trucages » ni ponctuation : nos conventions suivent en cela les recommandations du GARS (Blanche-Benveniste & Jeanjean, 1986 ; Blanche-Benveniste, 1997), reprises dans la plupart des corpus de français parlé transcrits existants (DELIC, 2004 ; Dister, Francard, Hambye & Simon, 2009 ; Baude & Dugua, ce volume ; Branca, Fleury, Lefeuvre & Pires, 2012).

Corpus, 15 | 2016 204

2.3.2 Anonymisation

La parole est une propriété (Baude, 2006). Les locuteurs enregistrés dans notre corpus ont signé des autorisations stipulant qu’ils donnaient leur accord pour l’enregistrement, la diffusion et l’analyse, à des fins linguistiques, de leur parole, à condition que les données soient anonymisées. Dans OFROM, nous n’avons pas procédé à une anonymisation du signal à proprement parler. Pour éviter de rendre publiques certaines informations prononcées pouvant servir à l’identification des locuteurs, nous avons simplement fait correspondre aux séquences sonores pouvant aider à l’identification du locuteur des intervalles dédiés à l’intérieur de la couche de transcription. Ces intervalles contiennent un symbole spécial (« # »), qui empêche, lors de la recherche à l’aide du concordancier, que le contenu sonore associé à l’intervalle incriminé puisse être entendu ou téléchargé. L’anonymat des locuteurs de notre corpus est ainsi préservé.

2.3.3 Annotations

En janvier 2015, les transcriptions ont été enrichies d’un codage des catégories morphosyntaxiques (Part-of-Speech) avec l’outil DisMo (Christodoulides, Avanzi & Goldman, 2014), qui ajoute à la transcription orthographique six couches supplémentaires d’annotation, comme on peut le voir sur la Figure 1 :

Figure 1. Annotation morphosyntaxique et discursive multi-niveau issue de l’étiquetage automatique fourni par DisMo, pour la séquence « tu amènes ta vache à un match tout le monde reçoit trente francs pour le déplacement » [unifr11-cra]

La première couche (tok-min) contient (non alignés avec le son) tous les mots séparés par un espace graphique. La seconde couche (pos-min) indique l’étiquette morphosyntaxique associée à chaque token. La troisième tire (disfluency), parallèle aux deux premières, indique les tokens disfluents. Les deux tires suivantes (tok-mwu et pos- mwu) séparent par des intervalles (non-alignés sur le son) les unités poly-lexicales, et leur catégorie morphosyntaxique. Ainsi, dans l’exemple de la Figure 1, la suite de tokens « tout le monde » (soulignée) a été traitée comme trois unités lexicales dans la tire tok-min, alors qu’elle n’en constitue qu’une seule dans la tire tok-mwu. Quant à la

Corpus, 15 | 2016 205

dernière tire (discourse), elle peut regrouper indépendamment des unités lexicales et les catégoriser comme des marqueurs de discours. Les tires disfluency et discourse étant en cours de développement, les étiquettes que l’on peut y trouver ne seront pas présentées dans la section suivante. Les étiquettes utilisées proposées par DisMo se différencient de la plupart des étiquettes utilisées dans les taggeurs classiques (Debaisieux, Benzitoun & Deulofeu, ce volume) de par leur richesse et leur complexité. La base de données OFROM n’est pas téléchargeable dans sa totalité : pour l’exploiter, il faut obligatoirement passer par le concordancier disponible sur le site du corpus. Celui- ci permet de chercher des chaînes de caractères et des mots, comme c’est le cas de la plupart des concordanciers associés aux autres corpus de français parlé présentés dans ce recueil. Il permet de surcroît, et c’est là son originalité, de procéder à des requêtes plus complexes, pour chercher des chaînes de constructions en croisant des critères lemmatiques et grammaticaux. Un tutoriel, téléchargeable sur le site web de la base, est disponible pour les utilisateurs.

2.4 Statistiques

Pour cet article nous faisons référence à l’état de la base de mars 20157 qui comprenait 407 763 tokens transcrits (soit 65 heures de parole), produits par 189 locuteurs, qui se répartissent de la façon suivante (cf. Figures 2 et 3) selon les cantons dans lesquels ils vivent :

Figure 2. Nombre de mots par canton dans le corpus OFROM (mars 2015), où JU = Jura, BE = Berne, GE = Genève, FR = Fribourg, VD = Vaud, VS = Valais, NE = Neuchâtel et NR = non renseigné

Corpus, 15 | 2016 206

Figure 3. Nombre de locuteurs par canton dans le corpus OFROM (mars 2015), où JU = Jura, BE = Berne, GE = Genève, FR = Fribourg, VD = Vaud, VS = valais, NE = Neuchâtel et NR = non renseigné

3. Documenter la variation lexicale et syntaxique en Suisse romande

Cette partie de l’article est consacrée à la présentation de quelques recherches en cours, relatives aux particularismes lexicaux (§ 3.1) et à la variation syntaxique (§ 3.2).

3.1 Variation lexicale

Quelles sont, au début du troisième millénaire, les particularités lexicales du FS ? Parmi les régionalismes identifiés depuis longtemps par les spécialistes, lesquels sont toujours en usage, lesquels donnent des signes de déclin, du moins en l’état actuel de la base OFROM ? Qu’en est-il, par ailleurs, des néologismes repérés dans d’autres régions de la francophonie ? Appartiennent-ils ou non au français parlé en Suisse, et si oui, quels types de locuteurs sont concernés ? Est-il possible de mettre en évidence des néologismes qui seraient spécifiquement helvétiques ? Autant de questions que la base OFROM permet de documenter, ne serait-ce qu’à titre provisoire, car elle est appelée à se développer dans les années à venir.

3.1.1 Variation régionale

En guise d’illustration, nous évoquerons succinctement ci-après quelques régionalismes lexicaux dont OFROM permet de montrer le caractère bien ancré. La lexie avoir meilleur temps de, avec le sens d’« avoir intérêt à ». – Cette expression passe parfois pour un helvétisme ; elle est cependant utilisée, suivant la Base de données lexicographique panfrancophone (désormais BDLP, Knecht & Kristol, 2000-2012), en Franche-Comté et dans les deux Savoie, dans le Doubs et le Jura français, voire au-delà. OFROM en livre trois occurrences à la 2e personne du singulier, dans la bouche de locuteurs différents, tous relativement jeunes :

Corpus, 15 | 2016 207

(1) tu as meilleur temps de pas aller trop vite [unine08-ada, femme née en 1985] (2) tu as tu as meilleur temps de pouvoir poser ton truc et pis que ça soit à ça du sol [unine12-asa, femme née en 1980] (3) pis tu as meilleur temps d’apprendre sur une euh une manuelle je pense [unine15-003, homme né en 1996] Le verbe venir au sens de « devenir ». – La BDLP suisse nous apprend que cette acception est ancienne et attestée dans une large partie de la francophonie, y compris le Québec ; l’ouest et le nord de la France font semble-t-il exception. Voici les exemples d’OFROM, relevés cette fois dans le parler de locuteurs d’un certain âge : (4) je me fais du souci je me dis qu’il faut vite nettoyer pendant que c’est sec parce qu’il suffit qu’il vienne plus froid [unine11-jsa ; emploi impersonnel, au sens de : « il suffit qu’il se mette à faire plus froid » ; homme né en 1932] (5) un potier qui venait de plus en plus vieux et puis qui pensait à sa retraite [unine08-eba, femme, âge non renseigné] La bribe contenue dans (6) est suggestive à ce titre : (6) euh on s’est marié on a eu quatre enfants | _ | et comme on habitait on restait en Suisse | et qu’elle est de/ est venue pasteure aussi en Suisse | _ | à | # | euh on a décidé que nos enfants | _ | euh parleraient le norvégien comme langue de base [unine11- rpa, homme né en 1954] 8 Après avoir esquissé un de/ qui peut passer pour une ébauche de la forme standard devenir, le locuteur de (6) se rabat finalement sur venir (il vaut la peine, dans le cas présent tout particulièrement, de se reporter à l’enregistrement). La lexie familière foutre loin, au sens de « jeter, mettre au rebut, congédier ». – Absente du TLFi, cette expression est identifiée comme un régionalisme par la DBLP (s.v. loin). Elle est attestée à plusieurs reprises dans nos enregistrements : (7) et je sais pas où a passé ce bouquin | _ | j’aimerais bien savoir où il a passé | _ | moi je l’ai jamais eu ma grand-mère l’a eu puis on l’a jamais retrouvé | _ | je sais pas ce que | et puis de qui les | _ | les filles ont fait | et compagnie elles ont tout foutu loin ce genre de truc | _ | je suis presque sûr elles en ont foutu loin plein | _ | ont foutu loin une partie des papiers | elles ont rien compris du tout de ce qu’elles avaient ont tout foutu loin bah alors non on n’a pas trouvé [unifr11-dba, homme, âge non renseigné] (8) dis donc Germaine tu es en train de foutre loin des bouquins qui sont euh [unifr11-dba, id.] (9) mais je pense que je vais arrêter de taffer là-bas quoi je sais pas ils vont me foutre loin mec si je bosse que six heures [unifr11-maa, étudiant, âge non renseigné] (10) mais le problème c’est que tout à coup/ des fois tu as les paquets ils viennent pas chercher les paquets puis ils les foutent loin [unine11-ffa, homme né en 1990] La BDLP mentionne également foutre bas au sens de « démolir » ou « abattre », dont OFROM livre une forme remotivée : foutre en bas. (11) mais entre-temps ils ont foutu en bas toutes les archives [unine11-jsa, homme né en 1932] L’emploi du verbe vouloir comme auxiliaire de futur. – En Suisse romande, comme dans les deux Savoie et le grand Est de la France (BDLP), le verbe vouloir est parfois employé comme auxiliaire pour marquer le futur périphrastique. Souvent considéré comme un germanisme (Pierrehumbert, 1926 : 649), cet emploi est en réalité un archaïsme. La base de données OFROM en fournit les attestions suivantes : (12) tandis que maintenant tout est trié le fer euh | _ | alors euh ça donne beaucoup plus de commerce | _ | maintenant ben l’été je ne fais pas ça maintenant je veux recommencer une fois que j’ai fini au jardin | % | _ | commencer d’un petit peu trier par-là | _ | ouais ouais ouais ouais [unifr11-dba, homme, âge non renseigné]

Corpus, 15 | 2016 208

(13) enfin on faut qu’on aille au marché de Saint Martin donc on veut aller au marché de Saint-Martin [unine12-asa, femme née en 1980] Cas divers. – Signalons encore, pêle-mêle, les attestations de lexèmes tels que pive (« cône du sapin »), cf. (14)-(15) ; huitante (« quatre-vingts ») ; cf. (16)-(18) ; cheni (« fouillis, pagaille »), cf. (19)-(20) ; souper (« repas du soir »), cf. (21)-(22) ; roillé « fou », cf. (23) : (14) on faisait des batailles de pives [unine15-029, femme née en 1936] (15) oh joli avec la pive […] alors ouais ouais ça c’est de la pive [unine15-027, femme née en 1987] (16) on doit être présent à plus de huitante pourcents des cours pour que le cours nous soit validé [unine08-oca, femme née en 1988] (17) d’ailleurs moi j’ai huitante ans je fais tout | mes affaires je sais tout faire [unifr11-dla, femme née en 1931] (18) et c’est une tour on est mangé euh on a été jusqu’au huitante-troisième étage [unine11-nfa, femme née en 1989] (19) parce que c’est elles qui sont venues foutre le cheni [unine11-sda, femme née en 1979] (20) et y a le cheni habituel et tout [unine11-jma, femme née en 1954] (21) ouais ou bien tu tu tu prends les restes du souper [unine12-asa, femme née en 1980] (22) parce qu’on devait aller au bois on devait aller allumer le feu on devait faire euh | commencer le souper tout ça [unifr11-bga, femme née en 1931] (23) y a un d/ un truc c’est un | _ | un chauffeur euh de à b/ de chez | # | # | | où | _ | qui devient complètement roillé après trente-cinq ans | qui conduit et tout ça il dit c’est affreux [unine15-024, homme né en 1928] Le fait que, parmi ces occurrences, certaines ont été prononcées lors de l’enregistrement de jeunes locuteurs démontre que ces régionalismes sont encore bien vivants en Suisse romande. À l’inverse, la base OFROM contient des occurrences de tournures lexicales marquées comme « vieillies » dans la BDLP. C’est notamment le cas du potager (« cuisinière »), encore très répandu à la fin des années 60 (Voillat, 1971) : (24) avec le l’évolution des matières et pis de de la technologie | _ | on a eu des potagers en | _ | à bois certainement mais | _ | déjà des potagers au dix-huitième siècle | _ | et pis on pouvait mettre d’autres casseroles dessus des tôles émaillées ou bien de [unine08-ebc, femme, âge non renseigné] (25) le bain c’était dans un y avait pas de salle de bains y avait | une bassine à la cuisine | c’étaient des grandes bassines en acier | _ | % | _ | ouais | _ | à la cuisine | _ | chauffer l’eau sur le potager un potager | _ | vous savez ce que c’est | maintenant on dit une cuisinière [unine11-gaa, femme née en 1935] (26) l’hiver tu vois | _ | et pis y avait pas | _ | y avait des fourneaux à molasse y avait potager à bois y avait pas tu vois de | _ | lave-linge euh tout ça | _ | non y avait une fontaine dehors [unine12-jda, femme née en 1930] Dans ces trois exemples, potager est utilisé dans le cadre d’un rappel de réalités révolues ; dans (25), la locutrice prend même le soin d’en gloser le sens à l’intention de son interlocuteur. C’est aussi le cas du mot torée (« repas que l’on prend en plein air autour d’un feu », BDLP), dont la base ne livre qu’un seul exemple, dans la production d’un locuteur neuchâtelois : (27) bah le c’est s/ quand on est entre amis c’est vrai que on va faire une torée au bord du | _ | voilà [unine15-903, homme né en 1958] Lorsque la base sera plus développée, elle permettra, on le voit, de rendre de précieux services à la lexicographie différentielle, voire à la lexicologie en général.

Corpus, 15 | 2016 209

3.1.2 Néologismes

Passons au cas des néologismes, qui se prêtent dans OFROM à des observations tout aussi instructives. Nous présenterons quatre exemples ; les trois derniers, comme on verra, concernent l’expression de l’intensité. Le mot genre utilisé en fonction d’opérateur d’approximation, d’illustration ou d’exemplification. – Ces fonctions récemment acquises du lexème ont fait l’objet d’études de la part de Rosier (2002) et de Dufaye (2012, à par.), qui les abordent en termes de grammaticalisation. OFROM nous apprend que ces usages néologiques de genre sont très présents en Suisse chez les locuteurs des jeunes générations, cf. : (28) parce que je me rappelle que genre quand j’avais sept ou huit ans | _ | j’ai commencé le tennis et je jouais au tennis avec | _ | et à l’époque il devait faire genre euh un mètre | _ | quarante [unine08-mba ; étudiant, âge non renseigné] (29) c’est du brainstorming comme ils appellent ça | _ | genre c’est vraiment un truc mec le but c’est de les mettre pendant quatre jours ensemble [unifr11-maa, étudiant, âge non renseigné] (30) je me suis dit je vais faire un petit truc au début tu sais je vais genre même commencer genre limite par la fin tu sais [unifr11-maa, id.] Le Corpus suisse de SMS en français9, auquel sont empruntés les exemples suivants, permet de montrer que l’écrit familier est également concerné : (31) vs avez discuté genre de quoi? [Corpus suisse de SMS, 20413, femme, 17 ans, sic] (32) Ben genre j’avais rendez-vous le plus tot possible avec Luigi qui repart à Genève pour lui installer Illustrator puis vers 15h pour finaliser un rapport [Corpus suisse de SMS, 15112, homme, 21 ans, sic] Dans le corpus de SMS, sur 18 occurrences de genre, 17 sont de ce… genre. Le Tableau 1 ci-dessous offre une vue synthétique du nombre d’occurrences de genre par catégorie d’emploi (emplois nominaux classiques, emplois comme opérateurs d’approximation au sens large, avec, entre deux, les cas indécis). Le premier chiffre est relatif au corpus OFROM, le second au Corpus suisse de SMS en français. Les emplois néologiques de genre fournis par la base OFROM sont nombreux. À l’évidence, ils méritent mieux que le tri relativement grossier auquel nous les avons soumis. Nous nous proposons d’en étudier la distribution syntaxique et la répartition sociolinguistique dans une étude ultérieure (Béguelin, en prép.).

Tableau 1. Nombre d’occurrences du mot genre par catégorie d’emploi, dans OFROM d’une part, dans le Corpus suisse de SMS en français d’autre part

Nb. d’occ. dans

Type d’emploi Corpus Exemples OFROM SMS

ce genre de trucs genre = N 70 1 un truc du genre des discussions de ce genre-là

Cas ambigus (genre = N apposé un papier genre papier d’emballage; 14 4 ou opérateur une petite ville forte genre Mont-Saint-Michel d’illustration)

Corpus, 15 | 2016 210

genre = marqueur à genre 17 ans d’approximation, genre à 20 ans 110 13 d’illustration ou ils ont instauré des nouvelles lois | genre euh ils ont d’exemplification pas le droit d’avoir de trop grosses cylindrées

Totaux 19410 18

Emplois intensifs de grave. – Zribi-Hertz (2015) a consacré une étude détaillée à l’évolution sémantico-syntaxique récente, en français informel, de cet adjectif dont le sens traditionnel est « sérieux, sévère », mais qui est utilisé désormais, dans les jeunes générations, comme marqueur adverbial de haut degré, au sens de « très, beaucoup », ou comme adjectif à valeur évaluative, avec la valeur de « fou, incroyable ». L’exemple suivant illustre successivement le second, puis le premier de ces emplois néologiques : (33) Waw elle est grave cette zik je l’adore grave. [web < Zribi-Hertz 2015 : 65 ; « Cette musique est incroyable, je l’adore à fond »] OFROM ainsi que le Corpus suisse de SMS démontrent que le français de suisse romande est également « grave atteint » par cette intrigante dérive fonctionnelle : (34) En direct de Zurich, Carlo aux platines et CL au micro qui déchirent leur race grave ! :) [SMS 13152, homme, 24 ans ; grave sert ici d’intensif de prédicat verbal] (35) [contexte de la conversation : engager quelqu’un qui filme pendant trois jours coûte cher] ouais non grave même quoi [OFROM, unifr11-maa ; étudiant, âge non renseigné ; grave = « énormément »] (36) je me disais que c’était peut-etre lui qui m’écrivait d’ailleurs tu vois! Je suis grave ! :) Bisous [SMS 21027, femme, 24 ans ; emploi en tant que « prédicat évaluatif général à orientation variable — dépréciative ou appréciative » de Zribi-Hertz 2015 : 93] Emploi intensif de pire. – Cet usage est présent dans OFROM comme dans le Corpus suisse de SMS : (37) et en fait je suis pas tombé amoureux tout de suite mais enfin j’ai déjà vu qu’elle était pire cool [unine08-eta, femme, âge non renseigné] (38) Trop pire forte la fille : 21 patients et pas de retard… La classe… ;-) [Corpus suisse de SMS, 13883] (39) Hé vieux! On a pire cartoné!!! \o/ Hallucinant:-D [Corpus suisse de SMS, 21841] Emploi intensif de monstre. – Bien attesté dans la base OFROM, cet emploi est absent, de même que celui relevé de pire intensif, du corpus CFPP2000 (Lefeuvre & Brance-Rosoff, ce volume). Dans OFROM, monstre apparaît en tant qu’épithète antéposée (40), mais aussi comme intensifieur d’adjectif (42) ou de prédicat (43). Ces emplois concernent, dans la base suisse, 11 occurrences sur 13 du lemme en question, contre 2 exemples seulement de l’emploi nominal classique, style le monstre du Loch Ness. Cf. : (40) ça fait des ça fait des monstres dégâts euh [unine08-mba ; 6 ex. de ce type dans la base, homme, âge non renseigné] (41) ils sont monstre haut dans le euh dans l’organigramme quoi [unifr11-maa, homme, âge non renseigné ; 4 ex. de ce type dans la base] (42) il a monstre poussé le gazon [unine11-ffa, homme né en 1990 ; seul exemple ad- verbal] L’espace à disposition nous contraint à clore provisoirement cet inventaire. Les exemples présentés ci-dessus n’avaient d’autre ambition que de montrer le potentiel de la base OFROM (ainsi bien sûr que du Corpus suisse de SMS), en vue d’une meilleure

Corpus, 15 | 2016 211

connaissance non seulement des particularités lexicales du français en Suisse, mais aussi des évolutions qui concernent la langue française en général.

3.2 La variation morphosyntaxique

Cette section est organisée en deux parties. La première est consacrée aux régionalismes syntaxiques (§ 3.2.1), dans la seconde nous analysons dans le corpus la fréquence de (non-)réalisation du ne de négation (§ 3.2.2).

3.2.1 Variation régionale

Sur le plan syntaxique, la mise à disposition de corpus oraux de plus en plus riches, OFROM compris, aidera à déterminer la représentation géographique, très souvent transfrontalière, de variantes telles que (43)-(50), qui passent à tort dans certains travaux pour des spécificités du français parlé en Suisse. Ces variantes concernent l’ordre des mots (comme dans (43)-(45)), le mode de réalisation de certaines valences verbales (comme dans (46)-(48)), et l’usage de certaines tournures grammaticales particulières (comme dans (49)-(50))11 : (43) je ça regarde [Bürgi 1999 : 149] (44) j’ai personne vu [Redard 1971 : 3] (45) je lui le donne [Tuaillon 1983 : 234] (46) aider à quelqu’un [Lüdi 1981 : 90] (47) demander après quelqu’un [Knecht & Rubattel 1984 :141] (48) ça, j’y veux [Tuaillon 1983 : 230] (49) le chien m’est venu contre [Voillat 1971 : 224] (50) il a eu fumé [Walter 1981 : 28] De ces tours, on ne sait que peu de choses. D’un point de vue diatopique, certains de ces phénomènes s’étendent à l’ensemble du domaine francoprovençal (notamment l’antéposition de personne), voire au-delà (l’usage du passé surcomposé en principale), d’autres ne sont pas connus en dehors de certaines régions bien spécifiques (l’antéposition de ça est généralement décrite comme un phénomène typiquement vaudois, Bürgi, 1999 ; l’usage du pronom neutre y, bien connu dans les deux Savoie, en Isère et dans le Rhône et en Bourgogne ne semble pas être employé en Suisse romande ailleurs qu’à Genève, Tuaillon, 1983). De leur vivacité dans les conversations contemporaines, on ne sait pour le moment que peu de choses. Jusqu’à présent, on l’a dit, les spécificités lexicales et syntaxiques supposées du FS ont surtout été étudiées sur la base de documents écrits, à partir d’exemples oraux recueillis au cours d’enquêtes ponctuelles ou des jugements de quelques informateurs. À ce jour, aucune étude systématique visant à vérifier la validité empirique de ces remarques sur un échantillon d’informateurs plus large (qui permettrait de tenir compte non seulement de l’origine géographique des informateurs, mais aussi de leur âge, de leur sexe et de leur statut socio-économique), n’a jamais été conduite. Nous avons cherché à pallier cette lacune en interrogeant la base de données OFROM. Cependant, la recherche des contextes syntaxiques exemplifiés sous (43)-(50) n’a pas donné de résultats vraiment concluants. Nous n’avons en effet trouvé qu’un seul emploi de personne dans un emploi de type appositionnel relativement particulier, mais différent de (44), cf. (51). Il a été prononcé par une locutrice âgée, qui parle encore le patois de la région de Fribourg : (51) ils ont personne le même patois mais c’est assez près [unifr11-dla, femme née en 1931]

Corpus, 15 | 2016 212

Nous avons trouvé une seule attestation du tour prodatif V contre (cf. (49) supra), avec le sens de « arriver sur soi », prononcé par une locutrice âgée d’une vingtaine d’années, originaire du canton de Fribourg : (52) un coup de chaud qui nous arrivait contre [unine12-avb, femme née en 1991] Le corpus contient un pronom y, faisant office d’objet direct renvoyant à un référent propositionnel, prononcé par un locuteur vivant dans le canton de Genève : (53) on peut le chauffer avec la lampe à souder alors euh ils y font [unine15-017, homme né en 1941] En ce qui concerne le passé surcomposé, nous avons trouvé les sept attestations suivantes (54)-(60), dont quatre s’insèrent dans des subordonnées à valeur temporelle, ce qui confirme qu’il s’agit d’un contexte d’apparition privilégié pour ces formes (Jolivet, 1984). Ici aussi, les locuteurs sont tous originaires de cantons différents : (54) quand il a eu fini l’école un qui travaillait à l’UBS il lui a dit toi tu vas venir à la à l’UBS et tu peux travailler [unifr11-dla, femme née en 1931] (55) et dès qu’on a eu tourné le dos ils ont remis le les petites midinettes euh qui se trémoussaient dans tous les sens donc c’est c’est encore ce côté que je trouve très très hypocrite [unine09-lba, femme née en 1976] (56) et puis quand j’ai eu fini ma euh ma formation de nurse [unine14-smc, femme née en 1938] (57) déjà avant de faire son diplôme ce qui fait que quand il a eu fini on est retourné à # qu’on connaissait bien [unine11-lva, femme née en 1933] (58) j’ai eu été jouer au volley avec des copains au badminton [unine11-fdb, homme née en 1987] (59) j’ai eu été euh avec euh en en sortie avec euh des amis à Europa Park [id.] (60) on s’est jamais chicané | mais on a eu été vingt minutes | trente minutes sur un mot [unine15-033, femme née en 1936] Sur le plan de la variation régionale, les exemples que nous avons recensés demeurent trop peu nombreux pour que l’on puisse parler de véritable variation dans l’espace, ou pour que l’on puisse faire des hypothèses sur les facteurs sociodémographiques qui les motivent. Quant aux formes non attestées, on ne se risquera pas non plus à tirer argument de leur absence dans la base OFROM pour dire qu’elles ont disparu des usages. On sait en effet que des tournures syntaxiques pourtant courantes dans les conversations de tous les jours ne le sont pas forcément dans les corpus oraux (Bilger & Cappeau, 2004 ; Cappeau & Gadet, 2007). C’est pourquoi d’autres méthodes doivent être envisagées afin de documenter la vivacité et la répartition effectives de ces tours dans les variétés de français de Suisse romande.

3.2.2 Note sur la (non-)réalisation du ne de négation

Cette section est consacrée à l’alternance ne/0 dans le marquage de la négation. Leur nombre étant suffisant dans le corpus, nous testons également les effets des variables sociodémographiques des locuteurs sur cette alternance (âge, niveau socio-éducatif et origine cantonale). Dans un premier temps, nous avons réalisé une estimation du pourcentage de double négation dans le corpus en divisant le nombre d’occurrences des ne et n’ taggées comme adverbes de négation par le nombre total d’occurrences des formes pas/ personne/rien/jamais/aucun/plus, taggées comme adverbes de négation12. Sur les 5 857 négations extraites du corpus, seulement 427, soit 7,3 %, contenaient le morphème ne. Pour étudier la répartition sociale et géographique de ces formes dans

Corpus, 15 | 2016 213

l’espace, nous n’avons retenu que les formes pour lesquelles on disposait des informations relatives à l’origine, l’âge et au statut social du locuteur. Nous avons exclu les locuteurs pour qui le français n’est pas la langue maternelle, et avons regroupé ceux du Jura et de Berne dans un seul et même groupe. Sur les 4 345 formes restantes, 234 formes (soit 5,3 %) contiennent un ne de négation. Pour tester l’impact de variables sociodémographiques sur la présence ou l’absence de ne, nous avons effectué trois modèles linéaires généralisés à mesures répétés (Ghisletta & Spini, 2004), avec la présence de ne (VRAI/FAUX) comme variable dépendante et le locuteur comme variable aléatoire13. Dans un premier modèle, le canton dans lequel le locuteur a passé la plus grande partie de sa vie a été entré comme variable indépendante. Les résultats ont permis de montrer que la variable diatopique avait un effet sur le choix du type de négation (Wald χ² (5) = 16.592, p < 0.01). Les tests post-hoc ont cependant montré que parmi les différences que l’on observe sur la figure 4, seuls les locuteurs de Genève produisent moins de ne de négation que les locuteurs de Fribourg, du Jura et du Valais (p < 0.05). Dans un second modèle, l’année de naissance du locuteur a été entrée comme variable indépendante. Les résultats ont permis de montrer que cette variable avait un effet sur le choix du type de négation (Wald χ² (1) = 10.340, p < 0.001). Comme on peut le voir sur la figure 5 plus bas, plus le locuteur est jeune, plus il a tendance à ne pas double-marquer ses négations.

Figure 4. Pourcentage de négations comportant le morphème ne, en fonction du canton dans lequel le locuteur a passé la plus grande partie de sa vie

Corpus, 15 | 2016 214

Figure 5. Probabilité que la négation contienne le morphème ne, en fonction de l’année de naissance du locuteur

Sur le plan distributionnel, les résultats que nous avons obtenus confirment ceux de Fonseca-Greber (2007) et de Meisner (2013), qui observent des taux de réalisation très bas du ne de négation dans les corpus de FS qu’elles étudient. Ces résultats sont assez proches des taux calculés après l’analyse de productions de locuteurs vivant dans le Nord de la France (moins de 10 % chez les locuteurs analysés par Hansen & Malderez, 2004 et Torreira, Adda-Decker & Ernestus, 2010), alors qu’avec plus de 50 % de réalisation la présence de cette marque est encore bien vivace chez les locuteurs du Midi (Diller, 1983) et de Belgique (Moreau, 1986). En ce qui concerne la variation inter- cantonale, nous avons observé une propension plus grande à faire chuter le ne de négation à Genève qu’ailleurs, mais nous n’avons pas trouvé un taux de maintien plus haut dans les productions des Neuchâtelois, ce qui permet de répondre au moins provisoirement, à la question posée en introduction sur le français des Neuchâtelois. Dans notre analyse, les résultats relatifs à l’âge des locuteurs confirment ce qui avait déjà été montré par d’autres que nous (cf. notamment Ashby, 1967, 1981 ; Coveney, 1998 ; Armstrong, 2002 et Hansen & Malderez, 2004). Nous avons en effet observé que plus l’âge des locuteurs augmentait, plus le taux de maintien de ne augmentait14. Quant à l’effet de niveau socio-éducatif, sans surprise celui-ci ne s’est pas révélé significatif, ce qui confirme les observations de Meisner, Robert-Tissot & Stark (à par.). On conclura en rappelant que ces résultats doivent être appréhendés avec précaution : nous n’avons pas pris en compte les effets possibles des indices syntaxiques (position du ne par rapport au verbe), sémantiques (portée de la négation) et prosodique (vitesse de parole, nombre de syllabes dans le groupe accentuel hôte, etc.), or, on le sait, ceux-ci jouent un rôle important dans la distribution de ne (Meisner, 2013).

Corpus, 15 | 2016 215

4. Conclusion

Dans cet article, nous avons présenté la base de données orales de français de Suisse romande, OFROM. Nous avons dans un premier temps rappelé les hypothèses et les principes fondamentaux qui ont guidé sa constitution, ainsi que les aspects relatifs à la transcription et à l’annotation des données. La base, d’une taille approximative de 400 000 mots au moment où a été réalisée cette étude, en compte plus de 800 000 au moment où elle paraît. C’est l’une des premières à avoir été entièrement annotée en parties du discours, et à disposer d’un concordancier qui permet à n’importe quel utilisateur de faire en ligne des recherches complexes. Même si elle ne permet pas encore de tester solidement des hypothèses sur la répartition des particularismes lexicaux et syntaxiques, elle permet déjà d’illustrer certaines tendances, de renouveler les données d’ordinaire utilisées pour approcher la variation, et surtout de poser les bases d’une description systématique du français parlé en Suisse romande à l’orée du XXIe siècle. D’ici quelque temps, la base devrait être enrichie de nouvelles annotations, notamment pour étudier la variation phonologique et son interface avec la syntaxe. L’ajout de données de genres discursifs variés est également envisagé. La base devrait ainsi progressivement devenir un corpus de référence, au sens classique du terme (Habert, 2000).

Remerciements

La confection de la base OFROM n’aurait jamais été possible sans le soutien financier du programme Campus virtuel suisse, de la Faculté des Lettres et Sciences humaines et du Rectorat de l’Université de Neuchâtel, ainsi que du Fonds national suisse de la recherche scientifique (subsides n° P300P1_147781 et n° P3P3P1_161040). Nous remercions Pierre Ménétrey (http:// www.webox-it.com/), webmestre, pour le travail de confection du site. Merci également à Sandra Schwab (universités de Genève et de Zurich) pour ses conseils et pour la confection des scripts Praat qui ont permis la mise en ligne des premières données sonores et des transcriptions associées. George Christodoulides nous a en outre fourni le logiciel pour tagger la base de données et créer des fichiers xml pour la charger. François Delafontaine (Université de Neuchâtel) a réalisé un travail colossal de révision et de correction des transcriptions. Il a été rejoint récemment par Maude Ehinger et Julie Rothenbühler (Université de Neuchâtel). Christophe Benzitoun a nettoyé, dans le cadre du projet ANR ORFEO, certains des fichiers présents dans la base. Qu’ils soient toutes et tous remerciés très sincèrement. Enfin nous remercions de leur généreux engagement l’ensemble des collaborateurs scientifiques, des étudiants et des locuteurs qui ont participé aux diverses campagnes d’enquête.

Corpus, 15 | 2016 216

BIBLIOGRAPHIE

Andreassen H., Maître R. & Racine I. (2010). « La Suisse », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement. Paris/ Gap : Ophrys, 201-212.

Armstrong N. (2002). « Variable deletion of french ne : a cross-stylistic perspective », Language Sciences 24 : 153-173.

Ashby W. (1976). « The loss of the negative morpheme ne in Parisian French », Lingua 39 : 119-137.

Ashby W. (1981). « The loss of the negative particle ne in French : a syntactic change in progress », Language 57 (3) : 674-687.

Avanzi M. (2012). L’interface prosodie/syntaxe en français. Dislocations, incises et asyndètes. Bruxelles : Peter Lang.

Avanzi M., Béguelin M.-J. & Diémoz F. (2012). « Présentation du corpus OFROM – corpus oral de français de Suisse romande ». Manuscrit, Université de Neuchâtel.

Avanzi M., Schwab S., Dubosson P. & Goldman J.-P. (2012). « La prosodie de quelques variétés de français parlées en Suisse romande », in A. C. Simon (éd.) La variation prosodique régionale en français. Louvain-la-Neuve : De Boeck/ Duculot, 89-120.

Bardiaux A. & Boula de Mareüil P. (2012). Allongements vocaliques en français de Belgique : approche perceptive et expérimentale. Actes des 29es JEP, non paginé.

Bayard C. & Jolivet R. (1984). « Des Vaudois devant la norme », Le français moderne 52 : 151-158.

Béguelin M.-J. (en prép.). « Les emplois de genre dans la base OFROM ». Manuscrit, Université de Neuchâtel.

Blanche-Benveniste C. (1997). « La notion de variation syntaxique dans la langue parlée », Langue Française 115 : 19-29.

Blanche-Benveniste C. & Jeanjean C. (1986). Le français parlé. Transcription et édition. Paris : Didier Érudition.

Blasco-Dulbecco M. (1996). « Pour une approche syntaxique des dislocations », Journal of French Language Studies 7 : 1-21.

Boersma P. & Weenink D. (2015). Praat, doing phonetics by computer, v. 5.4, http:// www.fon.hum.uva.nl/praat/.

Branca-Rosoff S., Fleury S., Lefeuvre F. & Pires M. (2009). « Discours sur la ville. Corpus de français parlé parisien des années 2000 (CFPP2000) », http://cfpp2000.univ-paris3.fr/.

Bürgi A. (1999). « Le pronom ça en français vaudois », Vox Romanica 58 : 149-171.

Cappeau P. & Gadet F. (2007). « Où en sont les corpus sur les français parlés ? », Revue française de linguistique appliquée 12 : 129-133.

Carton F., Rossi M., Autesserre D. & Léon P. (1983). Les accents des Français. Paris : Hachette.

Christodoulides G., Avanzi M. & Goldman J.-P. (2014). « DisMo : a morphosyntactic, disfluency and multi-word unit annotator. An evaluation on a corpus of French spontaneous and read speech ». Proceedings of the 9th International Conference on Language Resources and Evaluation, 3902-3907.

Corpus, 15 | 2016 217

Coveney A. (1998). « Awareness of linguistic constraints on variable ne omission », Journal of French Language Studies 8 : 159-187.

DELIC (2004). « Présentation du Corpus de référence du français parlé », Recherches sur le français parlé 18 : 11-42.

Deshaies D. (1991). « Contribution à l’analyse du français québécois : études des pronoms personnels », Revue québécoise de linguistique théorique et appliquée 10/3 : 11-40.

Detey S., Durand J., Laks B. & Lyche C. (2010). Les variétés du français parlé dans l’espace francophone. Ressources pour l’enseignement. Paris/Gap : Ophrys.

Detey S. & Le Gac D. (2008). « Didactique de l’oral et normes de prononciation : quid du français “standard” dans une approche perceptive », Actes du 1er CMLF, 475-487.

Diller A.-M. (1983). « Subject NP structure and variable constraints : the case of french ne deletion », in R. Fasold (éd.) Variation in the Form and the Use of Language. Washington : Georgetown University Press, 167-174.

Dister A., Francard M., Hambye P. & Simon A. C. (2009). « Du corpus à la banque de données. Du son, des textes et des métadonnées. L’évolution de la banque de données textuelles orales VALIBEL (1989-2009) », Cahiers de l’Institut de linguistique de Louvain 33 : 113-129.

Dufaye L. (2012). « Genre : Trace d’un transfert de prise en charge », in M. Birkelund & H. Nølke (éd.) La Linguistique énonciative, Aarhus, 49-63.

Dufaye L. (à par.). « Genre ou le scénario d’une grammaticalisation », Linx.

Durand J., Laks B. & Lyche C. (2002). « La phonologie du français contemporain : usages, variétés et structure », in C. Pusch & W. Raible (éd.) Romance Corpus Linguistics - Corpora and Spoken Language. Tübingen : Gunter Narr Verlag, 93-106.

Durand J., Laks B. & Lyche C. (éd.) (2009). Phonologie, variation et accents du français. Paris : Hermès.

Fonseca-Greber B. (2007). « The Emergence of emphatic ne in conversational Swiss French », Journal of French language Studies 17 : 249–275.

Francard M. (1997). « Le français en Wallonie », in D. Blampain, J.-M. Goosse, J.-M. Klinkenberg & M. Wilmet (éd.) Le français en Belgique. Une langue, une communauté. Louvain-la-Neuve : Duculot, 229-237.

Gadet F. (1992). Le français populaire. Paris : PUF.

Gauchat L. (1902). « Nos patois romands », Bulletin du Glossaire 1 : 3-24.

Gauchat L., Jeanjaquet J. Tappolet E. (1925). Tableaux phonétiques des patois suisses romands. Relevés comparatifs d’environ 500 mots dans 62 patois-types. Neuchâtel : Attinger.

Ghisletta P. & Spini D. (2004). « An introduction to generalized estimating equations and an application to assess selectivity effects in a longitudinal study on very old individuals », Journal of Educational and Behavioral Statistic 29/4 : 421-437.

Habert B. (2000). « Des corpus représentatifs : de quoi, pour quoi, comment ? », Cahiers de l’Université de Perpignan 31 : 11-58.

Hadacek C. (1983). Le suisse romand tel qu’on le parle. Lexique romand-français. Lausanne : P.-M. Favre.

Hambye P. & Simon A. C. (2009). « La prononciation du français en Belgique », in J. Durand, B. Laks & C. Lyche (éd.) Phonologie, variation et accents du français. Paris : Hermès, 95-130.

Corpus, 15 | 2016 218

Hansen A. B. & Malderez, I. (2004). « Le ne de négation en région parisienne. Une étude en temps réel », Langage et société 107 : 5-30.

Jolivet R. (1984). « L’acceptabilité des formes verbales surcomposées », Le Français moderne 52 : 159-176.

Knecht P. (1979). « Le français en Suisse romande : aspects linguistiques et sociolinguistiques », in A. Valdman (éd.) Le français hors de France. Honoré Champion, 249-258.

Knecht P. (1985). « La Suisse romande », in R. Schläpfer (éd.) La Suisse aux quatre langues. Genève : Éditions Zoé, 125-169.

Knecht P. (2000). « Le français en Suisse romande », in G. Antoine & B. Cerquiglini (éd.) Histoire de la langue française 1945-2000. Paris : Éditions du CNRS, 719-727.

Knecht P. & Kristol A. (2000-2012). « Base de données lexicographique panfrancophone (la Suisse romande) », www. bdlp.org.

Knecht P. & Rubattel C. (1984). « À propos de la dimension sociolinguistique du français en Suisse romande », Le français moderne 52 : 138-150.

Kristol A. (1999). « Histoire linguistique de la Suisse romande : quelques jalons », Babylonia 3/99 : 8-13.

Kristol A. (2013). « Regards sur le paysage linguistique neuchâtelois (1734-1849) : le témoignage sociolinguistique des signalements policiers », in A. Gendre et al. (éd.), Des mots rayonnants, des mots de lumière : mélanges de littérature, d'histoire et de linguistique offerts au professeur Philippe Terrier. Neuchâtel : Université de Neuchâtel, Faculté des Lettres et Sciences humaines ; Genève : Droz, 277-295.

Laberge S. (1977). Étude de la variation des pronoms sujets définis et indéfinis dans le français parlé à Montréal. PhD Thesis, Université de Montréal.

L’Eplattenier C. (1998). A Perceptual Dialect Study of French in Switzerland. PhD Master, Lausanne.

Lüdi G. (1981). « Sémantique, syntaxe et forme casuelle. Remarques sur la construction aider à qn en français romand », Vox Romanica 40 : 85-97.

Lüdi G. & Werlen I. (2005). « Le paysage linguistique en Suisse. Recensement fédéral de la population 2000 », manuscrit, http://www.bfs.admin.ch/bfs/portal/fr/index/themen/01/22/ publ.html?publicationID=1738.

Lyche C. (2010). « Le français de référence : éléments de synthèse », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement. Paris/Gap : Ophrys, 143-165.

Mahmoudian M. & Jolivet R. (1984). « L’accent vaudois », in Encyclopédie illustrée du Pays de Vaud, Éditions 24 Heures, 294-307.

Matthey M. (2003). « Le français langue de contact en Suisse romande », Glottopol 2 : 92-100.

Meisner C. (2013). La variation pluridimensionnelle : une analyse de la négation en français. Thèse de doctorat, Universität Zürich.

Meisner C., Robert-Tissot A. & Stark E. (à par.). « L’absence et la présence du ne de négation », in M.-J. Béguelin, A. Berrendonner, C. Blanche-Benveniste, J. Deulofeu et D. Willems (éd.) Encyclopédie grammaticale du français.

Métral J.-P. (1977). « Le vocalisme du français en Suisse romande. Considérations phonologiques », Cahiers Ferdinand de Saussure 31 : 145-176.

Corpus, 15 | 2016 219

Moreau M.-L. (1986). « Les séquences préformées entre combinaisons et idiomatismes. Le cas de la négation avec ou sans ne », Le français moderne 54 : 137-160.

Morin Y. (2000). « Le français de référence et les normes de prononciation », Cahiers de l’Institut linguistique de Louvain 26 : 91-135.

Noailly M. (1990). L’adjectif épithète. Paris : PUF.

Pierrehumbert W. (1926). Dictionnaire historique du parler neuchâtelois et suisse romand. Neuchâtel : Attinger.

Prikhodkine A. (2011). Dynamique normative du français en usage en Suisse romande. Paris : L’Harmattan.

Pustka E. & Vordermayer M. (2006). « Le français parlé en Haute-Savoie et les corrélats prosodiques d’un accent perçu comme “traînant” », Bulletin PFC 7 : 273-281.

Racine I. & Andreassen H. (2012). « A phonological study of a Swiss French variety : data from the canton of Neuchâtel », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French : Illustrations from Three Continents. Amsterdam : John Benjamins, 173-207.

Racine I., Schwab S. & Detey S. (2013). « Accent(s) suisse(s) ou standard(s) suisse(s) ? Approche perceptive dans quatre régions de Suisse romande », in A. Falkert (éd.) La perception des accents du français hors de France. Mons : CIPA, 41-59.

Redard, G. (1971). « Sur le français de Suisse romande », Revue Neuchâteloise 54, 2-6.

Rittaud-Hutinet C. (1978). « Le français régional de Besançon », Revue de linguistique romane 42 : 123-148.

Rosier L. (2002). « Genre : le nuancier de sa grammaticalisation », Travaux de linguistique 44 : 79-88.

Schläpfer R. (éd.) (1985). La Suisse aux quatre langues. Éditions Zoé.

Schoch M. (1980). « Résultats d’une enquête phonologique en Suisse romande », Bulletin de la Section de linguistique de la Faculté des lettres de Lausanne 2 : 1-38.

Schüle E. (1971). « Documents de français régional actuel », Revue neuchâteloise 54 : 11-23.

Singy P. (1996). L’image du français en Suisse romande. Une enquête sociolinguistique en Pays de Vaud. Paris : L’Harmattan.

Singy P. (2004). Identités de genre, identités de classe et insécurité linguistique. Berne : Peter Lang.

Terrier Ph. (1997). « 100 ans d’enseignement du français langue étrangère à l’Université de Neuchâtel (1892-1992) », in G. Kahn (éd.) L’Apport des centres de français langue étrangère à la didactique des langues. Paris : SIHFLES, 127-140.

Thibault A. (1997). Dictionnaire suisse romand. Carouge : Éditions Zoé.

Thibault A. (à par.). « Le français en Suisse romande », in U. Reutner (éd.) Manuel des francophonies. Mouton de Gruyter.

Torreira F., Adda-Decker M. & Ernestus M. (2010). « The Nijmegen Corpus of Casual French », Speech Communication 52 : 201-212.

Tuaillon G. (1983). « Régionalismes grammaticaux », Recherches sur le français parlé 5 : 227-240.

Voillat F. (1971). « Aspects du français régional actuel ». Actes du colloque de dialectologie francoprovençale organisé par le Glossaire des patois de la Suisse romande, Genève : Droz, 216-246.

Corpus, 15 | 2016 220

Walter H. (1981). « Le surcomposé dans les usages actuels du français », Actants, voix et aspects verbaux. Université d’Angers, 24-44.

Walter H. (1986). « Un sondage lexical en marge de l’enquête phonologique sur les français régionaux ». Actes du XVIIe Congrès de linguistique et de philologie romanes, Université d’Aix-en- Provence, 261-268.

Warnant L. (1997). « Phonétique et phonologie [du français en Belgique] », in A. D. Blampain, A. Goosse, J.-M. Klinkenberg & M. Wilmet (éd.) Le français en Belgique. Une langue, une communauté. Louvain-la-Neuve : Duculot, 163-174.

Zribi-Hertz A. (2015). « De l’évolution des propriétés du mot grave en français européen moderne », in G. Dostie & P. Hadermann (éd.) La dia-variation du français. Berne : Peter Lang, 63-98.

NOTES

1. Selon les dernières estimations de l’Office fédéral de la statistique, la Suisse a passé le cap des 8 millions d’habitants à la fin de l’année 2013. 2. Dans cet article, nous nous servons de l’abréviation « FS » pour renvoyer à l’ensemble des productions de français écrites et parlées dans l’aire géopolitique que constitue la Suisse romande, et non pour désigner une (illusoire) variété dont les frontières coïncideraient avec les frontières politiques de la Suisse romande. Comme l’ont souligné de très nombreux auteurs avant nous (Knecht 1979, 1985, 2000 ; Terrier, 1997 ; Andreassen, Maître & Racine, 2010), il n’y a en effet que très peu de traits linguistiques qui soient propres au FS (cela ne concerne en fait que quelques statalismes, comme bancomat « distributeur d’argent » ou natel « téléphone portable », voir sur ce point Thibault, 1997 et à paraître). Sur le plan lexical et syntaxique, certaines particularités que l’on considère traditionnellement comme des romandismes se retrouvent en France voisine (bobet « niais, idiot », Thibault, 1997 ; j’ai personne vu, Tuaillon, 1983), dans le domaine francoprovençal (panosse, « serpillière », Walter 1986), dans la partie sud de la France (l’usage du passé surcomposé dans les principales, Walter, 1981 ; les adjectifs déverbaux dits « tronqués » (trempe pour « trempé », Tuaillon, 1983), voire en Belgique (septante pour « soixante- dix », nonante pour « quatre-vingt-dix », boiler pour « chauffe-eau », Francard, 1997). Sur le plan phonologique, l’accentuation des syllabes pénultièmes de groupe et la lenteur du débit, que l’on décrit comme typiques de l’accent romand (Avanzi, Schwab, Dubosson & Goldman, 2012), sont des traits qui caractérisent également le français parlé dans le Jura français (Rittaud-Hutinet, 1978 ; Carton, Rossi, Autesserre & Léon, 1983 : 42), en Haute-Savoie (Pustka & Vordermayer, 2006) ou en Belgique (Warnant, 1997 ; Hambye & Simon, 2009 ; Bardiaux & Boula de Mareüil, 2012). 3. L’expression « français de référence » se substitue de plus en plus dans les travaux sur la variation régionale à la notion de « français standard ». Pour une problématisation de ces notions, nous renvoyons le lecteur à Morin, 2000 ; Detey & Le Gac, 2008, 2010 ; Lyche, 2010. 4. Jusqu’il y a peu, seule la base de données Phonologie du français contemporain (PFC, cf. Durand, Laks & Lyche, 2002, 2009, ainsi que Racine, Andreassen & Durand, ce volume) hébergeait également des enregistrements de locuteurs romands (originaires de Genève, de Neuchâtel et de Nyon). 5. Nous laissons volontairement de côté dans cet article la variation phonologique, dont l’étude nécessite des annotations et des outils d’investigation supplémentaires qui sont en cours de développement. 6. Pour ce dernier point, nous nous sommes basés sur la catégorisation socio-éducative opérée par Racine & Andreassen (2012) pour les locuteurs et locutrices du point d’enquête neuchâtelois du corpus PFC. Nous différencions ainsi les personnes ayant atteint le niveau de l’école

Corpus, 15 | 2016 221

obligatoire avec, à l’issue, un apprentissage plutôt technique (maçons, ouvriers, coiffeurs, etc., Niveau I) de celles ayant atteint le niveau de l’école obligatoire avec apprentissage plutôt administratif (employés de banque, employés administratifs, etc., Niveau II), celles avec une maturité (équivalent français du baccalauréat, Niveau III), enfin celles ayant suivi des études universitaires (Niveau IV). Nous sommes bien conscients que ces catégories sociolinguistiques ne sont pas suffisantes (Cappeau & Gadet, 2007 ; Gadet & Guérin, ce volume), mais elles permettent d’opérer au moins un premier tri. Soulignons enfin que ces renseignements ne sont pas tous disponibles pour les enregistrements réalisés avant 2009. 7. Lors de la dernière mise à jour (avril 2016) la base comprenait 809 828 tokens transcrits (soit 83 heures de parole), pour un total de 269 locuteurs. 8. Dans les transcriptions, les barres verticales « | » indiquent une frontière d’intervalle dans l’alignement Praat, le symbole « _ » une pause silencieuse, le symbole « # » un segment anonymisé et le symbole « % » un segment inaudible (cf. Avanzi, Béguelin & Diémoz, 2012). 9. Corpus suisse de SMS, version 2013.04.04. Distribué par l’Université de Zurich, au nom de sms4science. URL : http://www.sms4science. uzh.ch. 10. La recherche brute du lemme genre fournit, via le concordancier, 198 entrées. Pour calculer le nombre d’occurrences de genre, nous avons été conduits à en retrancher 7 : 4 contenant une erreur probable de transcription, plus 3 formes du N pluriel genres, non pertinentes en l’occurrence. Nous avons dû en revanche rajouter 3 exemples qui, apparaissant en cooccurrence avec un autre, n’avaient pas été décomptés par le concordancier. 11. Dans les productions des locuteurs du FS, les variantes régionales et standards coexistent : il ne faudrait donc surtout pas croire que les Suisses romands parlent et écrivent un français régional homogène et standardisé. Knecht a fait naguère à ce sujet, dans la préface du Dictionnaire suisse romand (Thibaut, 1997), une mise en garde très utile. 12. Nous avons pris soin, lors de la recherche de ne, d’exclure les cas où le morphème était précédé du pronom on, car lorsque ce morphème est suivie d’un mot à initiale vocalique, on ne peut pas savoir si le ne a été prononcé ou pas (on (n’)en sait rien). Nous avons exclu également, lors de la recherche de n’, les contextes où le morphème était suivi de importe Q, empêche Q et est-ce pas. Pour la recherche des forclusifs pas/personne/rien/jamais/aucun/plus, nous avons exclu du contexte antérieur (5 mots avant) les occurrences des morphèmes ne et n’. 13. Le test a été conduit sur un total de 129 locuteurs, avec pour chacun un nombre minimum de 2 observations et un nombre maximum de 110 observations (soit 33,6 observations en moyenne par participant). Le fait de mettre le locuteur comme un facteur aléatoire permet de tenir compte du fait que le nombre d’observations n’est équilibré ni d’un groupe à l’autre, ni d’un locuteur à l’autre. Compte tenu du faible nombre d’occurrences contenant ne, il n’était pas possible de faire un seul modèle et de tester les interactions entre les variables. 14. Il reste encore à voir si la différence d’âge entre l’enquêteur et l’enquêté ne joue pas aussi un rôle. En d’autres termes, que font les personnes plus âgées, quand elles sont entre elles et dans un contexte de communication familier, entre pairs ?

RÉSUMÉS

La base de données orales de français de Suisse romande (OFROM) contient des transcriptions d’enregistrements auxquels ont participé des locuteurs nés et vivant en Suisse. Elle a été créée par des linguistes soucieux de documenter les usages oraux du français en Suisse romande, et de

Corpus, 15 | 2016 222

combler ainsi le retard dans la description des usages oraux de la langue parlée dans cette partie de la francophonie, notamment sur le plan du lexique, de la syntaxe et de la phonologie. La base de données OFROM a été mise en ligne en décembre 2012 ; elle est encore jeune et d’ampleur modeste (65 heures de parole pour près de 410 000 mots transcrits, au moment où nous écrivons), mais il est prévu de l’enrichir et de la diversifier régulièrement au cours des années à venir. La première partie de cet article présente les principes fondamentaux qui ont guidé la constitution de la base (choix des locuteurs, des supports et conventions de transcription, annotations, etc.). La seconde partie contient les résultats obtenus à l’issue d’études en cours ou de sondages prospectifs, portant sur la variation lexicale et la variation syntaxique. Ils permettront d’illustrer quelques-unes des potentialités qu’offrent la base et son moteur de recherche.

The Swiss French oral database of Switzerland (OFROM) hosts recordings and transcriptions of productions of speakers born and living in Switzerland. It was created by linguists who wanted to document the oral uses of French in Switzerland, and thereby bridge the gap in the description of the description of the spoken aspects of the lexicon, syntax and phonology. The database OFROM was opened in December 2012; it is still young and modest (65 hours of speech for nearly 410.000 transcribed words, at the time of writing), but it is planned to enrich and diversify regularly over the coming years. The first part of this article presents the fundamental principles that drove the basic constitution (choice of speakers, conventions of transcriptions, annotations, etc.). The second part presents the results obtained in ongoing or prospective surveys on the lexical specificities and syntactic variation. They illustrate some of the potential offered by the database and its search engine.

INDEX

Mots-clés : corpus, Suisse romande, français parlé, OFROM, lexique, variation syntaxique, régionalismes Keywords : corpus, French speaking Switzerland, OFROM, lexicon, syntactic variation, regionalisms

AUTEURS

MATHIEU AVANZI Universités de Genève et de Zurich

MARIE-JOSÉ BÉGUELIN Université de Neuchâtel

FEDERICA DIÉMOZ Université de Neuchâtel

Corpus, 15 | 2016 223

La contribution des corpus oraux à la description de phénomènes de grammaticalisation. Que nous apprend le CFPB (Corpus de français parlé à Bruxelles) sur les périphrases en aller + infinitif ? The contribution of oral corpora to the description of grammaticalization phenomena: what do we learn from the Corpus de français parlé à Bruxelles (CFPB) on aller + infinitive periphrases

Emmanuelle Labeau et Anne Dister

1. Introduction

1 Par un « renforcement expressif » (Meillet, 1912), ou un processus de « subjectivation » (Hopper & Traugott, 1993), beaucoup de langues développent des tours périphrastiques à partir de la forme itive (fr., aller) (Hagège, 1993), qui, de verbe « plein » de mouvement (1), passe à un auxiliaire aspectuo-temporel (2)1. (1) Le train va à / vient de Bruxelles. (2) Le train va partir / vient de partir

2 La majorité des études se sont concentrées sur la valeur de futur immédiat2, mais Bres & Labeau (2012a) ont montré – dans une série d’articles récents – que les emplois discursifs d’aller sont bien plus larges dans l’histoire du français. Ils relèvent huit constructions différentes intégrant aller :

Corpus, 15 | 2016 224

Tableau 1. Tableau récapitulatif des emplois de aller (adapté de Bres & Labeau, 2012a)

Aux. + V. Mesdames et messieurs / attention à la fermeture des portes le train 1. Ultérieur inf. va partir

Son tiers-mondisme va évoluer vers l’islam. Lors d’un voyage en Iran, 2. Narratif il va se convertir et devenir (/devient) un « intellectuel musulman ».

C’est pas un modèle de régularité il va me téléphoner trois fois par 3. Illustratif jour et puis pendant une semaine plus rien / et quand je vais l’appeler personne / aux abonnés absents (Conversation, 2009)

4. … et cet imbécile il est allé se rappeler (/ s’est rappelé) ce que je lui avais

Extraordinaire promis… (conversation)

5. elle est un peu à l’ouest on va dire (conversation) Modalisateur

Aux. + (…) tu n’es pas allé jusqu’à lui présenter des excuses j’espère / faut Prép. + V. 6. Extrême arrêter un peu (conversation, 2009) inf.

Aux. + Mais dans ton cher cœur d’or, me dis-tu, mon enfant / La fauve V. p. 7. Duratif passion va sonnant (/ sonne) l’olifant !… / Laisse-la trompetter à son présent aise, la gueuse ! (Verlaine, Lassitude)

Aux. + 8. Passif Comme ce rôti s’en allait cuit ( était presque cuit) arrive un autre V. p. accessoire homme à cheval. (Saint-Simon, cité par Gougenheim, p. 112) passé

3 Si les combinaisons incluant les participes sont aujourd’hui vieillies et même archaïques, les structures impliquant l’infinitif relèvent du français contemporain, voire du français avancé, puisque certains des emplois – comme l’extraordinaire – sont rarement présentés dans les grammaires du français, d’autres – comme l’illustratif et l’extrême – paraissent cantonnés à l’oral et semblent même – comme le modalisateur – émergents. On peut donc s’interroger sur la place réelle de ces tournures sous-décrites dans le vernaculaire contemporain. La présente étude se propose d’évaluer à la lumière des données récoltées dans le Corpus de français parlé à Bruxelles (CFPB) : (i) la fréquence des emplois du verbe aller et particulièrement des tournures en aller + infinitif à valeur non temporelle ; (ii) la distribution de ces tournures en termes des catégories proposées par Bres & Labeau (2012a) ; (iii) l’éventuelle émergence d’emplois non encore recensés.

4 Nous commencerons par présenter les périphrases itives3 du français, leurs contextes présumés d’emploi et leurs valeurs sémantiques. Après une brève présentation du CFPB, nous y ferons le relevé des constructions basées sur aller dans les huit entrevues intégralement transcrites et vérifiées au moment de la rédaction. Nous terminerons par une réflexion sur l’apport des corpus oraux pour l’affinement de la description de structures largement ignorées par les ouvrages descriptifs.

Corpus, 15 | 2016 225

2. Les périphrases itives du français

5 Dans cette section, nous nous concentrerons uniquement sur les 6 périphrases en aller + infinitif. Nous avons exclu les structures 7 et 8, vu leur caractère littéraire et archaïque qui rend leur présence improbable dans un corpus de données orales spontanées.

2.1 Emploi ultérieur

6 La valeur d’ultérieur est la seule des structures à avoir été abondamment discutée ; de ce fait, nous ne nous y attarderons pas. Il suffira de rappeler que l’emploi a émergé entre la fin du XIIIe et le XVe siècle4 et fonctionne aujourd’hui en concurrence avec le futur simple (FS). Désigné par les appellations de futur proche ou futur périphrastique, sa distribution avec le FS a fait l’objet de nombreuses études qui soulignent l’influence de la proximité, la polarité positive ou négative…

7 En outre, la fréquence de cet emploi varie selon plusieurs facteurs. En diatopie, l’emploi ultérieur semble avoir particulièrement prospéré dans les variétés d’Amérique du Nord, où il est supposé éradiquer le futur simple dans l’oral spontané (voir, parmi beaucoup d’autres, Poplack & Turpin, 1999 ; Blondeau, 2006). Cependant, cette hégémonie est contrecarrée en diamésie, par exemple dans les textos où le FS présente des avantages de concision (Labeau, 2014), et en diaphasie, certains genres favorisant d’autres variables, comme le présent futural ou les énoncés averbaux dans les bulletins météo (Labeau & Blondeau, sous presse).

2.2 Emploi narratif

8 Selon Bres & Labeau (2012c), dans l’emploi narratif, la périphrase en aller + inf. est comprise comme suit : – aspectuellement, elle s’est réalisée jusqu’à la borne terminale de son temps interne ; – textuellement, elle introduit un nouveau point référentiel dans la diégèse, et contribue à la progression du récit ; – contextuellement, elle réfère à un évènement situé antérieurement au moment de la narration, à savoir dans l’époque passée ; – énonciativement, aller fonctionne anaphoriquement, et non déictiquement : le mouvement de prospection a pour origine le procès précédent, et non le moment de l’énonciation.

9 À l’heure actuelle, le tour a pénétré (presque) tous les genres qui ont affaire à la textualité narrative, tant écrits qu’oraux, à l’exception de trois d’entre eux : le récit littéraire de fiction, le récit oral conversationnel, le récit de blagues. Si ces observations sont exactes, le CFPB, recueil de récits oraux conversationnels où les informateurs partagent leurs propres expériences passées5, devrait donc décourager l’emploi narratif.

2.3 Emploi illustratif

10 Dans ce tour, la périphrase sert au locuteur à illustrer par un fait précis un jugement, un argument ou une définition. Elle peut commuter, suivant le contexte, avec le présent, le futur et peut + V. infinitif. Bres & Labeau (2014) ont étudié ce tour mentionné

Corpus, 15 | 2016 226

auparavant par Damourette & Pichon (1911-1936), Larreya (2005) et Lansari (2008). Pour les premiers : […] le verbe aller sert à indiquer que le phénomène verbal est sujet à se reproduire, d’une façon irrégulière et quelque peu déconcertante, comme par un caprice. Cet emploi d’aller est très fréquent dans le parler du vulgaire. (p. 116)

11 Pour Larreya (2005), cet emploi « caractéristique » ne se résume pas aux contextes populaires et oraux : il émerge dans la presse écrite. En effet, Bres & Labeau (2014) distribuent les occurrences de leur corpus en : conversation (9) ; interviews (3), commentaires journalistiques (2) ; écriture journalistique (4), présentation scientifique (2) ; résumé académique (2) ; exemples littéraires (2). Ils dressent un portrait de la périphrase qui présente les caractéristiques suivantes : (i) structure textuelle : apparition après un fait, un jugement, une définition ; (ii) structure syntaxique soit corrélative présentant une alternative, une hypothèse, une opposition ou une structure comparative, soit des possibilités multiples. L’emploi illustratif est générique et s’accompagne de déterminants indéfinis ou définis génériques, exclut les temporaux déictiques et favorise les références pronominales génériques.

12 L’emploi peut alterner avec le présent, le futur ou pouvoir + infinitif, mais avec des nuances de sens :

Figure 1. Alternances d’emploi

13 Contrairement à l’emploi précédent, l’illustratif semble bien se prêter au contexte interactionnel des entrevues du CFPB, et nous nous attendrions à en trouver des occurrences.

2.4 Emploi extraordinaire

14 Damourette & Pichon ont proposé de nommer (allure) extraordinaire le tour dans lequel l’auxiliarisation des verbes de mouvement aller (et venir) « confère au verbe dont l’infinitif le suit un caractère dérangeant par rapport à l’ordre attendu des choses » (1911-1936, V, § 1652). Du fait de la forte modalisation du procès qu’il réalise, l’extraordinaire se rencontre typiquement dans les interactions verbales. En récit écrit, il se retrouve plutôt dans les dialogues rapportés que dans le discours du narrateur omniscient. Ce tour, qui a traversé les siècles, semble se développer actuellement dans l’écrit électronique, notamment dans les blogs, les chats et les forums : très certainement par la forte modalisation qu’il permet au locuteur de réaliser. Cette même modalisation nous semble rendre compte de son exclusion des textes relevant de ce que Benveniste nomme le « plan d’énonciation de l’histoire » (1959/1966 : 238), à savoir des textes produits en effacement (tendanciel) des marques de la subjectivité et de l’interlocution. (Bres & Labeau, 2012b : 157)

Corpus, 15 | 2016 227

15 Phénomène typiquement oral, l’emploi extraordinaire devrait se rencontrer dans le CFPB, pour autant toutefois que soient exprimées des opinions intenses.

2.5 Emploi modalisateur

16 Lansari (2010) avait identifié sur base d’un corpus d’écrits sur Internet trois configurations pour l’emploi ‘modalisant’ de on va dire : (1) on va dire + complétive ; (2) on va dire + adjectif / nom et (3) on va dire en position finale. Selon elle, c’est la troisième configuration « que l’on retrouve le plus dans le véritable oral, à la radio ou à la télévision » (p. 122). En outre, elle considère que l’emploi ne peut se réaliser qu’avec on et remarque que « la première personne du singulier n’était pas possible dans les contextes où apparait la locution » (p. 133). Labeau (2012) avait poursuivi l’intéressante réflexion de Lansari (2010) en palliant certaines de ses faiblesses, à savoir : (1) l’absence d’un corpus oral pour évaluer un emploi défini tel ; (2) la structure soi-disant figée de l’expression et (3) la spécificité sémantique de on va dire par rapport à d’autres expressions modalisantes. Sur base d’un corpus de 125 occurrences orales, Labeau (2012) observe que la position finale n’est pas majoritaire (48,8 %) et que les occurrences de on va dire peuvent se réduire à deux configurations disponibles en antéposition ou en postposition : modalisations quantitative (épistémique) et qualitative (dénominationelle) de Lansari – séparant les on va dire portant sur l’énoncé entier et les on va dire portant sur un élément de la phrase. Quant au figement de la construction – déjà douteux à partir du corpus limité de Lansari (2010) –, il n’est pas confirmé, et une modalisation comparable s’effectue par le biais de constructions proches (je vais dire et dans une moindre mesure j’allais dire). Finalement, Labeau (2012) conclut à la grande adéquation de la séquence on va dire à l’expression de la modalisation à cause de ses composantes : En tant qu’auxiliaire, aller signifie un mouvement ascendant dans l’espace du dire vers une borne ou un point du procès qui suit, qui représente le lieu où ne se situe pas (réellement ou fictivement) l’énonciateur principal et / ou l’énonciataire. La périphrase en aller + infinitif convient donc très bien à l’effet modalisant dans lequel l’énonciateur se distancie de son énoncé que ce soit épistémiquement ou dénominationnellement. Cet effet de distanciation est maximisé par la combinaison avec on – c’est un moyen terme entre le je et le tu – qui opacifie le point de vue à partir duquel la modalisation s’effectue, et renforce l’idée d’approximation véhiculée par la séquence. (p. 580-581)

2.6 Emploi extrême

17 L’emploi qualifié par Bres & Labeau (2012a) d’extrême a été relevé par Leeman (2005) qui le définit comme suit : Dans le cas de la périphrase verbale, l’infinitif dénote le terme extrême d’un parcours […] aller jusqu’à est l’écho de cet itinéraire menant au résultat obtenu […] et ce mouvement est susceptible d’être assorti d’un « effet de scandale » (modalité appréciative) qui présente le résultat en question comme le terme d’une progression qui, selon le locuteur, n’aurait pas dû être atteint. (Leeman, 2005 : 372)

18 Emploi donc subjectif, cet emploi pourrait logiquement apparaitre en récit conversationnel, pour peu que des sentiments intenses y soient exprimés.

Corpus, 15 | 2016 228

3. Présentation du corpus

19 Hormis l’ultérieur, les emplois présentés ci-dessus n’apparaissent dans la littérature scientifique qu’à travers un nombre limité d’occurrences souvent littéraires, parfois construites et rarement représentatives de l’usage contemporain. L’examen de données conversationnelles est susceptible de nous offrir un aperçu plus réaliste de la véritable prévalence des tournures en français contemporain. Dans la section suivante, nous présentons brièvement le corpus sur lequel nous avons travaillé.

3.1 Le CFPB

20 Le Corpus de français parlé à Bruxelles (CFPB)6 se propose de collecter, transcrire et mettre gratuitement en ligne des données conversationnelles recueillies dans les dix- neuf communes constituant Bruxelles. Un questionnaire sociolinguistique, basé sur celui du Corpus de français parlé parisien (CFPP2000)7 mais adapté aux réalités bruxelloises, sous-tend la collecte des données. L’adoption d’un protocole semblable à celui du projet parisien présente l’avantage de la comparabilité des données en diatopie.

21 En outre, l’accent sur la perception qu’ont les informateurs de leur environnement géographique et linguistique s’avère particulièrement pertinent dans le contexte bruxellois et belge, où les questions linguistiques et territoriales constituent l’une des pierres d’achoppement de la vie politique. En effet, la capitale belge se situe historiquement en territoire flamand mais a subi au cours des siècles une influence croissante de la langue française pour être aujourd’hui une capitale très majoritairement francophone. Il serait donc raisonnable de postuler des marques de ce substrat germanique sur la variété de français parlée à Bruxelles qui la différencierait non seulement des pratiques parisiennes illustrées par le CFPP2000, mais aussi des variétés wallonnes documentées par VALIBEL8.

22 Par ailleurs, Bruxelles a attiré et attire toujours – comme toute métropole – des vagues d’immigration issues d’Europe méridionale, du Maghreb, de ses anciennes colonies et, plus récemment, d’Europe de l’Est, immigrations qui participent à la diversité linguistique de la capitale belge. Toutefois, Bruxelles se singularise par un second type d’immigrés, généralement désignés par le terme d’ « expats », qu’attirent les institutions internationales telles que l’Union Européenne ou l’OTAN. Ces immigrés « en col blanc », issus d’Europe de l’Ouest, d’Amérique du Nord et d’autres pays riches, comme le Japon, se distinguent des autres par de nombreuses caractéristiques : ils occupent des fonctions requérant des qualifications élevées dans des emplois généralement obtenus avant leur arrivée, leur séjour tend à demeurer à court / moyen terme. Ces caractéristiques entrainent des conséquences linguistiques : les expats – à moins d’installation à long terme suite à des mariages locaux, par exemple – n’éprouvent qu’un besoin limité d’apprendre le français ou le néerlandais et tendent à utiliser l’anglais comme lingua franca. L’anglais à Bruxelles bénéficie également du bilinguisme français-néerlandais officialisé dans la troisième réforme de l’État de 1988-1989. La plus romane des langues germaniques s’avère un compromis neutre et commode entre francophones et néerlandophones, et une solution économique pour les campagnes publicitaires.

Corpus, 15 | 2016 229

23 Un dernier avantage majeur de notre corpus est de fournir un aperçu de la réalité linguistique sous-documentée de Bruxelles. En effet, suite aux tensions linguistiques qui caractérisent la vie politique belge, le volet ayant trait à l’usage des langues du recensement a été interdit au début des années 60, et les derniers chiffres officiels remontent à 1947. La distribution linguistique de Bruxelles ne peut donc être qu’indirectement appréhendée, par exemple, par le réseau d’enseignement utilisé, qui ne tient évidemment pas compte des langues de l’immigration et qui cache la tendance de certaines familles à scolariser leur enfant dans l’autre langue pour améliorer ses perspectives professionnelles. Par conséquent, d’autres mesures sont prises en compte, comme l’utilisation des langues lors d’une hospitalisation ou de l’immatriculation d’un véhicule. Depuis 2001, le ‘baromètre linguistique’ (voir Janssens 2014, pour la troisième édition) dirigé par Rudi Janssens (VUB, Brio) donne un aperçu de l’emploi des langues à Bruxelles sur base de questionnaires téléphoniques auprès d’un échantillon de 2 000 Bruxellois. Le baromètre des langues repose sur l’usage rapporté des langues, avec tous les biais que cela implique. Le CFPB se propose donc d’offrir un pendant qualitatif – en fournissant un aperçu de l’usage effectif du français – au baromètre des langues.

24 Le CFPB est en cours de constitution, et il comprend actuellement 34 enregistrements de français parlé non planifié. Si certains enregistrements sont totalement transcrits et révisés, d’autres ne le sont encore que partiellement. Afin de compléter notre banque de données, nous privilégions les communes ainsi que les profils des locuteurs les moins représentés actuellement.

3.2 Présentation quantitative du sous-corpus actuellement transcrit

25 Pour la recherche présentée ici, nous nous sommes basées sur 8 entrevues, totalement transcrites et vérifiées au moment de la rédaction, et qui représentent une durée totale de 551 minutes.

26 Les locuteurs ont des profils différents, tant en termes d’âge que de parcours socio- professionnel ou encore de lieu de résidence. Le tableau ci-dessous synthétise les informations concernant les locuteurs des enregistrements que nous avons sélectionnés.

Tableau 2. Profil des locuteurs

Code Locuteur Âge sexe commune profession durée

CG 41 F Ixelles employée 55 min.

DVA 40 H Woluwe-Saint-Lambert architecte 53 min.

GJJ 85 H Marolles chanteur 73 min.

MVU 55 F Uccle institutrice 50 min.

BG 50 F Anderlecht avocate 80 min.

ER 50 H Anderlecht employé 66 min.

MVA 19 F Jette étudiante 99 min.

Corpus, 15 | 2016 230

QP 34 H Ganshoren professeur 75 min.

4. Analyse

27 Dans cette section, nous présentons dans un premier temps un relevé quantitatif des périphrases itives distribuées selon les catégories présentées dans la section 2. Nous ferons une analyse qualitative des relevés.

4.1 Analyse quantitative

28 Le tableau ci-dessous présente la distribution numérique des emplois de aller par informateur

Tableau 3. Distribution des emplois de aller

Mouve- Extra- Modali- Ultérieur Narratif Illustratif Extrême Total ment ordinaire sateur

CG 26 11 0 7 1 29 0 49

1 53.06 22.45 0 14.29 2.04 8.16 0 100

DVA 14 17 0 2 0 1010 0 41

2 34.15 41.46 0 4.88 0 19.51 0 100

GJJ 21 0 0 1 0 0 0 22

7 95.45 0 0 4.55 0 0 0 100

MVU 4 6 0 12 0 0 0 22

8 18.18 27.27 0 54.54 0 0 0 100

BG 3 10 0 0 0 111 0 14

9 21.43 71.43 0 0 0 7.14 0 100

ER 6 2 0 1 0 4512 0 54

10 1.11 3.7 0 1.85 0 83.33 0 100

MVA 21 33 0 14 0 313 0 71

11 29.58 47.48 0 19.72 0 4.23 0 100

QP 22 3 0 5 0 0 0 30

12 73.33 10 0 16.67 0 0 0 100

Corpus, 15 | 2016 231

117 82 0 42 1 61 0 303

29 La valeur pleine de verbe de mouvement représente la proportion la plus large des emplois (38,61 %). Parmi les périphrases itives, la valeur d’ultériorité est, sans surprise, majoritaire (44,09 %), suivie de l’emploi modalisateur (32,8 %) et l’illustratif (22,58 %). Comme le laissait présager l’étude de Bres et Labeau (2012a), l’emploi narratif n’apparait pas, pas plus d’ailleurs que l’extrême. Quant à l’extraordinaire, on n’en compte qu’une occurrence. La fréquence réduite de ces deux emplois, exprimant des émotions intenses, n’est pas surprenante dans des entrevues du type étudié où des informations objectives plutôt que des convictions personnelles sont élicitées.

30 On remarque toutefois une grande variation interpersonnelle, notamment dans l’emploi modalisateur qui tourne au tic de langage chez l’informateur 10, ER.

31 Dans la section suivante, nous nous concentrerons sur une analyse qualitative des emplois modalisateur et illustratif, compte tenu que nous en possédons plus d’occurrences que dans les études précédentes.

4.2 Analyse qualitative

4.2.1 L’emploi modalisateur

32 Contrairement à ce qu’affirmait Lansari (2010), l’emploi modalisateur ne se limite pas à on va dire, minoritaire (18,03 %) par rapport à je vais dire (81,97 %). La structure n’est pas aussi figée que le prétendait Lansari, et la périphrase peut être séparée par un pronom objet (3, 5, 6, 7) ou un adverbe (4, 5)14 : (3) bah écoute là tu sais euh je vais pas te dire le mystère mais euh un jour là j’ai eu je sais pas une illumination là (rires) je me suis dit je vais faire architecte et j’ai été dans une école j’ai même pas été voir les autres [CFPB-DVA] (4) je vais dire m- m- c’est selon je vais dire on va toujours dire selon les les possibilités financières des parents mais en règle générale ils s’habillent relax cool je vais dire non je vais dire comme un peu partout je vais dire [CFPB-ER] (5) je dirais pour les profiteurs mais ça c’est parce que je suis libérale donc je vais t- plutôt dire [CFPB-MVA] (6) et donc c’ je pense que c’est c’est c’est une bonne solution à la fois pour les les personnes qui vivent ici depuis plusieurs générations on va le dire comme ça [CFPB-MVA] (7) donc et en fait ma barrière naturelle je vais te dire si on peut dire ça comme ça c’est la place Meiser [CFPB-CG]

33 Le positionnement de la périphrase modalisatrice pouvait être, selon Lansari (2010), en début de phrase (on va dire que), devant un nom ou un adjectif modalisé ou en fin de phrase. Le corpus CFPB montre d’abord que je vais dire est majoritaire, mais surtout à cause de l’informateur ER qui produit 45 des 61 occurrences (73,77 %), dont 44 en je vais dire. La position initiale n’apparait qu’avec je vais dire (que) et dans 4/5 des cas sans le que (8). Pareillement, la modalisation en fin d’énoncé est majoritairement en je vais dire. Quant au rôle de modalisation du vocabulaire, il ne porte pas que sur les noms et les adjectifs mais aussi sur les pronoms, les adverbes et même un verbe. (8) écoute euh je vais dire euh platement j’y vais jamais moi [CFPB-DVA] (9) oui je dis maintenant les jeunes ça parle je vais dire pour nous nous d’une autre génération enfin c’est très complipue com- compliqué à les comprendre que ça soit des SMS qu’on reçoit euh ou des langages disons un langage bien à eux je crois avec

Corpus, 15 | 2016 232

des codes et c’est fait pour qu’on comprenne pas mais je vais dire pourquoi pas je crois que nous de notre temps c’était plutôt le verlan par exemple maintenant euh c’est un mélange un peu tout je vais dire euh [CFPB-ER] (10) et il y a il y a pas mal de choses qui sur le moment même euh je vais dire qui m’impressionnent et puis et mais bon qui euh qui tombent vite dans peut-être c’est peut-être pour ça que ça ça ne me marque pas euh de manière euh indéfinie [CFPB- DVA]

4.2.2 L’emploi illustratif

34 Selon Bres & Labeau (2014), l’emploi illustratif apparait dans une structure soit corrélative présentant une alternative, une hypothèse, une opposition ou une structure comparative, soit indiquant des possibilités multiples. On retrouve tous ces cas de figure dans le corpus.

4.2.3 Alternative

35 En (11), en fonction de indique une variété de situation : (11) c’est vrai que de nouveau en fonction des communes où on va se trouver dans Bruxelles on va être euh plutôt en contact direct avec euh certains types de populations de de cultures euh étrangères [CFPB-DVA]

4.2.4 Hypothèse

36 L’informatrice en (12) argumente sa position sur l’intégration des étrangers à Bruxelles en offrant une anecdote hypothétique introduite par si : (12) si je vais m’installer dans un pays qui a une culture je vais je vais pas essayer d’imposer ma culture d’abord je vais d’abord essayer de voir la culture du pays de m’imprégner de c- la culture du pays de la respecter et puis de voir si ma culture peut coïncider avec celle du pays je donne un exemple ridicule mais un exemple si maintenant mes convictions à moi c’est d’être nudiste et que je vais pf aux Etats- Unis et j’arrive et puis bon je suis habillée parce que bon pour dans l’avion ça le fait pas trop d’être euh tout nu et j’arrive à l’aéroport machin je prends ma valise hop je sors de l’aéroport et j’arrive sur le territoire américain et puis je me mets toute nue je mets mes affaires dans la valise et puis je vais comme ça jusqu’à l’hôtel toute nue alors je vais me faire interpeller certainement sur le chemin de l’hôtel par euh euh (rires) par des personnes et certainement par la police et là on va me dire il faut vous rhabiller et je vais dire bé non moi ma culture c’est d’être tout nu c’est ma c’est c’est ma culture c’est ma façon de penser moi je moi je trouve qu’on est mieux tout nu en plus je peux bronzer partout en une fois et non je vais me faire arrêter ça va pas je vais devoir me rhabiller ci ça et et je vais pas malgré tout essayer de m’imposer de dire non [CFPB-MVA]

4.2.5 Opposition

37 QP illustre les variations lexicales entre Bruxelles et Liège en marquant l’opposition par l’emploi de pronoms personnels nous et eux : (13) des différences à quel niveau ? au niveau du lexique au niveau de l’accent au niveau du euh oui bè l’ac- l’accent ça c’est certain et les expressions prenez les expressions euh bruxelloises qu’on n- ne comprend pas à Liège mais moi j’ai ma famille qui est une partie de ma famille qui est liégoise par ma maman eh bien il y a des mots qui ne sont pas du tout les mêmes chez le boulanger on demande une brique c’est un pain carré une miche c’est un pistolet on va acheter euh nous on va

Corpus, 15 | 2016 233

acheter des bonbons et eux ils vont ils vont acheter des chiques une chique c’est un bonbon une chique pour nous c’est un chiclet [CFPB-QP]

4.2.6 Comparaison

38 L’informant âgé oppose les goûts cinématographiques de sa jeunesse avec ceux d’aujourd’hui. La comparaison des deux époques est soulignée par la présence de l’adverbe maintenant : (14) les vieux cinémas il y avait tous les les les les films américains qui ont commencé à sortir et quand on voit les films américains maintenant comment est- ce qu’on a pu Charlie Chaplin comment est-ce qu’on a pu aimer ça ? co- comment est-ce que Laurel et Hardy nous ont fait rire ? maintenant tu passes un Laurel et Hardy à des jeunes ils vont dire “écoute euh ce ça c’est complètement euh complètement naze ce ce truc” mais nous ça nous faisait rire. [CFPB-GJJ]

39 L’emploi illustratif débouche même sur de longues séquences narratives anecdotiques, particulièrement chez MVA, une informatrice très loquace.

5. Conclusion

40 La constitution du CFPB n’en est encore qu’à ses débuts. Toutefois, la prise en compte de données limitées nous a déjà permis de (i) rassembler des occurrences authentiques de faits linguistiques sous-représentés dans la recherche malgré leur fréquence dans l’usage (voir les emplois modalisateur et illustratif de la périphrase itive), (ii) tester des descriptions et hypothèses linguistiques (le soi-disant figement de l’emploi modalisateur) et (iii) suggérer des élargissements aux descriptions existantes (p. ex. : la parataxe en je vais dire). En outre, le CFPB pourra s’avérer un outil utile pour l’étude de la variation diatopique, par exemple pour une comparaison de la concurrence FS-FP avec les corpus d’Amérique du Nord ou le CFPP2000. Finalement, vu le contexte politique de Bruxelles, le contenu du corpus est susceptible d’intéresser des chercheurs en dehors des sciences du langage (sociologues, urbanistes, historiens…). Autant de raisons de poursuivre le projet…

BIBLIOGRAPHIE

Blondeau H. (2006) « La trajectoire de l’emploi du futur chez une cohorte de Montréalais francophones entre 1971 et 1975 », Revue de l’Université de Moncton 37 : 73-98.

Bres J. & Labeau E. (2012a). « De la grammaticalisation des formes itive (aller) et ventive (venir) : valeur en langue, emplois en discours », in L. de Saussure & A. Rihs (éd.) Études de sémantique et pragmatique françaises. Bern : Peter Lang, 143-166.

Bres J. & Labeau E. (2012b). « Allez donc sortir des sentiers battus ! La production de l’effet de sens extraordinaire par aller et venir », Journal of French Language Studies 23/2 : 151-177.

Corpus, 15 | 2016 234

Bres J. & Labeau E. (2012c). « Un phénix linguistique ? Le tour narratif va + infinitif renaîtrait-il, en français contemporain, de ses cendres médiévales ? », in C. Guillot, B. Combettes, A. Lavrentiev, E. Oppermann-Marsaux & S. Prévost (éd.) Le Changement en français. Bern : Peter Lang, 1-14.

Bres J. & Labeau E. (2013). « The narrative construction va + infinitive in contemporary French : A linguistic phoenix risen from its medieval ashes ? », Diachronica 30/3 : 295-322.

Bres J. & Labeau E. (2014). « About the illustrative use of the aller + infinitive periphrasis in French », in E. Labeau & J. Bres (éd.) Current Evolutions of Romance Tenses. Bern : Peter Lang, 171-202.

Bybee J., Perkins R. & Pagliuca W. (1994). The Evolution of Grammar : Tense, Aspect, and Modality in the Languages of the World. Chicago/London : The University of Chicago Press.

Damourette J. & Pichon E. (1911-1926/1970). Des mots à la pensée (tome 5). Paris : D’Artrey.

Fleury S. & Branca-Rosoff S. (2010). « Une expérience de collaboration entre linguiste et spécialiste de TAL : L’exploitation du corpus CFPP2000 en vue d’un travail sur l’alternance futur simple / futur périphrastique », Cahiers AFLS 16/1.

Hagège Cl. (1993). The Language Builders. Amsterdam/ Philadelphia : John Benjamins.

Hopper, P. J. & Traugott E. C. (1993). Grammaticalisation. Cambridge : CUP.

Janssens R. (2014). Le Multilinguisme urbain : Le Cas de Bruxelles. Bruxelles : Racine.

Labeau E. (2012). « Une façon d’indiquer la “non-coïncidence entre les mots et les choses, on va dire…” », Congrès mondial de linguistique française – CMLF 12, 573-582.

Lansari L. (2008). « La périphrase aller + inf. en français contemporain : à la recherche d’un invariant », in A. Lauze, G.-J. Barceló & A. Patard (éd.) De la langue au discours : l’un et le multiple dans les outils grammaticaux. Montpellier : Praxiling, 225-238.

Lansari L. (2010). « On va dire : vers un emploi modalisant d’aller + infinitif », in E. Moline & C. Vetters (éd.) Temps, aspect et modalité en français (Cahiers Chronos 21). Amsterdam / New York : Rodopi, 119-139.

Larreya P. (2005). « Sur les emplois de la périphrase aller + infinitif », in H. Bat-Zeev Shyldkrot & N. Le Querler (éd.) Les Périphrases verbales. Amsterdam/Philadelphia : John Benjamins, 337-360.

Leeman D. (2005). « Un nouvel auxiliaire : aller jusqu’à », in H. Bat-Zeev Shyldkrot & N. Le Querler (éd.) Les Périphrases verbales. Amsterdam / Philadelphia : John Benjamins, 361-377.

Meillet A. (1912). « L’évolution des formes grammaticales », Scientia 12 : 384-400.

Poplack S. & Turpin D. (1999). « Does the future have a future in (Canadian) French ? » Probus 11 : 134-164.

NOTES

1. Les études typologiques corroborent ce mouvement de grammaticalisation du spatial au temporel (Bybee Perkins & Pagliuca, 1994). 2. Voir par exemple l’exploitation du CFPP 2000 par Fleury & Branca-Rosoff (2010). 3. Nous reprenons cette appellation à Hagège (1993 : 103), qui réfère aux périphrases construites sur aller par le terme d’itives (du latin ire, supin itum).

Corpus, 15 | 2016 235

4. L’effet de sens d’ultériorité développé sur aller est ancien : Gougenheim (1929) le date du XVe siècle, mais Damourette & Pichon (1911-1936, V, §1643) suggèrent qu’il pourrait remonter à la fin du XIIe ou au début du XIIIe. 5. It could be argued for instance that in interactive oral narration, the absence of va + inf. is linked with the 1st person that would make the narrator adopt a retrospective view from the deictic center (i.e. me-here.now) when retelling past events ; that retrospective narrative stance is inconsistent with the prospective thrust carried by the periphrasis (Bres & Labeau, 2013 : 316). 6. La première phase du projet (2013-2015) bénéficie du soutien de la British Academy. 7. http://cfpp2000.univ-paris3.fr/ 8. http://www.uclouvain.be/valibel 9. je vais dire (2). 10. on va dire (7) ; je vais dire (3). 11. on va dire. 12. on va dire (1) ; je vais dire (44). 13. on va dire (2) ; je vais dire (1). 14. Lansari (2010) avait évoqué un exemple négatif.

RÉSUMÉS

En considérant les occurrences orales de différents emplois de la périphrase en aller + infinitif décrits par Bres et Labeau (2012a), cet article illustre la contribution positive des corpus oraux, et particulièrement du nouveau Corpus de français parlé à Bruxelles (CFPB) – au rassemblement d’occurrences authentiques de phénomènes linguistiques peu étudiés, au test de leurs descriptions théoriques, mais aussi à l’enrichissement de celles-ci.

By studying oral tokens of different uses of the aller + infinitive periphrasis described in Bres & Labeau (2012a), this article illustrates the positive contribution of oral corpora –and particularly of the new Corpus de français parlé à Bruxelles– to the collection of authentic token of understudied linguistic phenomena, to the testing of their theoretical descriptions as well as the enrichment of those descriptions.

INDEX

Keywords : oral corpora, corpus of French as spoken in Brussels, aller + infinitive, illustrative use, modal use Mots-clés : corpus oraux, corpus de français parlé à Bruxelles, aller + infinitif, emploi illustratif, emploi modalisateur

AUTEURS

EMMANUELLE LABEAU Aston University

Corpus, 15 | 2016 236

ANNE DISTER Université Saint-Louis – Bruxelles

Corpus, 15 | 2016 237

Comptes rendus

Corpus, 15 | 2016 238

Tommaso RASO et Heliana MELLO (éd.), Spoken corpora and linguistic studies. Amsterdam : John Benjamins Publishing, 2014, 498 p.

Florence Lefeuvre

1 Le livre édité par Tommaso Raso et Héliana Mello est une contribution fondamentale à la recherche sur les corpus oraux. Il rassemble les contributions majeures données lors d’un colloque international au Brésil, à Belo Horizonte, en février et mars 2012, organisé par le « Gruppo di Studio sulla Comunicazione Parlata », qui est un groupe de recherche de la Société de Linguistique Italienne. Les langues appréhendées sont diverses : l’anglais, trois langues romanes (portugais brésilien, français et italien), cinq langues germaniques du nord (danois, féroïen1, suédois, islandais et norvégien), une langue non indoeuropéenne (le mohawk, langue amérindienne) et enfin des langues des signes (américaine et brésilienne). Plusieurs chapitres de l’ouvrage mènent d’ailleurs des études contrastives entre plusieurs langues.

2 Ces articles permettent de mettre en évidence les deux problèmes majeurs, selon les auteurs, que soulève l’étude de l’oral spontané :

3 i) Qu’en est-il de l’unité d’analyse de référence pour les corpus oraux, sachant que l’unité reconnue jusque-là, la phrase, ne fait pas l’unanimité et paraît même, pour plusieurs auteurs, difficile voire impossible à appliquer aux corpus oraux ?

4 ii) Qu’en est-il de la relation entre la prosodie et sa codification ? On ne peut pas réduire l’étude de l’oral aux seules transcriptions. La prosodie est un paramètre essentiel pour étudier, à l’oral, les actes illocutoires et la structure informationnelle.

5 Les articles du volume tentent d’apporter leur contribution à ces deux questionnements de fond. Ils s’articulent en quatre sections.

6 La première section rassemble trois chapitres qui évoquent les pratiques et les conditions requises pour compiler des corpus oraux. Dans le premier chapitre, Heliana Mello met en avant les questions que soulève la compilation d’un corpus d’oral

Corpus, 15 | 2016 239

spontané, à partir notamment du C-ORAL-BRASIL I (Raso & Mello 20122), qui est un corpus d’oral spontané informel en portugais brésilien, confectionné d’après le corpus C-ORAL-ROM (Cresti & Moneglia 20053).

7 Le second chapitre, écrit par Janne Bondi Johannessen, Øystein Alexander Vangsnes, Joel Priestley et Kristin Hagen, traite des traitements syntaxiques de la variation dialectale à l’oral spontané, en ce qui concerne cinq langues germaniques du nord de l’Europe. Ce corpus comporte des enregistrements audio et vidéo et rassemble 2,8 millions de mots (conversations et interviews).

8 Dans le troisième chapitre, Ronice Müller de Quadros, Diane Lillo-Martin et Deborah Chen-Pichler présentent un corpus d’acquisition de la langue des signes dans des contextes linguistiques et environnementaux différents (variant les paramètres de surdité concernant les enfants et leurs parents, ainsi que l’âge des enfants (deux tranches, 1-4 ans et 4-7 ans)). Ce corpus basé sur la vidéo propose des transcriptions alignées à partir du logiciel ELAN (Crasborn & Sloetjes 2008). Ces trois approches montrent la nécessité d’établir un guide clair et explicite pour compiler de façon rigoureuse les corpus.

9 La deuxième section, qui comprend trois chapitres, concerne les différentes couches possibles d’annotation de corpus. Le chapitre 4, écrit par Eckhard Bick, évoque l’annotation grammaticale de deux types de corpus, corpus oraux et corpus qui présentent des airs de famille avec l’oralité (e-mails, chat, nouvelles à la télévision, discussions parlementaires). Ces différents genres permettent de comparer les marqueurs linguistiques de l’oralité. Les analyseurs syntaxiques ou parsers tels que PALAVRAS et EngGram peuvent s’adapter à ces traits syntaxiques selon les genres. La segmentation syntaxique, dans les corpus oraux, s’établit grâce à la prosodie. A l’exception du corpus de chat, les performances sont tout à fait intéressantes et se rapprochent de celles des corpus écrits.

10 Alessandro Panunzi et Maryualê M. Mittmann, dans le 5e chapitre de cet ouvrage, présentent une base de données en ligne, riche de plusieurs couches d’annotation, appelée DB-IPIC. Le cadre théorique est celui du « Language into Act Theory » (L-AcT) ou « Théorie de la langue en acte » (cf. Cresti 20114) pour lequel il existe une interface entre les unités informationnelles et les unités prosodiques. Les auteurs proposent une étude comparative entre l’italien et le portugais du Brésil.

11 Dans le chapitre 6, Massimo Moneglia étudie les verbes d’action en italien et en anglais dans un corpus d’oral spontané multilingue. Sont repérés des verbes à sens généraux (mettere, to put), qui peuvent avoir une grande variabilité dans leur signification (placer, relier, ajouter, situer) dans ce type de corpus.

12 La troisième section traite de la façon dont la prosodie donne des informations sur les différents phénomènes qui interviennent dans l’activité de parole. Elle regroupe quatre chapitres. Le chapitre 7, dont l’auteur est Philippe Martin, s’intéresse à l’intonation dans la phrase, en français. Il montre que les nouveaux outils permettent à présent de se confronter à des corpus de l’oral spontané. Dans le cadre de son modèle (« Dynamic Cognitive Model »), la structure prosodique détache des groupes accentués (de 2 à 7 syllabes, qui porte seulement un accent) qui sont en étroite dépendance avec la syntaxe, comme les parenthèses ou encore les dislocations sur la droite ou sur la gauche.

Corpus, 15 | 2016 240

13 Dans le chapitre 8, Klaus Scherer rappelle tout d’abord le modèle qu’il a construit : TEEP, the Tripartite Emotion Expression and Perception Model. Il montre ensuite que les corpus d’oral spontané ne sont pas forcément appropriés pour l’étude des émotions, généralement cachées. Ce sont en fait les corpus où sont représentées les émotions qui se révèlent les plus intéressants pour ce type de recherche. L’auteur présente deux recherches spécifiques, l’une portant sur les marqueurs vocaux de l’émotion selon deux types d’approche (d’après une technique expérimentale psychologique et d’après la représentation des émotions) et l’autre portant sur la compréhension de la communication vocale de quatre émotions majeures (peur, colère, joie, tristesse) à travers le comportement du locuteur.

14 Dans le chapitre 9, João Antônio de Moraes et Albert Rilliard décrivent, d’après un corpus audio et vidéo du portugais brésilien, les types d’attitude sur la réalisation des phrases. Les attitudes qui correspondent à des contenus propositionnels sont basées sur des indices auditifs alors que les attitudes qui concernent les relations sociales sont perçues davantage par des indices visuels.

15 Le chapitre 10, rédigé par Douglas Biber et Shelley Staples, étudie le lien entre la prosodie et l’expression grammaticale des postures du locuteur, c’est-à-dire des sentiments personnels, attitudes, jugements de valeur, ou opinions. Cette recherche s’appuie sur le corpus de Hong Kong de conversation anglaise qui inclut des locuteurs anglophones natifs et des locuteurs anglophones cantonais. Les auteurs examinent plus précisément le rôle des adverbes : les plus ordinaires, perdant de leur valeur sémantique, surviennent avec peu de proéminence prosodique, alors que les adverbes moins ordinaires, gardant toute leur valeur sémantique, sont toujours marqués par une proéminence prosodique. On peut se demander, avec les éditeurs de l’ouvrage, si la position de ces adverbes dans la phrase n’est pas fondamentale, selon qu’ils se trouvent en début de phrase (et de ce fait plus accentués) ou dans le cours de la phrase, plus intégrés, et donc forcément moins accentués.

16 La quatrième section porte sur le rapport entre la syntaxe et la structure informationnelle dans quatre chapitres. L’unité de la phrase est remise en question par les auteurs. Dans le chapitre 11, Marianne Mithun étudie le mohawk, qui appartient à la famille iroquoise, une langue parlée polysynthétique du nord-est de l’Amérique du Nord. Elle propose, comme type d’unités, l’unité informationnelle, qui correspond à une unité sémantique (une nouvelle idée) signalée par la prosodie. Même si la syntaxe de cette langue diffère complètement de celle des langues européennes (et même asiatiques), en revanche la structure informationnelle leur ressemble bien davantage : les locuteurs tendent à présenter une nouvelle idée à un moment donné, au sein d’unités informationnelles ; la structure prosodique correspond à la structure informationnelle plutôt qu’à la structure syntaxique.

17 Dans le chapitre 12, les auteurs (Paola Pietrandrea, Sylvain Kahane, Anne Lacheret et Frédéric Sabio) se situent dans le courant initié par les travaux de Claire Blanche- Benveniste, et font part de leurs résultats d’après le projet de recherche Rhapsodie (porteur du projet : Anne Lacheret). Les auteurs mettent à jour trois types de cohésion différents : une cohésion syntaxique, une cohésion illocutoire, une cohésion prosodique qui organisent le discours parlé selon des unités maximales indépendantes : les unités maximales microsyntaxiques (appelées unités de rection), les unités maximales macrosyntaxiques (appelées unités illocutoires) et les unités maximales prosodiques (appelées périodes intonatives). Ces unités n’épousent pas forcément les mêmes

Corpus, 15 | 2016 241

frontières. Selon cette répartition, et contrairement à l’hypothèse de Cresti, la prosodie ne présente pas forcément un niveau essentiel pour déterminer les unités macrosyntaxiques. Cela dit, à 87 %, les unités illocutoires correspondent aux périodes intonatives.

18 Dans le chapitre 13, Emanuela Cresti se place dans le cadre de la Théorie de la langue en acte (theory of Language into Act), construite d’après la Théorie des actes de langage d’Austin. L’énoncé est l’unité de référence. Le cœur de l’énoncé est une unité d’information nommée Comment. Il correspond pragmatiquement à un acte de langage et il est identifié par des indices prosodiques. Selon ce modèle, la syntaxe est indépendante de la structure informationnelle et prosodique, dans la mesure où le Comment ne correspond pas forcément à une phrase syntaxiquement bien formée. D’après cet auteur, deux types d’énoncés sont largement majoritaires dans le discours parlé quotidien : les énoncés averbaux (38 % dans le C-ORAL-ROM italien) et les énoncés simples (42 % des 62 % restants sont composés du verbe être + attribut nominal). En revanche, la subordination au sens strict, représentée par les subordonnées complétives et les subordonnées relatives, est relativement peu fréquente.

19 C’est dans la même Théorie de la langue en acte que l’auteur du chapitre 14, Tommaso Raso, examine les marqueurs de discours pris dans le corpus C-ORAL-BRASIL, en se posant deux questions non encore résolues dans la littérature : comment identifier les marqueurs de discours et comment identifier leurs fonctions spécifiques, puisqu’ils ne prennent pas part dans le contenu propositionnel des énoncés ? Ce sont des unités dialogiques, isolées par des indices prosodiques. Ces unités se distinguent clairement de l’unité Comment en ce que celle-ci est interprétable seule, alors qu’elles ne peuvent l’être qu’en fonction de l’énoncé auquel elles prennent part. Les marqueurs de discours peuvent assurer des fonctions différentes, comme celles de la cohésion ou de l’empathie parmi les locuteurs, fonctions induites à partir d’indices prosodiques.

20 Nous terminerons en soulignant qu’il s’agit d’un ouvrage majeur de la littérature sur les corpus oraux, présentant les toutes dernières avancées sur la confection de corpus, sur leurs enrichissements par diverses couches d’annotations, sur la prosodie et enfin sur la syntaxe confrontée à la structure informationnelle. Un ouvrage que toutes les bibliothèques devraient avoir.

NOTES

1. Des îles Féroé qui sont un pays constitutif du Royaume du Danemark. 2. Raso Tommaso et Mello Heliana (éd.), C-ORAL – Brasil I : Corpus de referência do português brasileiro falado informal. Belo Horizonte : Editora UFMG, 2012. 3. Cresti Emanuela et Moneglia Massimo (éd.), C-ORAL-ROM, Integrated Reference Corpora for Spoken Romance Languages (Studies in Corpus Linguistics 15). Amsterdam : John Benjamins, 2005, DOI : 10.1075/scl.15. 4. Cresti Emanuela, Moneglia Massimo, Tucci Ida, « Annotation de l’entretien d’Anita Musso selon la Théorie de la langue en acte », Langue française n° 170, 2011, Lefeuvre et Moline éd., p. 95-110.

Corpus, 15 | 2016 242

AUTEUR

FLORENCE LEFEUVRE Université de la Sorbonne Nouvelle Clesthia EA7345

Corpus, 15 | 2016 243

Henry TYNE, Virginie ANDRÉ, Christophe BENZITOUN, Alex BOULTON et Yan GREUB (éd.), French through corpora : ecological and data-driven perspectives in French language studies. Newcastle upon Tyne UK : Cambridge Scholars Publishing, 2014, 343 p.

Filip Verroens

1 Cet ouvrage vise à montrer comment la méthodologie de corpus fait fructifier plusieurs domaines linguistiques. Il importe donc de démontrer les liens entre les outils, les méthodes et les analyses. Comme le titre l’indique clairement, l’approche adoptée se veut inductive (corpus-driven) et écologique. Autrement dit, le corpus y est utilisé comme point de départ pour élaborer une théorie linguistique et les données sont authentiques tant dans leur origine que dans leur traitement. Le volume se compose de seize chapitres regroupés en quatre parties respectivement consacrées à la diachronie, à la syntaxe, à la sociolinguistique et à l’apprentissage du français. Chaque partie contient plusieurs contributions empiriques et est introduite par une contribution générale où l’on établit la relation entre le domaine de recherche en question et la méthodologie de corpus.

2 L’introduction à la première partie du volume (Bernard Combettes) résume les avantages de l’emploi de corpus et caractérise les problèmes auxquels les études diachroniques sont confrontées. Parmi les points positifs, l’auteur note comment les corpus peuvent changer le regard du diachronicien et par conséquent la manière de

Corpus, 15 | 2016 244

traiter les données linguistiques historiques. Si auparavant les études étaient surtout de nature synchronique, c.-à-d. une photographie instantanée d’un item grammatical dans une période bien délimitée, elles portent de nos jours surtout sur le changement linguistique proprement dit à travers plusieurs périodes. Il s’ensuit que la périodisation traditionnellement reconnue et la question de la variation seront remises en cause. Finalement, la possibilité de la lecture ‘verticale’ à l’aide de concordanciers permet de mettre en lumière plusieurs paramètres contextuels qui restaient inaperçus auparavant. Quant aux inconvénients, l’auteur observe d’abord que le mérite des corpus dépend trop souvent du degré d’annotation. Pour l’instant, les seuls domaines de recherche qui profitent des corpus sont ceux où les données sont facilement repérables par l’ordinateur, p. ex. l’étude des expressions figées. L’attention accordée aux expressions figées peut amener des conséquences théoriques importantes étant donné que la notion de syntaxe est de plus en plus considérée en rapport avec des constructions figées plutôt qu’avec des constructions libres. Ensuite, une certaine prudence dans l’annotation automatique des textes historiques s’impose afin d’éviter des anachronismes au niveau des catégories et des unités syntaxiques. Enfin, il y a la question largement discutée de la représentativité qui, due à l’absence de certains genres et registres, semble plus problématique qu’en synchronie vu l’inventaire donné et clos des textes disponibles. Une première étude (Paul Isambert) montre comment le peu de données historiques semble à première vue contredire l’hypothèse que l’adverbe de manière autrement se grammaticalise vers un connecteur d’hypothèse négative. Or, une analyse synchronique détaillée permet ensuite de reconstruire la grammaticalisation et de montrer que l’évolution a eu lieu à travers la construction incluant l’adverbe. La position syntaxique qu’occupe cette construction convient bien à une réanalyse et ouvre ainsi la voie au connecteur. Une deuxième étude (Richard Ingham) porte sur la naissance des constructions discursives elliptiques en anglais (p. ex. Haven’t you heard Peter ? - Yes, I have). Contrairement à d’autres qui expliquent cette construction par l’influence du substrat celtique, l’hypothèse avancée ici est qu’elle résulte du contact avec l’anglo-normand. Les arguments en faveur sont, primo, que les questions et réponses elliptiques en anglo-normand préexistent à l’anglais, qui est d’ailleurs la seule langue germanique qui en dispose. Secundo, elles apparaissent dans le même genre (les farces) et registre (le dialogue informel). Tertio, le parallélisme structurel révèle une réduplication grammaticale et le prestige de l’anglo-normand en Angleterre a favorisé sa distribution. Le décalage entre le moment de contact présumé et la première apparition dans les textes est expliqué par l’usage de la construction dans un registre oral informel précédant le registre écrit. Cette étude montre entre autres que la linguistique diachronique nécessite un corpus de dialogues en français pré-moderne. Une troisième étude (Inka Wissner) pose la question de savoir ce que les corpus textuels peuvent contribuer à l’étude des expressions diatopiquement marquées en français moderne, en l’occurrence la collocation tomber en amour. Cette expression a le statut de marqueur diatopique, puisqu’elle est généralement considérée comme un calque de l’anglais (to fall in love) usité en français québécois. Or, une analyse lexicographique exhaustive et une analyse sur corpus montrent que cette expression apparaît déjà au XIIIe siècle en France ce qui rend l’hypothèse d’un calque moins probable. Sans que l’auteur ne le dise explicitement, on suppose alors que tomber en amour est un des archaïsmes qui a subsisté dans le Nouveau Monde. Enfin, l’auteur regrette qu’il n’y ait toujours pas de corpus global pour toute la francophonie pourvu entre autres d’annotations diatopiques.

Corpus, 15 | 2016 245

3 La deuxième partie contient trois chapitres axés sur l’emploi de corpus en syntaxe. Dans l’introduction, Christophe Benzitoun souligne la révolution que l’emploi massif des corpus a déclenchée dans ce domaine. En revanche, le recours à des corpus arborés (treebanks) pour analyser les données n’est pas encore très fréquent en français. Il est vrai que leur emploi n’est ni neutre, à cause des choix théoriques adoptés, ni parfait, à cause d’éventuelles erreurs d’annotation et que l’exemple le plus connu, le French Treebank, se limite au corpus journalistique du Monde. Ces facteurs expliqueraient pourquoi certains préfèrent travailler à partir des données brutes. L’ampleur et la qualité de l’analyse syntaxique changent aussi. D’une part, en se basant sur des corpus pour définir une grammaire, on préfère donner des tendances descriptives plutôt que des règles absolues, ce qui amène une certaine fragmentation dans la description. D’autre part, la collaboration récente entre la linguistique de corpus et la linguistique expérimentale peut aboutir à des interprétations plus raffinées des données de corpus, notamment sur le plan des jugements de grammaticalité. L’avenir est à l’éclectisme, mais la diversité des corpus et des méthodes utilisés requiert une certaine prudence. La première étude syntaxique (Juliette Thuilier, Anne Abeillé et Benoît Crabbé) concerne les préférences d’ordre des compléments postverbaux en français. Plusieurs études ont déjà montré que la longueur de l’objet, le statut discursif et le sens verbal jouent un rôle. La conclusion générale de la présente analyse est que 70,4 % des données préfèrent l’ordre NP-PP, mais la longueur de l’objet et la sémantique du verbe sont susceptibles d’inverser cet ordre. De plus, une analyse multifactorielle montre que ces deux facteurs et le corpus sont significatifs, contrairement aux facteurs [±pronominal], [±défini] ou [±animé] du NP ou du PP. Une deuxième étude (Nathalie Rigaud et José Delofeu) porte sur l’ellipse modale et diffère de l’étude précédente par son caractère inductif. On y montre que le fragment de surface est dans 75 % des cas une construction idiomatique (p. ex. comme il faut) associée à une interprétation indépendante du contexte. Dans les autres cas, le fragment occupe une position VP sans contenu lexical et sans besoin de structure syntaxique. Habituellement, la reconstruction du VP se fait grâce à un antécédent (trigger) explicite dans une phrase adjacente. Or, l’antécédent, un verbe, est parfois assez éloigné et l’interprétation ne se fait pas toujours par un recours à l’élément explicite, mais par inférence sémantique de l’ensemble du contexte. Par conséquent, on présume que l’antécédent et le fragment ne forment pas pour autant une unité syntaxique.

4 Les cinq chapitres de la troisième partie portent sur des études sociolinguistiques. L’introduction (Virginie André et Henry Tyne) rappelle d’abord que dans la longue tradition en dialectologie française, les méthodes utilisées ont été, et continuent d’être, celles de l’interview et du protocole, bref celles orientées par la recherche même (researcher-driven). Récemment, une approche écologique (speaker-driven) partant plutôt des données de la situation communicative authentique s’instaure. Cependant, en attendant de grands corpus pourvus de métadonnées sociolinguistiques, on se retourne encore fréquemment à de petits corpus locaux. Une seconde observation concerne l’influence de la masse de données disponible. Cette quantité peut dévier le focus du domaine de recherche qui est plutôt la manière dont la langue est utilisée et non la langue utilisée. Enfin, on constate une grande variation dans les théories et méthodes utilisées, ce que les études suivantes démontrent. La première étude (Emmanuelle Guerin et Roberto Paternostro) examine les caractéristiques de la langue des jeunes (LDJ) et de ses locuteurs dans le corpus Multicultural Paris French (MPF). Il s’avère que les traits de LDJ, à savoir l’emploi du /r/ arabisé, l’affrication de plosives et la structure de

Corpus, 15 | 2016 246

la prosodie finale ne se retrouvent pas que chez les jeunes immigrés de la banlieue défavorisée. Une analyse du discours rapporté établit une relation entre les stratégies discursives et prosodiques utilisées en LDJ et la proximité communicative. Plutôt qu’à une langue, LDJ réfère à une situation communicative qui manifeste une grande complicité entre les interlocuteurs. Une deuxième contribution (Heike Baldauf- Quilliatre, Sylvie Bruxelles, Sabine Diao-Klaeger, Emilie Jouin-Cardon, Sandra Teston- Bonnard et Véronique Traverso) traite de l’élément oh là là dans le Corpus de LAngue Parlée en Interaction (CLAPI). L’analyse du corpus montre que cette particule assume des fonctions évaluative et affective dans l’interaction. Mais, elle apparaît aussi comme élément autonome où elle sert à attirer l’attention de l’interlocuteur. Ce n’est que grâce à une analyse multimodale que le rôle de oh là là comme moyen de dramatisation devient très apparent. Une troisième étude (Kate Beeching) décrit les caractéristiques du marqueur discursif postposé quoi dans des corpus parallèles afin de vérifier si les différentes traductions sont susceptibles de dévoiler un changement sémantique diachronique. Trois corpus oraux (1968-2002) montrent d’abord que la fréquence de quoi postposé a nettement augmenté. Les corpus parallèles d’INTERSECT et d’OPUS à eux seuls ne sont pas en mesure de vérifier si cette hausse entraîne un enrichissement pragmatique. Cependant, ensemble avec une analyse historique et un inventaire de traductions équivalentes, on arrive à la conclusion que quoi postposé tend à perdre sa force emphatique d’interjection (fonction subjective) en faveur de sens plus larges (réflexif, interpersonnel et approximatif) à fonction intersubjective. Dans la quatrième contribution, Fabienne Baider et Evelyne Jacquey vont à la recherche de préjugés sexuels dans le discours socialiste de 2012 (Aubry versus Hollande). Une analyse du corpus journalistique montre la perception des deux candidats : les données soulignent le dynamisme d’Aubry et la faible personnalité de Hollande. Bien que ce soit Hollande qui l’emporte dans le second tour, il n’y a aucune indication dans les données qui aurait pu annoncer sa victoire. Aubry, comme Royal en 2007, sont estimées compétentes, mais, bien que le discours ne manifeste pas de stéréotypes sexuels, elles semblent exposées à une discrimination négative.

5 Les quatre chapitres de la dernière partie se concentrent sur l’application de corpus dans un contexte d’apprentissage. Dans l’introduction (Alex Boulton et Henry Tyne), les notions d’écologie et d’apprentissage sont mises en rapport. L’input ne devient intake qu’à condition qu’il y ait une relation pertinente entre l’apprenant et son environnement linguistique (affordance). Une manière de créer cette relation est en travaillant sur des corpus. Une première étude (Tom Cobb) décrit ce que l’implémentation de DDL (data-driven learning, approche inductive basée sur des données de corpus) en français requiert. L’avantage d’une telle approche est que l’apprenant s’aperçoit plus vite de certaines infos en L2 (p. ex. collocations fréquentes) lorsque les données sont explicitées par le logiciel. Lextutor est un exemple d’un outil qui s’inscrit dans la DDL permettant à l’apprenant d’entraîner sur corpus ses compétences et connaissances en L2. Cependant, le nombre d’outils français en DDL est encore très limité faute de corpus plus larges et d’une adaptation pédagogique. Une seconde étude (Elodie Vialleton et Tim Lewis) examine dans quelle mesure l’accroissement de nouveaux corpus oraux a influencé l’authenticité dans le matériel éducatif pour des débutants adultes. Cependant, il s’avère que la plupart des dialogues sont enregistrés en studio. De plus, il y a une nette différence entre les dialogues en interaction naturelle et ceux du manuel au niveau de l’hésitation, des tours de parole et de l’articulation. Les propriétés de la parole authentique ne se retrouvent pas (assez)

Corpus, 15 | 2016 247

dans les manuels. Par conséquent, les apprenants sont privés de la complexité de la parole authentique ainsi que de stratégies pour l’acquérir. Une troisième étude (Maud Dubois, Alain Kamber et Carine Skupien Dekens) présente une analyse de l’accord de l’adjectif en L2 (niveau B1). Le corpus comprend des textes narratifs, argumentatifs et des résumés rédigés par des locuteurs de six langues distinctes. Le nombre d’erreurs est différent d’après la L1 mais connaît une répartition homogène sur l‘ensemble des adjectifs attributifs et prédicatifs. L’accord est surtout problématique dans la position post-nominale de l’adjectif attributif et lorsqu’il s’agit d’un adjectif au pluriel. Beaucoup d’erreurs s’expliquent par une prononciation incorrecte. C’est pourquoi le lien représentation phonétique - code écrit est crucial et mérite plus d’attention en classe de langue.

6 Il est vrai que French through corpora plaît pour plus d’une raison. Primo, à cause de l’organisation générale du livre. L’ouvrage ne manque pas d’articles forts et prévoit chaque fois une introduction dans laquelle des représentants éminents du domaine de recherche en question proposent des réflexions courtes mais pertinentes et où ils établissent le lien entre le domaine et la méthodologie de corpus, ce qui rend le livre très accessible à des chercheurs d’autres disciplines. Secundo, de l’approche pronominale en syntaxe à l’analyse du discours (CDA, Critical Discourse Analysis), sa force se situe incontestablement dans la richesse des disciplines linguistiques et des cadres théoriques présentés. Compte tenu de cette diversité et du choix de publier en anglais le livre est susceptible d’intéresser un grand public. La publication en anglais est un signal international important et montre la progression dans le domaine de la linguistique de corpus en français. Bien que plusieurs projets soient en cours, on peut en effet (e.a. p. 134 et 287) regretter le retard d’un grand corpus de référence, équilibré au niveau du genre. Mais, comme cet ouvrage et des bases de données (cf. Clarin, UGent Corpus Finder) l’indiquent, pendant longtemps il n’a pas manqué de corpus, mais plutôt d’études entièrement basées sur corpus. C’est précisément au niveau méthodologique que nous aurions voulu que ce volume soit plus ambitieux. Le sous-titre annonce une approche inductive, qui est l’approche généralement liée à la linguistique de corpus (Tognini-Bonelli 2001 ; Teubert & Krishnamurthy 2007), impliquant un traitement quantitatif et statistique (Biber & Reppen 2015 : 50-51). Or, nous constatons qu’un tiers des articles n’est pas quantitatif, certaines études (Thuilier et al. et Beeching) sont déductives (corpus based) et seulement deux études (Thuilier et al. et Vialleton & Lewis) utilisent des techniques statistiques. Si l’on fait un effort pour analyser les fréquences des phénomènes qu’on étudie, on devrait aussi vérifier si les différences observées dans la fréquence sont également statistiquement significatives. Renoncer à une telle analyse n’est pas seulement une chance ratée, mais cela augmente aussi le risque de trouver une explication linguistique pour des résultats de corpus qui, en fait, sont dus au hasard. Est-ce que nous devons en conclure que les auteurs n’ont pas atteint leurs objectifs ? Non, si le contenu ne répond pas entièrement aux attentes créées par le sous-titre, les auteurs ne se limitent pas à souligner l’importance de l’utilisation de corpus. L’aspect innovateur de French through corpora consiste, d’une part, en une discussion sommaire mais critique de l’état de la question méthodologique dans plusieurs domaines de recherche. D’autre part, il contient plusieurs études de cas empiriques intéressants sur le plan descriptif, méthodologique et théorique. Ceci dit, ce travail se présente comme un véritable complément à des guides d’introduction à la linguistique de corpus. Nous le recommandons non seulement aux linguistes actifs dans une des disciplines discutées dans le livre, mais certainement aussi aux didacticiens.

Corpus, 15 | 2016 248

BIBLIOGRAPHIE

Biber D. & Reppen R. (2015). The Cambridge handbook of English corpus linguistics. Cambridge : Cambridge University Press.

Teubert W. & Krishnamurthy R. (éd.) (2007). Corpus Linguistics. Critical Concepts in Linguistics. Vol. 1. London : Routledge.

Tognini-Bonelli, E. (2001). Corpus Linguistics at Work. Amsterdam : John Benjamins.

AUTEUR

FILIP VERROENS Université de Gand

Corpus, 15 | 2016 249

Cécile ALDUY et Stéphane WAHNICH, Marine Le Pen prise aux mots. Décryptage du nouveau discours frontiste. Paris : Seuil, 2015, 311 p.

Camille Bouzereau

1 Marine Le Pen prise aux mots s’ouvre sur le « mot de trop » susceptible de représenter « l’abîme » séparant le discours de Jean-Marie Le Pen et celui de Marine Le Pen. Prenant comme postulat de départ qu’il y a une stratégie de dédiabolisation dans le discours de Marine Le Pen, Cécile Alduy1 et Stéphane Wahnich 2 se posent la question si cette stratégie change pour autant le contenu idéologique. La question ainsi posée sous-tend une réponse négative : L’abîme entre les deux discours est-il si grand ? Si le discours de Jean-Marie Le Pen n’est pas ambigu, celui de la seconde présidente du parti demande un décodage – et il s’agit bien de l’enjeu de l’ouvrage. Les deux auteurs proposent alors une étude lexicale comparative des discours des deux leaders successifs du Front national. Motivés par les scores nationaux croissants du parti ainsi que par le manque d’études concernant le discours de la présidente du parti3, ils se donnent pour double objectif de décrypter la logique interne du discours de Marine Le Pen, ainsi que celui de comprendre la réception de son discours dans la société française actuelle.

2 Cécile Alduy et Stéphane Wahnich ont fait comme premier choix de borner leur corpus à partir de l’élection de Marine Le Pen à la tête du parti (janvier 2011) jusqu’à novembre 2013. Concernant le discours de Jean-Marie Le Pen, les auteurs retiennent les dates 1987-2010. Leur second choix repose sur la nature des discours retenus : leur corpus est fondé sur « les interventions publiques, destinées à être diffusées […] au public » (p. 273). Enfin, en raison des multiples apparitions médiatiques de Marine Le Pen (plus de 2 000 fois entre janvier 2011 et janvier 2014), les auteurs ont fait comme dernier choix de ne retenir que les interventions « qui dépassaient 800 mots, ou environ cinq minutes de parole » (id.). C’est à travers un corpus de 500 textes que Cécile Alduy et Stéphane Wahnich se lancent donc dans une analyse comparative des discours des deux présidents du parti.

Corpus, 15 | 2016 250

3 Leur étude lexicale se fait au moyen d’outils statistiques et rhétoriques. La lexicométrie est une méthode assistée par ordinateur visant à prendre la mesure du discours en conjuguant quantitatif et qualitatif. En effet, les logiciels tels Termino, Hyperbase et Voyant-tools leur ont permis d’acquérir de solides bases statistiques (fréquences lexicales, concordances et réseaux sémantiques). C’est ensuite par le biais de la rhétorique, de la sémiotique et de la sociologie qu’ils choisissent d’analyser leurs résultats.

4 Dès lors, l’ouvrage se décompose en trois parties dont les deux premières visent à répondre à la question : que dit réellement Marine Le Pen ? La troisième partie cherche à comprendre les causes d’une aussi grande réception de ce discours.

5 Première partie – Les mots

6 La première partie fait l’œuvre d’une collaboration entre les deux auteurs. L’enjeu est d’analyser les mots que Marine Le Pen choisit pour mettre en discours le réel. Les résultats statistiques sont nombreux et révèlent une recherche précise et pertinente de la part des auteurs. Les analyses, quant à elles, confirment l’hypothèse de départ. Les enjeux du discours visent à normaliser la parole frontiste sans en perdre la radicalité ainsi qu’à faire du parti l’instrument puissant pour briser l’enfermement thématique. Marine Le Pen modernise en effet son discours en apportant un nouveau champ sémantique (par exemple il y a dans son discours une surexploitation du lexique économique par rapport au discours du père). L’analyse de Stéphane Wahnich sur la démocratisation souligne l’importance du sens donné aux mots : selon lui cette démocratisation est surtout « cosmétique » (p. 51). Néanmoins, si le discours tend vers la démocratisation, la locutrice du Front national n’en oublie pas pour autant la rhétorique de l’extrême droite traditionnelle, à l’œuvre dans les discours de Jean-Marie Le Pen. Et c’est ce que montre Stéphane Wahnich notamment par la répétition des termes « Français », « nation », « peuple » qui créent un discours nationaliste. On appréciera par ailleurs les comparaisons graphiques de Cécile Alduy concernant le double discours de Marine Le Pen qui « ne sert pas les mêmes propos aux militants des congrès et meetings du 1er mai et aux médias grand public » (p. 83). Dans une dernière sous-partie, Cécile Alduy décrypte derrière les mots, le sens effectif et derrière le sens, l’idéologie sous-jacente.

7 Deuxième partie – Mythologies

8 L’enjeu est ici de décrypter les signifiants profonds de ces discours, au niveau des mythes, des figures de style, et du système anthropologique. Cécile Alduy examine l’imaginaire lepéniste dans une perspective diachronique (puisqu’elle observe les continuités et les évolutions qu’il y a entre les discours des deux leaders politiques). Elle note que le mondialisme, formé à partir du suffixe « isme » est décrit comme « monstre idéologique » afin de se présenter comme la solution unique (p. 149). Par ailleurs, père et fille utilisent le « leitmotive d’avoir “prévu” tel ou tel aspect de la situation contemporaine » (p. 160). L’auteure s’attache également aux répétitions essentielles dans les discours des deux locuteurs qui permettent de « marteler […] les mêmes idées, les mêmes exemples, exprimés dans les mêmes formules, preuves de la cohérence et de la permanence d’une vision du monde imperméable aux événements » (p. 178). Elle note bien sûr la convocation de l’Histoire à l’œuvre dans les deux corpus et inscrit en parallèle les deux corpus dans un « corpus classique d’extrême droite » (p. 182) en ce qu’ils refusent le changement – on regrettera ici une comparaison précise avec un corpus d’extrême droite. Enfin, Cécile Alduy conclut sur le paradoxe du

Corpus, 15 | 2016 251

discours mariniste : d’une part, Marine Le Pen manie « une novlangue technocratique pour des discussions de politique économique parfois absconses » (p. 184) et d’autre part, elle se nourrit « d’un récit mythologique et hyperbolique dans la lignée de celui de son père » (id.).

9 Troisième partie – Les conditions d’une réception favorable

10 Dans cette dernière partie, Stéphane Wahnich essaye de comprendre les motivations des électeurs votant Front national. Selon lui, Marine Le Pen a récupéré l’électorat de son père, puis l’a fait évoluer et prospérer (p. 187). Refusant un lien de causalité trop simpliste entre la situation socio-économique et la montée du Front national (p. 188), il préfère expliquer cette progression par les cinq causes suivantes : la logique géographique (soit par l’opposition des centres-villes aux périphéries urbaines et par la logique régionale qui montre une « réaction préventive des électeurs à l’égard de ce que les médias leur rapportent » (p. 194)), l’impuissance des politiques d’autres partis (impossibilité de formuler un discours d’explication, nombreux dérapages), le changement sociétal amené par la mondialisation, l’accueil des médias (le Front national offre une « garantie d’une belle audience » (p. 228)), et enfin la force de l’idéologie du discours de Marine Le Pen qui propose un schéma explicatif du monde.

11 Conclusion – Le double discours de Marine Le Pen

12 En conclusion, Cécile Alduy récapitule et répond de façon nuancée à l’interrogation de départ « Que dit Marine Le Pen ? ». La locutrice du Front national dit la même chose que Jean-Marie Le Pen « mais souvent autrement […] car elle ajoute de nouvelles thématiques » (p. 245). Néanmoins, elle s’éloigne de ce qu’il dit « car elle passe sous silence certaines obsessions paternelles (l’antisémitisme, le racisme biologique) » (id.). Par ailleurs, à la question concernant la réception du discours de Marine Le Pen, l’auteure répond que la locutrice conjugue « mots » et « maux » (p. 256) pour donner une forme aux peurs des citoyens. L’ouvrage se termine par une demande adressée aux autres partis politiques reposant sur la nécessité d’une redéfinition de certains concepts (p. 271).

13 Les recherches statistiques, nombreuses et pertinentes, permettent de répondre quasiment entièrement aux questions posées. Néanmoins, les analyses auraient gagné à être étoffées par une argumentation plus détaillée. Les auteurs le disent eux-mêmes, l’ouvrage a été réalisé à partir d’une situation d’urgence (p. 23). Ils pourraient ainsi développer leur première partie, en ne s’attachant pas uniquement au lexique, mais en étudiant par exemple les stratégies discursives en général. Cet ouvrage destiné à un large public provoquera, toutefois, l’envie de poursuivre leur démarche. L’analyse du discours pourra en effet prendre exemple pour étudier les faits de langue caractéristiques du discours du Front national.

NOTES

1. Professeure de littérature française à l’Université de Stanford. 2. Professeur-associé de communication politique et publique à l’Université de Paris-Est-Créteil.

Corpus, 15 | 2016 252

3. Il y a en revanche un ouvrage sur le discours de Jean-Marie Le Pen : Le Pen, les mots, analyse d’un discours d’extrême droite, M. Souchard, S. Wahnich, I. Cuminal et V. Wathier (éd.), Paris, Le Monde Éditions, 1997.

AUTEUR

CAMILLE BOUZEREAU BCL, UMR 7320

Corpus, 15 | 2016