Linguistic and Phonetic Investigations of French-Algerian Arabic Code-Switching: Large Corpus Studies Using Automatic Speech Processing

Linguistic and Phonetic Investigations of French-Algerian Arabic Code-Switching: Large Corpus Studies Using Automatic Speech Processing

UNIVERSITÉ SORBONNE PARIS CITÉ UNIVERSITÉ SORBONNE NOUVELLE -PARIS 3 École doctorale 268 - Langage et langues: description, théorisation, transmission LABORATOIRE DE PHONÉTIQUE ET PHONOLOGIE Thèse de doctorat en Sciences du Langague DJEGDJIGA AMAZOUZ Linguistic and phonetic investigations of French-Algerian Arabic code-switching: Large corpus studies using automatic speech processing Sous la direction de Martine ADDA-DECKER et Lori LAMEL Soutenue le /03/12/2019 Comité de jury: RUDOLPH SOCK PR. (LILPA/IPS, Université de Strasbourg, France) Rapporteur KAMEL SMAILI PR. (LORIA, Université de Nancy, France) Rapporteur BARBARA E. BULLOCK PR. (University of Texas at Austin, United States) Examinatrice RACHID RIDOUANE DR (LPP,UMR7018,CNRS Sorbonne Nouvelle, France) Examinateur MARTINE ADDA-DECKER DR (LPP,UMR7018,CNRS Sorbonne Nouvelle, France) Dir de thèse LORI LAMEL DR (LIMSI-CNRS Orsay, France) Co-encadrante This PhD thesis was prepared in Laboratoire de Phonétique et Phonologie CNRS, UMR7018, Sorbonne Nouvelle University and LIMSI-CNRS, Paris-Saclay University Under the project ANR-SALSA Abstract This thesis investigated French-Algerian Arabic code-switching using automatic speech pro- cessing tools. A corpus of 7h30 of code-switched speech from 20 French-Algerian Arabic speakers (5h of spontaneous speech and 2h30 of read speech) has been designed, recorded and annotated. One of the first challenges tackled consisted of developing data processing methods such as language segmentation, code-switching utterance segmentation as well as transcription in French and Algerian Arabic dialect. Automatic speech alignment methods were adapted to process the code-switched data by combining two monolingual alignment systems thus producing time-stamped orthographic and phonemic transcriptions in both lan- guages. An experiment was conducted to automatically detect language switches, however this remains a challenge especially for small speech stretches. A second aspect of this the- sis’ research studied the influence of the phonological system of language a on the second language b in code-switched speech, in this case the phonetic productions of French and Algerian Arabic. The annotated corpus was used to carry out phonetic studies on vowel and consonant variation using an automatic ABX-like phone discrimination paradigm. With this paradigm, our results on variation in code-switched speech vowel productions are in line with a priori hypotheses: considering the peripheral /i,a,u/ vowels, higher variant rates are measured in Algerian Arabic (40%) than in French (27%). A comparison with native French control speakers suggests that the bilingual speakers have more conservative vowel productions than natives (34%), at least in code-switched speech. Three types of consonant variation were also explored: gemination, emphatization and voicing alternation. Overall, consonants show similar trends to vowels: 42% variant rates for Algerian Arabic, 30% for French in code-switched speech, compared with 38% for French natives. Future studies using this innovative corpus will contribute to disentangle the complex interplay between phonetic variation and phonological systems in bilingual code-switching speakers. iii Résumé Cette thèse traite du code-switching français-arabe algérien à l’aide d’outils de traitement automatique de la parole. Un corpus de 7h30 de parole de 20 locuteurs bilingues (5h de parole spontanée et 2h30 de parole lue) a été conçu, enregistré et annoté. L’un des premiers défis abordés a consisté à développer des méthodes de traitement des données telles que la segmentation en langues, la transcription du français et de l’arabe algérien. Les méth- odes d’alignement automatique de la parole ont été adaptées pour traiter les données du code-switching en combinant deux systèmes d’alignement monolingues, produisant ainsi des transcriptions orthographiques et phonémiques avec des localisations temporelles dans les deux langues. Une expérience a été menée pour détecter automatiquement les change- ments de langue, mais cela reste un défi, en particulier pour les durées monolingues très courtes. Le second aspect de la recherche de cette thèse porte sur l’influence du système phonologique de la langue a sur la deuxième langue b dans la parole du code-switching, en l’occurrence les productions phonétiques de l’arabe et du français. Le corpus annoté a été utilisé pour effectuer des études phonétiques sur la variation des voyelles et des consonnes en utilisant un paradigme de discrimination automatique de type ABX. Avec ce paradigme, nos résultats sur la variation de la production correspondent aux hypothèses a priori: con- sidérant les voyelles périphériques /i,a,u/, des taux de variantes plus élevés sont mesurés en arabe algérien (40%) qu’en français (27%). Une comparaison avec des locuteurs de langue maternelle française suggère que les locuteurs bilingues ont des productions de voyelles plus conservatrices que les locuteurs natifs (34%), du moins dans le code-switching. Trois études sur la variation des consonnes ont également été menées: la gemination, l’emphatisation. Globalement, les consonnes présentent des tendances similaires à celles des voyelles : 42% de taux de variantes pour l’arabe algérien et 30% pour le français en code-switching, con- tre 38% pour les natifs français. De futures études utilisant ce corpus novateur pourront contribuer à démêler l’interaction complexe entre la variation phonétique et les systèmes phonologiques chez les bilingues dans le code-switching. iv Remerciements Il m’est très difficile de remercier toutes les personnes qui ont contribué à l’aboutissement de cette thèse. Je voudrais tout d’abord adresser de grands remerciements à ma directrice de thèse Mar- tine ADDA-DECKER, pour toute son aide, son encadrement et le savoir qu’elle m’a trans- mis, je voudrais également adresser de grands remerciements à ma co-encadrante de thèse Lori LAMEL qui grâce à son aide, a permis à ce travail de thèse de voir le jour. Je suis en- chantée d’avoir travaillé en leur compagnie, car outre leurs disponibiliés durant ces années de thèse et l’appui scientifique dont j’ai bénéficié, elles ont toujours été là pour me soutenir, me conseiller et m’encourager au cours de l’élaboration de cette thèse. Je les remercie égale- ment de m’avoir transmis leur passion pour le traitement automatique de la parole. J’adresse toute ma gratitude au projet ANR SALSA, au LPP-CNRS de l’université de Paris III et au LIMSI-CNRS de l’université Paris-Saclay pour le financement de recherche qu’ils m’ont attribué, et qui m’a permis de construire les données de thèse, de participer aux manifestations scientifiques et d’effectuer ma recherche dans de bonnes conditions. Je voudrais remercier le professeur Rudolph Sock de LILPA/IPS de l’université de Stras- bourg et le professeur Kamel SMAILI du LORIA de l’université de Nancy, d’avoir accepté d’être rapporteurs de ma thèse et pour le temps consacré à ce travail. Je remercie aussi la professeure Barbara BULLOCK de l’université d’Austin et le directeur de recherche Rachid RIDOUANE pour avoir accepté de participer à mon jury de thèse. J’aimerais ensuite remercier les membres du LPP, du LIMSI et de Vocapia Research, doctorants et chercheurs, pour leur accueil chaleureux, leur aide précieuse, leur bons con- seils et surtout pour leurs remarques très constructives à l’égard de mes travaux de thèse, en particulier Nicolas AUDIBERT, Annie RIALLAND, Jaqueline VAISSIÈRE,Pierre HALLÉ, Rachid RIDOUANE du LPP, Jean-Luc GAUVAIN et Claude BARRAS du LIMSI et Ab- v delkhalek MESSAOUDI de Vocapia Reaserch. Mes derniers remerciements vont à Yanis MOHDEB, mon mari, pour son soutien moral quotidien, ses encouragements, mais aussi pour son aide dans la réalisation de ce travail grâce à ses relectures et son travail de traduction. Pour finir, j’aimerais remercier mes parents et toute ma famille et ma belle-famille pour leur grand soutien moral. vi Contents List of Figures xv List of Tables xxi List of abbreviations xxv Introduction1 I Theoretical review5 1 Bilingual speech and code-switching7 1.1 Bilinguals, two languages, one speech.................... 10 1.1.1 Bilingual speakers.......................... 10 1.1.2 Bilingual and monolingual speech.................. 10 1.2 Code-switching, a language contact phenomenon.............. 11 1.2.1 Historical review and definitions................... 11 1.2.2 Recent studies about code-switching................. 13 1.2.3 Code-switching and borrowing.................... 14 1.3 Code-switching in conversation........................ 15 1.3.1 The motivations of code-switching practices............. 15 1.3.1.1 Individual factors..................... 16 1.3.1.2 Code-switching as a collective "social trend"....... 16 1.3.1.3 Situational code-switching................ 16 vii CONTENTS 1.3.2 How code-switching is triggered in speech?............. 17 1.4 Code-switching and phonetics........................ 18 1.4.1 Two phonological systems in one speech.............. 19 1.4.2 Past acoustic works.......................... 19 1.4.3 Phonetic speech variation in CS................... 20 1.5 Automatic Code-switching processing.................... 21 1.5.1 Automatic speech recognition.................... 22 1.5.2 Code-switching forced alignment.................. 23 1.6 Code-switching corpora............................ 24 1.6.1 Code-switching speech corpora................... 25 1.6.2 French-Algerian Arabic code-switching corpora........... 27 2 French-Algerian Arabic code-switching 29 2.1 Two languages in contact..........................

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    251 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us