Decoding Perceptual Vowel Epenthesis: Experiments & Modelling
Total Page:16
File Type:pdf, Size:1020Kb
Decoding perceptual vowel epenthesis : experiments & modelling Adriana Guevara Rukoz To cite this version: Adriana Guevara Rukoz. Decoding perceptual vowel epenthesis : experiments & modelling. Cognitive Sciences. Université Paris sciences et lettres, 2018. English. NNT : 2018PSLEE069. tel-03288523 HAL Id: tel-03288523 https://tel.archives-ouvertes.fr/tel-03288523 Submitted on 16 Jul 2021 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THESE` DE DOCTORAT de l’Universite´ de recherche Paris Sciences et Lettres PSL Research University Prepar´ ee´ a` l’Ecole´ Normale Superieure´ Decodage´ de l’epenth´ ese` vocalique perceptive: Experiences´ & Modelisation´ Decoding perceptual vowel epenthesis: Experiments & Modelling Ecole´ doctorale no158 ECOLE´ DOCTORALE CERVEAU-COGNITION-COMPORTEMENT (ED3C) Specialit´ e´ SCIENCES COGNITIVES COMPOSITION DU JURY : M Christophe PALLIER INSERM-CEA Cognitive Neuroimaging Unit, President´ du jury M Laurent BESACIER Universite´ Grenoble Alpes, Rapporteur Mme Sophie DUFOUR Soutenue par Aix-Marseille Universite,´ Adriana GUEVARA RUKOZ Rapporteur le 19 Octobre 2018 M Paul IVERSON University College London, Examinateur Dirigee´ par Emmanuel DUPOUX & Sharon PEPERKAMP M Emmanuel DUPOUX Ecole´ Normale Superieure,´ Directeur Mme Sharon PEPERKAMP Ecole´ Normale Superieure,´ Co-Directrice Abstract Why do people of different linguistic background sometimes perceive the same acous- tic signal differently? For instance, when hearing nonnative speech that does not conform to sound structures allowed in their native language, listeners may report hearing vowels that are not acoustically present. This phenomenon, known as per- ceptual vowel epenthesis, has been attested in various languages such as Japanese, Brazilian Portuguese, Korean, and English. The quality of the epenthesized vowel varies between languages, but also within languages, given certain phonemic envi- ronments. How much of this process is guided by information directly accessible in the acoustic signal? What is the contribution of the native phonology? How are these two elements combined when computing the native percept? Two main families of theories have been proposed as explanations: two-step and one-step the- ories. The former advocate an initial parsing of the phonetic categories, followed by repairs by an abstract grammar (e.g., epenthesis), while one-step proposals posit that all acoustic, phonetic, and phonological factors are integrated simultaneously in a probabilistic manner, in order to find the optimal percept. In this dissertation, we use a combination of experimental and modelling ap- proaches in order to evaluate whether perceptual vowel epenthesis is a two-step or one-step process. In particular, we investigate this by assessing the role of acoustic details in modulations of epenthetic vowel quality. In a first part, results from two behavioural experiments show that these mod- ulations are influenced by acoustic cues as well as phonology; however, the former explain most of the variation in epenthetic vowel responses. Additionally, we present a one-step exemplar-based model of perception that is able to reproduce coarticula- tion effects observed in human data. These results constitute evidence for one-step models of nonnative speech perception. In a second part, we present an implementation of the one-step proposal in [Wil- son and Davidson, 2013], using HMM-GMM (hidden Markov models with Gaus- sian mixture models) from the field of automatic speech recognition. These models present two separate components determining the acoustic and phonotactic matches between speech and possible transcriptions. We can thus tweak them independently in order to evaluate the relative influence of acoustic/phonetic and phonological fac- tors in perceptual vowel epenthesis. We propose a novel way to simulate with these models the forced choice paradigm used to probe vowel epenthesis in human partic- ipants, using constrained language models during the speech decoding process. In a first set of studies, we use this method to test whether various ASR systems with n- gram phonotactics as their language model better approximate human results than an ASR system with a null (i.e., no phonotactics) language model. Surprisingly, we find that this null model was the best predictor of human performance. In a sec- 1 ond set of studies, we evaluate whether effects traditionally attributed to phonology may be predictable solely from acoustic match. We find that, while promising, our models are only able to partially reproduce some effects observed in results from human experiments. Before attributing the source of these effects to phonology, it is necessary to test ASR systems with more performant acoustic models. We discuss future avenues for using enhanced models, and highlight the advantages of using a hybrid approach with behavioural experiments and computational modelling in order to elucidate the mechanisms underlying nonnative speech perception. 2 R´esum´e Pourquoi des personnes ayant grandi dans des milieux linguistiques diff´erents ne per¸coivent-elles pas toujours un m^emesignal acoustique de la m^ememani`ere?Par exemple, il arrive que des auditeurs rapportent avoir entendu des voyelles qui n'´etaient pas pr´esentes dans l'acoustique de mots non-natifs, lorsque ceux-ci ne se conforment pas aux structures sonores permises dans leur langue. Ce ph´enom`ene,connu sous le nom d'´epenth`esevocalique perceptive, a ´et´eobserv´eedans plusieurs langues telles que le japonais, le portuguais br´esilien,le cor´een,et l'anglais. L'identit´ede la voyelle ´epenth´etiquevarie en fonction des langues, mais aussi parmi les langues elles-m^emes, en fonction des environnements phon´emiques.A quel point ce processus est-il dirig´e par des informations directement accessibles dans le signal acoustique ? Quelle est la part de contribution de la phonologie native ? Comment sont combin´esces deux ´el´ements lors du calcul de ce qui est per¸cupar l'auditeur ? Deux familles prin- cipales de th´eoriesont ´et´epropos´eesen tant qu'explications : les th´eories `adeux ´etapes, et les th´eories`aune ´etape. Les premi`eresproposent une analyse initiale des cat´egoriesphon´etiques,suivie de r´eparationsfaites par une grammaire abstraite (e.g., cas d'´epenth`ese).De leur c^ot´e,les th´eories`aune ´etape proposent que tous les facteurs acoustiques, phon´etiques,et phonologiques sont int´egr´essimultan´ement de mani`ereprobabiliste lors du calcul du percept optimal. Dans cette th`ese,nous combinons des approches exp´erimentales et de mod´elisation, afin d'´evaluer si l'´epenth`esevocalique perceptive est un processus `aune ou deux ´etapes. En particulier, nous examinons ceci en mesurant le r^oledes d´etailsacous- tiques dans les modulations de l'identit´ede la voyelle ´epenth´etique. Dans un premier temps, des r´esultatsd'exp´eriencescomportementales nous mon- trent que ces modulations sont influenc´eesaussi bien par les d´etailsacoustiques que par des processus phonologiques. Cependant, la plupart de la variation de l'identit´e de la voyelle ´epenth´etiqueest expliqu´eepar l'acoustique. De plus, nous pr´esentons un mod`elede perception `aune ´etape qui utilise des exemplaires; celui-ci est capa- ble de reproduire les effets de la coarticulation qui ont ´et´erelev´esdans les donn´ees exp´erimentales. Ces r´esultatsconstituent de l'´evidenceen faveur des mod`elesde perception ´etrang`ere`aune ´etape. Dans un deuxi`emetemps, nous pr´esentons une impl´ementation du mod`ele`aune ´etape propos´epar [Wilson and Davidson, 2013], en utilisant des mod`elesHMM- GMM (automates de Markov `a´etatscach´esen m´elangesgaussiens), issus du milieu de la reconnaissance automatique de la parole (RAP). Ces mod`elesse composent d'un mod`eleacoustique et d'un mod`ele de langage, qui d´eterminent la correspon- dence acoustique et phonotactique entre la parole et des transcriptions possibles, re- spectivement. Il nous est alors possible de les ajuster ind´ependamment afin d'´evaluer leur influence relative dans l'´epenth`esevocalique perceptuelle. Nous proposons une 3 nouvelle mani`ered'utiliser ces mod`elespour simuler des paradigmes de choix forc´es utilis´espour ´etudierl'´epenth`esevocalique chez des participants humains, en utilisant des mod`elesde language contraints lors du processus de d´ecodage de la parole. Dans un premier ensemble d'´etudes, nous utilisons cette nouvelle m´ethode afin de tester si des syst`emesde RAP avec des mod`elesde langage `aphonotactique `a n-grammes donnent des r´esultatsplus proches des r´esultatshumains qu'un syst`eme de RAP avec un mod`elede langage nul (i.e., sans phonotactique). De mani`ere ´etonnante, les r´esultatsmontrent que le syst`eme`amod`elede langage nul pr´editle mieux la performance des participants. Dans un deuxi`emeensemble d'´etudes,nous ´evaluons si certains effets traditionnellement attribu´es`ades processus phonologiques peuvent ^etreexpliqu´esqu’`apartir de la correspondance acoustique. Bien que les r´esultatssoient prometteurs, nos mod`elesne sont capables de reproduire qu'une sous-partie