École des Hautes Études en Sciences Sociales École doctorale de l’EHESS Centre d’Analyse et de Mathématique sociales Thèse de doctorat Discipline : Sciences cognitives (option Neurosciences computationnelles) FRANÇOIS DELOCHE Codage efficace de la parole à court t e r m e S h o r t t i m e - scale efficient coding of speech Thèse dirigée par: Jean-Pierre Nadal Date de soutenance : 22 octobre 2019 Rapporteurs 1 Frédéric BIMBOT, IRISA Rennes 2 Bruno TORRÉSANI, Université Aix-Marseille Examinateurs 3 Gilles CHARDON, CentraleSupélec 4 Judit GERVAIN, Université Paris-Descartes 5 Shihab SHAMMA, ENS Paris Remerciements J’adresse en premier lieu mes plus sincères remerciements à mon directeur de thèse, Jean-Pierre Nadal. Il m’a orienté, dès le début de mon stage de master M2 (Mathématiques, Vision, Apprentissage), sur ce sujet qui m’a passionné pendant ces 3 ans ½– et continue de me passionner ! – je lui en suis grandement reconnaissant. Je le remercie pour s’être toujours rendu disponible afin de répondre à mes interrogations et pour toute l’aide qu’il m’a apporté durant ces années. J’ai beaucoup apprécié la liberté qu’il m’a accordée dans le choix des directions de recherche, sans laquelle la thèse aurait pu prendre un tout autre chemin. Il a toujours accueilli mes diverses idées et propositions avec intérêt et bienveillance, tout en s’assurant que je sois bien encadré. Je veux associer à ces remerciements Laurent Bonnasse-Gahot, qui, bien que son nom ne figure pas sur la couverture de cette thèse, a été pour moi comme un second encadrant. Je le remercie chaleureusement pour ses précieux conseils. Les nombreuses discussions, que j’ai eu le plaisir d’avoir avec lui, ont fortement contribué au bon déroulement de la thèse et m’ont personnellement beaucoup apporté. Je tiens à remercier également les membres du projet ANR SpeechCode : merci à Judit Gervain, pour m’avoir indirectement amené à travailler sur ce sujet captivant, pour avoir accepté de faire partie du jury de thèse et pour l’aide qu’elle m’a apportée à plusieurs reprises, avec Ramon Guevarra Erra. Merci à Christian Lorenzi pour son soutien et ses conseils d’une grande valeur ; j’ai été enthousiasmé par les discussions passionnantes autour de l’audition que j’ai eu avec lui. Je remercie vivement Bruno Torrésani et Frédéric Bimbot d’avoir accepté d’être rappor- teurs pour cette thèse, ainsi que Shihab Shamma et Gilles Chardon de me faire l’honneur de faire partie du jury. J’adresse des remerciements plus larges à tous les chercheurs avec qui j’ai été amené à interagir ces trois années. Je souhaite citer ici Monika Dörfler, que j’ai rencontré à l’école d’été de Peyresq (2018), qui a fait le lien entre mon travail et les ondelettes de Gabor flexibles, et qui m’a ainsi initié à toute une bibliographie dont je n’avais pas beaucoup conscience. Merci enfin à Gabriel Peyré et Emmanuel Dupoux pour avoir fait partie du comité de suivi de thèse. J’ai eu la chance d’être accueilli au Centre d’Analyse et de Mathématique sociales (CAMS), à l’EHESS, qui a été pour moi un lieu idéal afin de mener à terme cette thèse. Ces très bonnes conditions ont été rendues possibles par la présence et le travail des membres du CAMS, en particulier Sandrine Nadal, Nathalie Brusseaux, Thomas Tailpied et Francesca Aceto. Je salue amicalement tous les étudiants et post-docs que j’ai côtoyé au CAMS (ou à l’ENS), et qui ont considérablement amoindri l’âpreté de la thèse par les moments passés avec eux (par ordre approximatif d’apparition) : Kévin B., Quentin F., Romain D., Samuel N., Alessandro Z., Andrea T., Elisa A., Benedetta F., Antoine P., Noemi M., José M., Charles L., Beniada S., Gabrielle N., Federico B., Julien B., Imke M., Nicolas (Songshen) Y. A titre plus personnel, je remercie famille & amis de longue date, à commencer par mes parents, pour leur soutien depuis nombreuses années. C’est en pensant à ce long-time scale que je souhaite rendre hommage aux professeurs qui m’ont fait découvrir et apprendre tant de choses durant mes études, et inspiré cet intérêt pour les sciences, la thèse marquant la fin d’un long processus de formation qui ne fait pas en vérité que trois ans ! Merci à mes colocs (Lawrence & Dhafer) qui m’ont supporté quotidiennement. Enfin, je ne pourrais pas terminer cette section de remerciements sans faire mention des soutiens IVL (Loup, Constance & tous les autres :pandayay: :love:). – ii – Résumé Résumé Des analyses de données ont montré que la sélectivité fréquentielle de la cochlée est adaptée à la structure statistique de la parole. Ce résultat est conforme à l’hypothèse du codage efficace selon laquelle le traitement sensoriel code de manière optimale pour les stimuli naturels. Cependant, le signal de la parole possède une structure riche, même sur des petites échelles de temps, du fait de la diversité des facteurs acoustiques à l’origine de la génération de la parole. Cette complexité de structure motive l’idée qu’une représentation non linéaire de la parole pourrait aboutir à un schéma de codage plus efficace que le modèle linéaire. La première étape dans la recherche de stratégies efficaces est de décrire la structure statistique de la parole à un niveau fin. Dans cette thèse, j’explore la structure statistique au niveau phonétique à l’aide d’une méthode paramétrique. On cherche la décomposition du signal la plus parcimonieuse parmi une famille de dictionnaires de filtres de Gabor dont la sélectivité fréquentielle suit différentes lois de puissance dans la gamme des hautes fréquences 1-8kHz. L’utilisation de ces dictionnaires comme représentations temps-fréquence parcimonieuses est justifiée mathématiquement et empiriquement. Un lien formel avec les travaux précédents, fondés sur l’Analyse en Composantes indépendantes (ACI), est présenté. Les lois de puissance des représentations parcimonieuses offrent une interprétation riche de la structure statistique de la parole, et peut être relié à des facteurs acoustiques clés déduits de l’analyse de données réelles et synthétiques. Les résultats montrent en outre qu’une stratégie de codage efficace, reflétant le comportement non linéaire de la cochlée, consiste à réduire la sélectivité fréquentielle avec le niveau d’intensité sonore. Mots clé : Hypothèse du codage efficace, Codage parcimonieux, dictionnaires de Gabor, phonétique acoustique, codage auditif, statistiques de la parole, analyse temps-fréquence, Analyse en Composantes Indépendantes. – iii – Abstract Cochlear frequency selectivity is known to reflect the overall statistical structure of speech, in line with the hypothesis that low-level sensory processing provides efficient codes for information contained in natural stimuli. Speech signals, however, possess a complex structure, even on short-time scales, as a result of the diversity of acoustic factors involved in the generation of speech. This rich structure means that advanced coding schemes based on a nonlinear representation of speech sounds could provide more efficient codes. The first step in finding efficient strategies is to describe the statistical structure of speech at a fine level — at the level of phonemes or even finer at the level of acoustic events. In this thesis, I use a parametric approach to explore the fine-grained statistical structure of speech. The goal of this method is to find the sparsest representation of speech sounds among a family of dictionaries of Gabor filters whose frequency selectivity follows different power laws in the high frequency range 1-8kHz. I motivate the use of Gabor filters for the search of sparse time-frequency representations of speech signals, and I show that the dictionary method has a formal link with previous work based on Independent Component Analysis (ICA). The acoustic factors that affect the power law associated with the sparsest decomposition can be inferred from the analyses of synthetic and real data. The results suggest that an efficient speech coding strategy is to reduce frequency selectivity with sound intensity level, reflecting the nonlinear behavior of the cochlea. Keywords : Independent Component Analysis, efficient coding hypothesis, sparse coding, Gabor dictionaries, acoustic phonetics, auditory coding, speech statistics, time-frequency analysis. – iv – Table des matières Table of contents Codage efficace de la parole à court terme 2 Introduction 2 Contexte : le projet SpeechCode ............................ 2 Approche . 4 Neurosciences computationnelles . 4 Interdisciplinarité . 7 Bases théoriques . 10 Hypothèse du codage efficace . 10 La notion de structure statistique . 12 Analyse temps-fréquence . 15 Travaux antérieurs . 18 Objectifs et structure de la thèse . 21 1 Hypothèse du codage efficace 24 1.1 Critères d’efficacité . 24 1.2 Algorithmes et méthodes associées . 30 1.3 Analyse temps-fréquence et décompositions parcimonieuses . 33 1.4 Limites . 33 2 Structure statistique de la parole 36 2.1 Méthodes . 36 2.2 Résultats . 39 2.2.1 Données synthétiques . 39 2.2.2 Données réelles . 42 3 Représentations non linéaires et parcimonieuses de la parole 45 3.1 Filtres dépendant du niveau d’intensité . 45 3.2 Limites du modèle et recherches futures . 48 Short-time scale efficient coding of speech 51 Introduction 51 Context : the SpeechCode project . 51 Approach of this work . 53 Computational neuroscience . 53 Interdisciplinarity . 56 Theoretical background . 59 – v – The efficient coding hypothesis . 59 The notion of statistical structure . 60 Time-frequency analysis . 64 Previous work . 67 Objectives and structure of the thesis . 69 1 The efficient coding hypothesis 72 1.1 Coding efficiency . 72 1.1.1 Redundancy reduction . 74 1.1.2 Information maximization . 75 1.1.3 Minimum entropy codes . 76 1.2 Algorithms and methods related . 81 1.2.1 Independent Component Analysis . 81 1.2.2 Sparse coding methods . 83 1.2.3 Dealing with overcompleteness . 85 1.3 Evidence and limits .
Details
-
File Typepdf
-
Upload Time-
-
Content LanguagesEnglish
-
Upload UserAnonymous/Not logged-in
-
File Pages187 Page
-
File Size-