Study of Unit Selection Text-To-Speech Synthesis Algorithms David Guennec
Total Page:16
File Type:pdf, Size:1020Kb
Study of unit selection text-to-speech synthesis algorithms David Guennec To cite this version: David Guennec. Study of unit selection text-to-speech synthesis algorithms. Data Structures and Algorithms [cs.DS]. Université Rennes 1, 2016. English. NNT : 2016REN1S055. tel-01439413 HAL Id: tel-01439413 https://tel.archives-ouvertes.fr/tel-01439413 Submitted on 18 Jan 2017 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. ANNÉE 2016 THÈSE / UNIVERSITÉ DE RENNES 1 sous le sceau de l’Université Bretagne Loire pour le grade de DOCTEUR DE L’UNIVERSITÉ DE RENNES 1 Mention : Informatique École doctorale Matisse présentée par David Guennec préparée à l’unité de recherche IRISA UMR6074 Institut de Recherche en Informatique et Systèmes Aléatoires École Nationale Supérieure des Sciences Appliquées et de Technologie Thèse soutenue à Lannion Étude des algorithmes le 22 septembre 2016 de sélection d’unités devant le jury composé de : Nick Campbell pour la synthèse de Professeur, Trinity College Dublin / rapporteur Ingmar Steiner Senior researcher, Université de Saarland / rappor- la parole à partir du teur Yves Laprie texte Directeur de recherche, CNRS, LORIA/examinateur Élisabeth Delais-Roussarie Directrice de recherche, CNRS, LLF / examinatrice Philip N. Garner Senior researcher, Idiap Research Institute / exami- nateur Damien Lolive Maître de conférences, Université de Rennes 1 / Di- recteur de thèse “No one regards what is before his feet; we all gaze at the stars.” Quintus Ennius (239–169 BC) Acknowledgements i Résumé en français Le présent résumé est une version condensée en français de l’ensemble des considérations, hypothèses et expérimentations, agrémentées de leurs résultats, présentés en langue anglaise dans cette thèse. Dans ce résumé, un soin partic- ulier a été apporté au respect du même ordre de présentation des idées apportées dans la thèse en anglais et dans le présent résumé, de sorte que chaque chapitre du premier correspond à une section du dernier. Par exemple, la section II du présent résumé décrit le contenu du chapitre 2 dans la partie en langue anglaise. Introduction Les travaux de thèse présentés dans ce documents portent sur le sujet qu’est la synthèse de la parole à partir du texte, lequel peut être décrit comme un objet d’étude pluridisciplinaire [Boë 1990; Boeffard 2004]. En effet, l’étude de la parole humaine fait autant appel aux considérations anatomiques, et donc issues de la médecine, pour décrire l’appareil vocal humain qu’à la physique pour comprendre la mécanique des flux d’air (l’acoustique) interagissant au sein de ce dernier. En outre, parce que la parole est le vecteur d’un message doté de sens, l’étude de ce dernier, la linguistique, y prend également une place prépondérante. La synthèse de la parole fait appel à l’ensemble de ces sciences, auxquelles il faut ajouter l’informatique. Avec l’émergence de l’informatique, les « machines parlantes » sont sorties des salles où elles étaient entreposées et où elles étaient souvent commandées à la main pour se retrouver au coeur de calculateurs aux capacités de traitement et de stockage en constante évolution. En effet, la syn- thèse de la parole visant la production d’un outil capable de produire un signal de parole sans intervention humaine directe, cet outil doit être doté d’un degré minimal d’automatisation. Comme dans de nombreux domaines, la majorité des systèmes de synthèse de la parole actuels ne tentent pas de reproduire le fonctionnement naturel de la bouche, du larynx et des poumons. Des systèmes relevant de cet ordre existent bel et bien (il s’agit de la synthèse dite articu- latoire), mais leur intérêt reste académique : ils visent à toujours mieux mod- éliser l’appareil vocal humain afin de le comprendre, de la même manière que les modèles de systèmes planétaires ou galactiques en physique visent à valider des théories par l’expérimentation. Lorsque la qualité de la parole synthétique est un objectif, les systèmes actuels visent plutôt, soit à reproduire la parole via des connaissances expertes sur la composition du signal vocal une fois produit, soit à utiliser ces connaissances expertes pour sélectionner les meilleures por- tions d’un corpus de parole pré-enregistré reproduisant le message à produire puis les joindre. Les travaux présentés dans cette thèse s’inscrivent dans le cadre de la sec- onde solution, nommée synthèse par sélection d’unités ou encore Synthèse Par Corpus (SPC). Les contributions présentées peuvent être réparties en deux par- ties. Tout d’abord (section VI), une analyse approfondie et un diagnostic de l’algorithme de sélection d’unités, lequel recherche dans le treillis des portions de corpus (nommées unités) utilisées, sont présentés. L’importance de l’optimalité iii de la solution est discutée et une nouvelle mise en oeuvre de la sélection basée sur un algorithme A∗ est proposée. La deuxième partie des contributions, elle- même subdivisée en trois portions, traite d’améliorations apportées à la fonction de coût permettant à l’algorithme de sélection de trier les séquences d’unités en vue de sélectionner la meilleure. Une méthode de calcul de coût cible est testée sur un coût visant les durées phonétiques des unités (section VII). Une méth- ode visant à améliorer l’intonation de la parole synthétisée est ensuite présentée (section VIII). Enfin, un système de pénalités nuancé par une fonction floue, lequel a pour but d’améliorer les jonctions entre unités est décrit (section IX). Avant la présentation de ces travaux, un état de l’art est dressé dans cet ordre : introduction sur la parole humaine (section I), historique de la synthèse de la parole et présentation de l’état courant des recherches (section II) et enfin présentation des différents éléments constitutifs d’un système de Synthèse Par Corpus (sections III et IV). Le chapitre résumé par la section V se charge, quant-à-lui, de présenter le protocole expérimental, les voix de synthèse ainsi que les outils pour gérer ces voix utilisés dans la thèse. Pour les travaux présentés dans cette thèse, nous travaillons dans un cadre ou la contrainte sur le temps réel lors de la synthèse est levée (le focus est sur la qualité) mais l’on s’y intéresse ponctuellement tout au long de la thèse, en particulier dans le chapitre traitant des algorithmes de synthèse (résumé en section VI). En outre, les travaux présentés dans cette thèse portent sur la syn- thèse du français. La majorité des résultats peuvent toutefois raisonnablement s’appliquer à de nombreuses langues. I De la production de la parole La parole humaine est un signal acoustique dont l’analyse permet de la subdiviser en deux composantes : la composante phonétique et la composante prosodique. La composante phonétique est la plus évidente. La parole peut être découpée en unités de sens plus ou moins grandes : phrases, groupes de souffle (séparés par une inspiration du locuteur), mots, syllabes et enfin phonèmes. Aux phonèmes, au nombre d’environ 35 en français (le nombre exact peut varier en fonction de composantes régionales ou historiques), on adjoint la notion de phone. Un phone est une réalisation acoustique d’un phonème. La parole étant influencée par de nombreux facteurs de variabilité, des phones correspondant au même phonème (dans ce cas, on parle d’allophones) peuvent être très différents. Cela peut notamment être dû au phénomène dit de coarticulation, qui veut que la prononciation d’un phonème soit directement influencée par celles de son prédécesseur et son successeur, voire par la prononciation de phonèmes plus distants. Enfin, une dernière notion revêt une importance considérable : il s’agit du diphone. Plusieurs recherches entreprises dans les années 50-60 ont en effet montré que les concaténations effectuées en milieu de phone étaient en règle générale de bien meilleure qualité que celles réalisées en frontière de phone [Peterson et al. 1958; Dixon and Maxey 1968]. De cette constatation est née une nouvelle unité : le diphone. Un diphone est une unité dont les deux frontières sont les centres de deux phones successifs, le centre du diphone étant la frontière entre les deux phones. Par exemple, la séquence de deux phones iv [a o] contient un seul diphone commençant à la moitié du [a] et finissant à la moitié du [o]. La deuxième composante de base de la parole est sa prosodie. La prosodie regroupe toutes les informations que la composante phonétique ne prend pas en considération. Di Cristo [Di Cristo 2000] caractérise la prosodie comme « la représentation formelle (aspect phonologique) des éléments de l’expression orale tels que les accents, les tons, l’intonation et la quantité, dont la mani- festation concrète, dans la production de la parole, est associée aux variations de la fréquence fondamentale (F0), de la durée et de l’intensité (paramètres prosodiques physiques), ces variations étant perçues par l’auditeur comme des changements de hauteur (ou de mélodie), de longueur et de sonie (paramètres prosodiques subjectifs). » Dans la définition ci-dessus, un élément particulière- ment important est la F0, laquelle est perçue par l’auditeur comme la hauteur de la voix. Il s’agit en fait de la fréquence la plus basse du signal de parole, un signal de parole étant représentable (les portions voisées – générées par vibra- tion des cordes vocales – sont d’ailleurs périodiques) dans le domaine spectral. La F0 correspond à la première harmonique du signal.