Université d’Abomey – Calavi

Ecole Doctorale "Sciences Pour l’Ingénieur" DIPLOME D’ETUDES APPROFONDIES SCIENCES POUR INGENIEUR (DEA-SPI) Rapport de stage

Spécialité : Informatique et Télécommunications

INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Présenté par : John Oscar Raoul AOGA, Ingénieur de conception en Génie Informatique et Télécommunications Soutenu le 04 décembre 2014

Encadré par : Sous la direction de : Dr. Théophile K. DAGBA, Pr. Antoine VIANOU, Maître Assistant, Professeur Titulaire, CAMES, ENEAM/UAC CAMES, EPAC/UAC

Stage eectué au Laboratoire d’électrotechnique de télécommunication et d’informatique appliquée Année académique 2013 - 2014 Sommaire

Dédicace iii

Remerciements iv Liste des sigles et abréviations vi Notations vii

Liste des tableaux viii Liste des figures ix

Résumé xi Abstract xii Introduction1

I Synthèse Bibliographique 5 1 Langue yorùbá et sa structure vocalique6 2 Synthèse vocale et état de l’art 15

II Matériels et Méthodes 31

3 Construction de corpus et intégration du yorùbá à MaryTTS 32 4 Synthèse vocale du yorùbá à partir de MaryTTS 43

III Résultats et Discussion 48

5 Résultats et Performances 49

i INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

6 Discussion et perspectives 59

Conclusion 63 Bibliographie 64 Webographie 69

Table des matières 73

Annexes 75 A Les divers phonèmes de yorùbá et leur représentation phoné- tique (IPA) 75 B Les phrases de test 78 C Les scripts Perl de prétraitement des textes yorùbá 82

D Des statistiques concernant les phonèmes 92

Réalisé par: John Oscar Raoul AOGA ii INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Dédicace

Ce mémoire est dédié à vous, vous qui aviez quié ce monde, sans un adieu, sans une promesse de retour, vous qui aviez été pour moi au delà d’un mentor, un père, vous FEU Sèmiyou A. ADEJOUMA, vous vivez toujours en moi par vos enseignements ! Reposez en paix.

Réalisé par: John Oscar Raoul AOGA iii INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Remerciements

Comment une personne peut-elle dire merci à tout le monde quand il y a autant de gens à remercier ? Evidemment, par cee œuvre, je veux dire merci à mon père qui représente dans ma vie un puissant modèle à imiter, et à ma mère qui m’a enseigné l’amour, la bienveillance et le goût du travail bien fait.

J’adresse aussi des remerciements particuliers aux personnes suivantes : . le Professeur Félicien AVLESSIDirecteur de l’École Polytechnique d’Abomey- Calavi (EPAC) et tout le personnel administratif ; . le Professeur Gérard DEGAN et tout le sta du CODOC, en particulier à madame AVALIGBE et au Professeur SANYA Emile ; . le Professeur Marc K. ASSOGBA, Directeur du Laboratoire d’électrotech- nique de télécommunication et d’informatique appliquée (LETIA) ; . le Professeur Antoine VIANOU, Professeur Titulaire en science et tech- nique de l’ingénieur, Chevalier de l’ordre international des palmes acadé- mique du CAMES, Vice-recteur honoraire de l’UAC, Président du Comité Scientifique Sectoriel Sciences et Techniques de l’Ingénieur et membre de l’Académie Nationale des Sciences Arts et Leres du Bénin ; . le Professeur Akanni Mamoud IGUÉ, pour sa contribution à la compré- hension des tournure vocalique du Yoruba ; . le Docteur K. Théophile DAGBA, Maître Assistant du CAMES et enseignant- chercheur ENEAM/UAC, pour avoir accepté être pour moi guide et réfé- rence dans l’exécution de ce projet ; . tous les enseignants du DEA-SPI notamment Dr SOGBOHOSSOU, Dr DISSOU, Dr DJOGBE, Pr GOUDJO, Dr DATON, ... qui ont assuré ma formation ;

Réalisé par: John Oscar Raoul AOGA iv INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

. Monsieur Vincent AWE, Journaliste de langue nationale Yoruba en ser- vice à l’ORTB, pour la transformation du corpus texte en corpus audio ; . à toi Roxène ASSOGBA, pour ta présence et ta confiance sans cesse re- nouvélée ; . à vous mes sœurs, à toi ma cousine et à toute la famille, pour vos mul- tiples encouragements et soutiens ; . à tous les amis du DEA-SPI sans exception, avec vous j’ai senti que j’ap- partenais à une communauté solidaire ; . à Tous les membres du Laboratoire d’Électrotechnique de Télécommuni- cation et d’Informatique Appliquée (LETIA), pour la bonne ambiance de travail ; . à tous mes associés, collègues et amis à divers niveaux, notamment Conseil de l’entente, Brésillac Youth Group, PTGF, JBN, LOL Group, ...

Réalisé par: John Oscar Raoul AOGA v INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Liste des sigles et abréviations

ADT Analyse de Données Textuelles ALAO Apprentissage des Langues Assisté par Ordinateur API Alphabet Phonétique International ASR Automatic Speech Recognition CART Classification And Regression Tree CTTS Corpus-based Text-to-Speech DSP Digital Speech Processing EHMM Ergodic Hidden Markov Model G2P Graphèmes to Phonèmes LTS Leer-to-Sound Mary Modular Architecture for Research on speech sYnthesis MMC Modèles de Markov Cachés SMO Score Moyen des Opinions TAL Traitement Automatique de Langues TALN Traitement Automatique de Langues Naturelles TAY Traitement Automatique du Yorùbá TTS Text-to-Speech WER Word Error Rate

Réalisé par: John Oscar Raoul AOGA vi INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Notations

Symbole Désignation Unités A Amplitude du signal - d Durée de prononciation Seconde (s) F 0 Fréquence fondamentale Herz (Hz) N Nombre de niveau dans le graphe ème ui i unité dans un niveau donné ui−1 Unité dans le niveau précédent au niveau i i ème ème Ek Sommet du graphe de la i unité du k niveau Ct Fonction de coût des caractéristiques Cc Fonction de coût de concaténation ème ti Caractéristique de la i unité P Nombre d’unités pour un niveau donné t ème wj Poids de la j caractéristique c ème wj Poids de la j séquence ème t Coût de la j caractéristique par rapport à l’unité ui et à Cj(ti, ui) la caractéristique ti c ème Cj (ui−1, ui) j coût entre ui−1 et ui n U 1 Chemin optimal de la séquence 1 à la séquence n u,v Unités d’analyse U,V Variables aléatoires des fonctions de répartition de u et v f(u) Fréquence d’occurrence d’une unité d’analyse u f(u, v) Fréquence de cooccurrence de u et v P (u, v) Proportion de cooccurrence de u et v I(u, v) Information mutuelle de u et v I(U, V ) Information mutuelle moyenne de U et V ème wi Pondération de la i appréciation ème pi Pourcentage d’obtention de la i appréciation

Réalisé par: John Oscar Raoul AOGA vii Liste des tableaux

I.I les voyelles ouvertes avec leur représentation en Alphabet Pho- nétique International (API)...... 7 I.II les voyelles nasales avec leur représentation en Alphabet Pho- nétique International (API)...... 8 I.III les consonnes avec leur représentation en Alphabet Phoné- tique International (API)...... 10 I.IV Le diagramme des consonnes...... 10 I.V Les organes et leurs manifestations selon le point d’articulation 11 I.VI Exemples de possibilités de mots monosyllabiques et dissylla- biques avec les diérents tons...... 11

II.I Les approches de synthèse et leur principe...... 21

IV.I Les diérentes appréciations et leur pondération...... 47

V.I Caractéristiques du corpus de texte...... 51 V.II Détails des classifications K-mean par groupe...... 53 V.III Caractéristiques du corpus de test...... 56 V.IV Les diérentes appréciations et leur pondération...... 57

viii Liste des figures

1.1 Ensembles de sons en yorùbá : voyelles, consonnes et tons...6 1.2 Diagramme des voyelles...... 8 1.3 Positions des prononciations dans la bouche pour les voyelles (Voy.)...... 9

2.1 Passage du texte à la parole en passant par les modules de TALN et de DSP...... 16 2.2 Schéma synoptique simplifié de la synthèseTTS...... 17 2.3 Graphe modélisant le problème de la sélection d’unités..... 23 2.4 Algorithme de sélection d’unités...... 25 2.5 Schéma synoptique de la synthèseTTS...... 26

3.1 Technologies deTTS basées sur l’utilisation de corpus...... 32 3.2 Interface RedStart de réglage des paramètres audio...... 37 3.3 Interface RedStart de réglage des paramètres de timing.... 37 3.4 Spectre d’un signal écrêté (haut) et d’un spectre normal (bas). 37 3.5 Fenêtre de normalisation de son...... 38 3.6 Exemple de présentation du corpus de parole...... 38 3.7 Ensemble des sous-modules créés dans MaryTTS et leur inter- action...... 42

5.1 Fonction de répartition des mots...... 50 5.2 Diagramme en bulle de fréquences d’apparition en fonction de l’information mutuelle...... 51 5.3 Courbe des fréquences d’apparition des phonèmes avec une évaluation de la tendance linéaire(droite en pointillé)...... 52

ix INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

5.4 Proportion de qualité de lecture en fonction des classes de phrase 54 5.5 Interface cliente pour les tests sur le module TALN...... 57 5.6 Interface cliente pour les tests sur le module DSP...... 58

D.1 Fonction de répartition des phonèmes...... 92 D.2 Profil de classe : distance moyenne au barycentre pour chaque phonème de ton bas...... 93 D.3 Profil de classe : distance moyenne au barycentre pour chaque phonème de ton moyen...... 93 D.4 Profil de classe : distance moyenne au barycentre pour chaque phonème de ton haut...... 94 D.5 Profil de classe : distance moyenne au barycentre pour chaque phonème consonne...... 94

Réalisé par: John Oscar Raoul AOGA x INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Résumé

La motivation principale de ce travail est la conception d’un système de synthèse vocale Text-To-Speech basée sur l’approche orientée corpus utilisant la méthode de sélection d’unités. Ce travail découle de l’absence d’un tel outil pour le yorùbá, une langue de la grande famille Niger-Congo parlée au Nigéria, au Bénin et au . L’implémentation d’un tel outil a nécessité la construc- tion d’un corpus de parole contenant 2415 phrases. Ensuite, il a été procédé à l’intégration du yorùbá dans MaryTTS, un système modulaire et multipla- teforme de synthèse vocale. Pour l’intégration nous avons conçu un lexique de 449316 mots dont 124978 sont annotés par étiquetage morphosyntaxique. Ayant appris par Modèles de Markov Cachés (MMC) sur ce lexique, nous avons obtenu un système permeant d’inférer sur la prononciation des mots inconnus qui s’insère dans la dernière phase du composant prononciation du module Traitement Automatique de Langues Naturelles (TALN). La modélisa- tion de langue a impliqué la création du fichier .yo.xml qui contient la représentation des diérents sons de la structure vocalique du yorùbá. Ainsi, nous avons une version de MaryTTS qui intègre le yorùbá et qui est accessible à l’adresse hps ://github.com/marys/marys. L’évaluation du système, ef- fectuée sur la base d’un corpus de test contenant 100 phrases, a été faite par le Score Moyen des Opinions (SMO) qui a donné 2,9 équivalent à la mention bien.

Mots Clés : Synthèse vocale TTS, Sélection d’unités, MaryTTS, MMC, Yorùbá.

Réalisé par: John Oscar Raoul AOGA xi INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Abstract

The main motivation of this work is the design of a Text-To-Speech synthe- sis system based-on corpus approach using the unit-selection method. This work was developed because of the lack of use of such system for Yoruba lan- guage, it belongs to Niger-Congo language spoken in , and Togo. The design of this system required building a speech corpus containing 2,415 sentences. Then it was followed by the integration of the Yoruba in MaryTTS, which is a modular and multi-platform synthesis voice system. For integra- tion, we developed a lexicon of 449,316 words and only 124,978 were annotated by Part-of-Speech tagging. Hidden Markov model (HMM) was used to train the system on the lexicon. This allowed us to infer on the pronunciation of un- known words that fits into the last phase of the module component pronun- ciation of Natural Language Processing(NLP). The modeling of the language involved the creation of the allophone.yo.xml file which contains the represen- tation of dierent sounds of vowel and structure of . Finally, we have a version of MaryTTS with the integration of Yoruba language. It is available on the following link: hps://github.com/marys/marys. The eval- uation of our system was done by the Mean Opinion Score (MOS) which gave us 2.9 equivalent to a good quality of voice.

Keywords: TTS System, units selection, MaryTTS, HMM, Yoruba.

Réalisé par: John Oscar Raoul AOGA xii INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Introduction

Dans n’importe quel groupe social, le langage est très essentiel. Il a non seulement un rôle fonctionnel mais aussi, s’il est utilisé réellement, il aide à forger de solides liens entre les peuples et les sociétés (Awoyemi, 2013). En ef- fet, la parole est le moyen le plus naturel et un outil vital pour les communica- tions humaines. Les pensées et les idées sont ainsi échangées à travers la voix (Hariharan et al., 2012). C’est ainsi que les chercheurs du monde se sont mis à développer des technologies pour la maîtrise et l’utilisation plus eiciente des langues naturelles. Parmi, ces technologies on peut parler de la synthèse vocale, qui rassemble les procédures de transcription de sons et de voix ou tout simplement de traitement de signaux audio en vue d’en extraire des données utiles. Nos travaux ici s’inscrivent dans cee dynamique et se proposent de concevoir un corpus de parole pour le yorùbá. Pourquoi une telle étude ? et quels sont les objectifs de ce travail ?

1 Contexte et Justification A l’ère de l’information, les acteurs du monde se préoccupent de comment se développer et de comment garder contact avec leur environnement tout en s’aranchissant des barrières linguistiques. Pour y parvenir, divers systèmes informatiques ont été conçus pour permere l’analyse et le traitement des langues. Ainsi, l’opérateur mobile japonais, NTT Docomo, a mis en place une application qui permet de converser sans maîtriser la langue de son interlocu- teur 1. Ce genre d’application "futuriste" est une solution à la problématique de l’aranchissement de barrières linguistiques dans le transfert d’informa-

1. hp ://www.bbc.co.uk/news/technology-20004210

Réalisé par: John Oscar Raoul AOGA 1 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE tion et la communication. Cee application contient en cascade les systèmes de Speech-To-Text (STT), de traduction et de Text-To-Speech (TTS). Ceci dé- montre également toute l’importance des applications de synthèse vocale qui sont les éléments de base dans de telles applications.

Pour mieux faire face aux défis de l’alphabétisation d’une population anal- phabète dans sa grande majorité, l’Afrique doit aussi penser aux systèmes de Traitement Automatique de Langues (TAL) notamment la synthèse vocale. En eet, pour des langues comme le français c’est de tels travaux qui ont permis l’orientation aujourd’hui vers l’Apprentissage des Langues Assisté par Ordina- teur (ALAO) (L’haire, 2011). La synthèse vocale permera aussi de contribuer à l’informatisation et à la vulgarisation des langues africaines.

Le yorùbá, une langue africaine parlée par plus de trente millions de per- sonnes à travers le monde et particulièrement au Nigeria, au Bénin et au Togo (Igue, 2009), ne saurait échapper à cee évolution. Cela se fera par l’intégra- tion du yorùbá au système MaryTTS, qui consiste principalement à la concep- tion/intégration des modules de traitement du langage naturel. Nos travaux viennent alors baliser le terrain pour la réalisation d’un système de synthèse vocale pour le yorùbá.

Il est à noter que le présent travail est une suite des travaux de Aoga (2012). En eet, deux(02) perspectives importantes découlaient de ces travaux. Il s’agit de la construction d’un système de traduction de couple yorùbá-anglais et un système de synthèse vocale du yorùbá. Le premier axe a été abordé par Gbadou (2013). Nous abordons le second axe dans ce document.

2 Problématique L’importance de la synthèse TTS et surtout de ses applications n’est plus à démontrer. Cependant, il n’existe aujourd’hui aucun outil TTS libre et perfec- tionné (c’est-à-dire regroupant la synthèse basée sur les MMC et celle basée sur la sélection d’unités) permeant de créer des systèmes de synthèse TTS

Réalisé par: John Oscar Raoul AOGA 2 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE du yorùbá. Néanmoins, MaryTTS, un outil libre, opensource, multiplateforme et perfectionné, permet l’intégration de nouvelles langues. Les chercheurs du monde se sont alors investis à intégrer des langues à MaryTTS. Ainsi, cet outil contient aujourd’hui huit(08) langues à savoir : l’allemand(de), l’anglais(en), le français(fr), l’italien(it), le russe(ru), le suédois(sv), le telugu(te) et le Turc(tr). La grande communauté scientifique autour de cet outil est la preuve de sa po- pularité et son eicacité. Mais aucune langue africaine n’y figure d’où le but principal de nos travaux qui est d’intégrer le yorùbá à MaryTTS. Pour ce faire, nous devons concevoir aussi un corpus de parole (qui n’existe pas d’après la liérature) et un ensemble de modules de prétraitement de texte yorùbá.

3 Objectifs L’objectif principal de ce projet est d’intégrer le yorùbá à MaryTTS et de concevoir un corpus de parole pour la synthèse vocale Text-to-Speech (TTS) en vue de l’obtention d’un composant langue du yorùbá en utilisant les tech- nologies basées sur les corpus notamment la méthode de sélection d’unités.

A cet objectif sont raachés des objectifs spécifiques à savoir : — aider aux développements d’applications de synthèse vocale en yorùbá ; — fournir la base pour les outils d’alphabétisation et de l’enseignement du yorùbá ; — contribuer au développement du Traitement Automatique du Yorùbá (TAY) en particulier et du traitement de langues en général ; — développer une méthodologie reproductible pour d’autres langues natio- nales et africaines.

Ce mémoire est subdivisé en trois (03) grandes parties :

La partie 1 est consacrée à quelques généralités et à l’étude de l’existant des langues africaines en général et du yorùbá en particulier.

Réalisé par: John Oscar Raoul AOGA 3 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

La partie 2 présente l’ensemble des outils utilisés, les choix techniques ef- fectués et les étapes de la mise en œuvre de nos solutions constituant la mé- thodologie.

La partie 3 donne les détails sur les résultats obtenus au vu de la métho- dologie adoptée. Elle fait aussi l’analyse de ces résultats et les améliorations possibles.

Réalisé par: John Oscar Raoul AOGA 4 Première partie

Synthèse Bibliographique

5 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Chapitre 1

Langue yorùbá et sa structure vocalique

Les éléments de cee section sont inspirés des travaux de Rowlands (1969), Fakindele (2005) et de Garry et Rubino (2001). Les plus grandes contributions viennent de « The Sound system of yoruba » (Akinlabi, 2004) et de « The tonal phonology of Yoruba clitics » (Akinlabi et Liberman, 2000).

1.1 Présentation des sons en yorùbá Le yorùbá, langue d’origine africaine, est l’une des douze (12) langues de la sous-branche Edekiri, de la grande famille des langues Niger-Congo. Il est parlé au sud-ouest du Nigeria (2ème plus important groupe ethnique en nombre), au Bénin et au Togo par plus de trente millions de personnes (Igue, 2009). Il est réparti dans le monde en plusieurs variétés.

Le système vocalique du yorùbá comporte trois(03) ensembles de sons qui permeent de former les mots à savoir : les voyelles, les consonnes et les tons (figure 1.1).

Figure 1.1 – Ensembles de sons en yorùbá : voyelles, consonnes et tons

Réalisé par: John Oscar Raoul AOGA 6 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

1.1.1 Les voyelles Le yorùbá a douze(12) voyelles dont sept(07) voyelles ouvertes ( a, e, e., i, o, o. , u ) et cinq(05) voyelles nasales (an, e.n, in, o. n, un).

Les sept (07) voyelles ouvertes sont obtenues par la sortie de l’air de la bouche (éventuellement du nez). Techniquement, elles sont appelées des pho- nèmes. Le tableau I.I présente les voyelles ouvertes avec leur représentation en Alphabet Phonétique International (API). Toutes ces voyelles sont nasalisées si elles sont précédées d’une consonne nasale (n ou m). C’est le cas des mots « mu » (boire), « nà » (chicoter), « mo. » (connaître), ... Tableau I.I – les voyelles ouvertes avec leur représentation en Alphabet Phonétique Interna- tional (API)

API Orthographe Exemple Signification [i] i ilé Maison [e] e ire bienfait, faveur [E] e. ilè. Terre, terrain [a] a bàta Chaussures [O] o. lo. Partir, quier [o] o gbogbo Tout [u] u ìlú ville, cité, pays

Les cinq (05) voyelles nasales du yorùbá ne sont pas des voyelles nasali- sées 1, elles sont des voyelles natives du yorùbá. Elles sont produites après une consonne orale. Le tableau I.II présente quelques mots avec l’utilisation de voyelles nasales et donne la signification pour chacun en français ainsi que leur représentation dans l’API.

Le diagramme des voyelles (figure 1.2) indique la manière de prononcer les voyelles. On interprète ce diagramme comme suit : la dimension haut vers le bas indique la position de la langue dans la bouche (haut, moyen et bas) et la dimension gauche vers la droite correspond la situation « devant, central ou derrière » de la langue dans la bouche. Donc chaque voyelle ouverte (respec-

1. Une voyelle nasalisée est une voyelle ouverte qui se comporte, à la prononciation, comme une voyelle nasale quand elle est précédée des consonnes « n » ou « m »

Réalisé par: John Oscar Raoul AOGA 7 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE tivement son correspondant en voyelle nasale) se définit par deux (02) para- mètres. Cependant, notons que la forme des lèvres aussi est prise en compte. Ainsi, parmi les voyelles ouvertes, trois (03) à savoir : « o. », « o » et « u » sont prononcées avec les lèvres arrondies et les quatre (04) autres avec des lèvres non arrondies. La figure 1.3 présente le passage de l’air et la position des lèvres selon que la voyelle soit orale, nasale, arrondie ou non arrondie.

Tableau I.II – les voyelles nasales avec leur représentation en Alphabet Phonétique Interna- tional (API)

API Orthographe Exemple Signification [˜i] in ikín noix de palme [E] e.n iye.n celle-ci, celui là [ã] an ikan Fourmi blanche [O] o. n ibo. n arme, fusil [u]˜ un ikun Écureuil

Figure 1.2 – Diagramme des voyelles Source : Akinlabi (2004)

Réalisé par: John Oscar Raoul AOGA 8 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Figure 1.3 – Positions des prononciations dans la bouche pour les voyelles (Voy.) Source : http://aix.vap.free.fr/article.php3?id_article=4

On peut remarquer qu’en yorùbá le changement d’une voyelle par une autre change (dans la majorité des cas) le sens du mot [« mu » (boire) et « mo. »(connaître)]. Néanmoins, chose intéressante, en yorùbá la voyelle nasale « an » peut être remplacée par « o. n » sans perte (ou changement) de sens du mot [« íban » ou « íbo. n » qui signifie fusil]. Notons aussi que la voyelle nasale « e.n » se retrouve seulement dans les mots : « íye.n » et « ye.n »

1.1.2 Les consonnes Le yorùbá a dix-huit(18) consonnes. Elles sont présentées dans le tableau I.III avec leur représentation en API, des exemples de mots et leurs significa- tions. Les sons yorùbá produits s’obtiennent par une obstruction partielle ou complète de la voix. Le tableau I.IV représente le diagramme des consonnes et s’interprète comme suit : 1. les colonnes représentent le lieu de l’articulation c’est-à-dire la posi- tion d’un articulateur au point le plus fermé du conduit buccal (voir le ta- bleau I.V qui présente les organes et les lieux correspondant - (Gezundhajt, 1998)) ; 2. les lignes, quant à elles, représentent le mode d’articulation, ce qui peut se traduire par comment la constriction 2 se fait dans la production du segment de son.

2. La constriction est l’action d’exercer une pression circulaire sur ou autour d’une région quelconque du corps ; résultat de cee action. En phonétique articulatoire, une consonne constrictive ou obstruante désigne une consonne dont l’articulation implique une obstruction du chenal respiratoire en un point d’articulation donné.

Réalisé par: John Oscar Raoul AOGA 9 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Tableau I.III – les consonnes avec leur représentation en Alphabet Phonétique International (API)

API Orthographe Exemple Signification [b] b bá Rencontrer [m] m mò Connaître [t] t tà Vendre [d] d àdá Coupe-coupe [s] s sò Dire [n] n nà Frapper [l] l àlá Reve [r] r rà Acheter [ê] j jà Se bare [S] s. s.á couper [j] y aya Femme [k] k kà Lire [g] g àga Chaise [kp] p pa Tuer [gb] gb gba balayage [w] w wá Chercher [h] h ha graer

Tableau I.IV – Le diagramme des consonnes

Labia- Alvéo- Pala- Vélai- Labio- glot- le laire tale re vélaire tale Arrêt non- t k p voisée [kp] voisée b d j [ê] g gb [gb] non- f s s.[S] voisée Sonore Nasale m n Latérale l Centrale r y [j] w h Source : Akinlabi (2004)

1.1.3 Les tons Le yorùbá possède trois (03) niveaux de ton à savoir : le ton haut - H (accent aigu), le ton moyen - M (absence d’accent) et le ton bas - L (accent grave). Ils jouent un rôle déterminant pour distinguer les unités lexicales. Ils permeent aussi d’avoir diérents sens selon qu’un mot soit prononcé avec un ton haut, moyen ou bas. Par exemple on a :

Réalisé par: John Oscar Raoul AOGA 10 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

— kò. (ton Haut) = construire ; — ko. (ton Moyen) = chanter ; — kó. (ton Bas) = Refuser. Tableau I.V – Les organes et leurs manifestations selon le point d’articulation

Organes Manifestations selon le point d’articulation Lèvres Labiale Dents Dentale Alvéoles des dents Alvéolaire Palais Palatale Voile du palais Vélaire Luee Uvulaire Pointe de la langue Apicale Dos de la langue Dorsale Pharynx Pharyngale Cordes vocales sonore (vibration des cordes vocales) sourdes (pas de vibration des cordes vocales) Trachée artère - Epigloe - Oesophage - Source : Gezundhajt (1998)

Pour les mots monosyllabiques on a trois(03) possibilités et pour les mots dissyllabiques on peut prévoir jusqu’à neuf(09) possibilités à cause des trois tons (voir le tableau I.VI).

Tableau I.VI – Exemples de possibilités de mots monosyllabiques et dissyllabiques avec les diérents tons

Réalisé par: John Oscar Raoul AOGA 11 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

1.1.4 Structures syllabiques Les mots yorùbá résultent d’une structure syllabique très simple. Cepen- dant, ce n’est pas pour autant que l’obtention d’un mot peut se faire par une combinaison quelconque de voyelles, de consonnes ou de tons. En eet, le yorùbá n’accepte pas par exemple des consonnes doubles et les combinaisons se font en se basant sur des règles bien précises. L’ensemble de ces règles est désigné par structures syllabiques. Les structures syllabiques sont décrites en se basant sur les notations suivantes : « C » pour les consonnes et « V » pour les voyelles. Le yorùbá dispose de deux (02) types de syllabes qui sont : — « V » par exemple dans le mot àlá [à - lá] (rêve) ; — « CV » dans le mot wá [wá] (viens).

A part les pronoms qui peuvent être de simples voyelles et donc représentés par V, on retrouve les syllabes de type V dans les noms commençant par une voyelle (à - lá), dans tous les mots où les consonnes nasales (m et n) font oice de syllabe (ò-ro-m-bó = orange ; gé-n-dé=robuste jeune homme).

atre(04) combinaisons des deux(02) type de syllabes, précédemment ci- tées, sont possibles. On a : 1. V-V → à-á-nu (pitié) ; 2. V-CV → é-tí ( oreille) ;

3. CV-V → dí-è. (peu) ; 4. CV-CV → bà-tà (chaussure).

Remarques : 1. les noms dans le yorùbá standard sont au moins de la forme V-CV et tous les verbes commencent par une consonne ; 2. la plupart des noms yorùbá commencent par une voyelle et tous se ter- minent par une voyelle.

Réalisé par: John Oscar Raoul AOGA 12 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Au delà de la constitution des mots par combinaison des syllabes, il y a les processus qui définissent les changements qui s’opèrent au cours de l’assem- blage des mots pour former une phrase, on parle des processus majeurs de la phonologie en yorùbá. On y parle notamment de l’harmonie des voyelles, de l’assimilation des voyelles, de la suppression des voyelles et de la suppression des consonnes (Akinlabi, 2004). Cependant, le développement de ces processus dépasse le cadre de ce mémoire ce qui fait qu’on n’en parlera pas d’avantage.

Nous pouvons décompter, de tout ce qui précède, que nous disposons de douze(12) voyelles avec trois(03) tons pour chaque et dix-huit(18) consonnes qui nous donne au total 54 sons diérents. Ces unités vocaliques nous per- meent de constituer des syllabes à travers la structure syllabique en yorùbá. Tous ces éléments serviront pour calibrer notre système de synthèse vocale. A cela s’ajoute la gestion du rythme, de l’intonation et de l’intensité dans les phrases que nous aborderons dans la session suivante (§1.2) à travers la pro- sodie.

1.2 Prosodie L’intonation constitue l’un des trois éléments de la prosodie, les deux autres paramètres prosodiques étant le rythme et l’intensité. En fait, pour être per- çue comme naturelle, la synthèse vocale nécessite d’imiter une prosodie natu- relle dans son ensemble. Ceci nécessite de reproduire aussi un rythme natu- rel, c’est-à-dire une durée naturelle des sons élémentaires (phonèmes). ant à l’intensité, qui correspond aussi au volume sonore, elle est beaucoup moins critique que l’intonation ou le rythme pour obtenir un rendu naturel.

En eet, on entend par intonation d’une phrase le parcours mélodique de la voix pendant la prononciation de la phrase. L’intonation se mesure par la fré- quence fondamentale F 0 de la voix. C’est une fréquence variable au cours du temps correspondant à la fréquence de vibration des cordes vocales pendant l’énonciation de la phrase, et qui s’observe aisément comme la périodicité du signal vocal. Typiquement la fréquence fondamentale d’une voix masculine

Réalisé par: John Oscar Raoul AOGA 13 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE possède une plage de variation dans la zone des 80 Hz à 150 Hz tandis que celle d’une voix féminine se situera plutôt dans la zone des 140 Hz à 200 Hz.

L’intonation est une caractéristique importante de la voix naturelle, qui dé- pend très fortement de la langue concernée et du contenu linguistique de la phrase. Pour les langues à tons comme le yorùbá, l’intonation conditionne même le sens des mots. Dans des langues comme le français, plus simplement, elle est une caractéristique reliée au type de phrase (airmative, impérative, interrogative) et à la position des mots dans la phrase (intonation descendante en fin de phrase), et parfois reliée à la mise en valeur de certains mots (em- phase). Pour donner une impression de voix naturelle, la voix synthétique doit s’eorcer d’imiter l’intonation naturelle, et à l’inverse un énoncé synthétisé sans intonation est perçu comme anormal, et à la limite une voix synthétisée avec une fréquence fondamentale absolument constante, est perçue comme totalement artificielle ("voix de robot").

Dans le prochain chapitre, nous parlerons plus en détails de la synthèse vo- cale et des contraintes liées aux langues. Nous présenterons aussi l’existant.

Réalisé par: John Oscar Raoul AOGA 14 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Chapitre 2

Synthèse vocale et état de l’art

Une étude des systèmes vocaux montre qu’il existe deux(02) éléments qui y jouent un rôle de premier choix (Friche, 2002). Il s’agit de : 1. la reconnaissance vocale (ASR pour Automatic Speech Recognition) : per- meant à la machine de comprendre et de traiter des informations four- nies oralement par un utilisateur humain ; 2. la synthèse vocale (TTS) : permeant de reproduire d’une manière sonore un texte qui lui est soumis tel qu’un humain l’aurait fait.

Ces deux(02) éléments sont totalement indépendants mais il peut arriver de les combiner. C’est le cas dans certaines applications de téléphonie ou d’alpha- bétisation où l’on propose des modules permeant la prononciation et l’écoute à des apprenants.

Nous nous intéressons dans la suite à la synthèse vocaleTTS, objet de notre travail.

2.1 Synthèse TTS La synthèse vocale (TTS) consiste à transformer un texte en une suite de sons se rapprochant autant que possible de la parole humaine. Une des applications les plus évidentes de la synthèse vocale est l’accessibilité pour les malvoyants. Son but, comme son nom l’indique, est donc de générer automatiquement du son, de la parole (ondes acoustiques) à partir de textes (Dudoit, 1987). En outre,

Réalisé par: John Oscar Raoul AOGA 15 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE il faut faire la diérence avec les autres systèmes qui font "parler" les machines (les disques compacts, les cassees et bandes magnétiques, ...). En eet, dans le cas de la synthèse, on est intéressé par la synthèse de nouvelles phrases, non basée sur l’enregistrement mais plutôt sur la transformation du texte en sons (Dudoit, 1999).

2.1.1 Principes elque soit le type de synthèse, un système deTTS comprend deux(02) modules principaux (figure 2.1) à savoir : — le module de Traitement Automatique de Langues Naturelles (TALN); — le module de Traitement numérique du signal (Digital Speech Processing (DSP)).

Figure 2.1 – Passage du texte à la parole en passant par les modules de TALN et de DSP

Le premier module reçoit en entrée du texte et fournit en sortie des para- mètres phonétiques et prosodiques qui constituent l’entrée du second module qui en déduira le signal audio de parole en sortie de l’ensemble.

La figure 2.2 présente un schéma synoptique simplifié de la synthèseTTS. Ainsi, pour le module de TALN, on distingue trois(03) phases qui sont : (i) la normalisation du texte, (ii) l’analyse phonétique ou la prononciation et (iii)

Réalisé par: John Oscar Raoul AOGA 16 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE l’analyse prosodique. Le module de DSP, quant à lui, commence par la mise en correspondance des paramètres prosodiques par rapport à la base de données de sons disponibles, suivi d’une unité de concaténation et finit par la synthèse de signaux sonores.

Figure 2.2 – Schéma synoptique simplifié de la synthèseTTS Source : Rashad et al. (2010)

2.1.1.1 Module TALN Ce module a pour objectif de transcrire le texte donné en entrée en infor- mation compréhensible pour le module DSP en vue de la génération du signal de parole. Il s’agit donc de transformer le texte « écrit » en une suite de pho- nèmes ou de sons, à laquelle est associée une prosodie. Pour aeindre ce but les opérations suivantes sont nécessaires :

Etape 1 : Normalisation de texte La première tâche de tout systèmeTTS est le prétraitement ou la normalisation du texte en entrée. Ledit texte doit être divisé en phrases puis en mots (segmentation) ensuite neoyé ou purifié (mise en forme ou prétraitement) et enfin annoté par étiquetage morphosyntaxique (Rashad et al., 2010).

Réalisé par: John Oscar Raoul AOGA 17 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Phase 1 : La segmentation se base sur la ponctuation et les séparations (es- pace, tabulation, retour-chariot, ...) pour diviser le texte en graphèmes ou mots. La qualité du résultat des phases suivantes dépend grandement de la qualité de cee phase.

Phase 2 : La mise en forme s’emploie à remplacer ou à éliminer certains élé- ments du texte en vue d’en faciliter la lecture. Ainsi donc, les chires et les nombres sont transformés en leur équivalent en lere, les typographies (/, [, (, *, ...) sont converties en leur équivalent en prononciation. Les abréviations, les images et les tableaux doivent être convertis aussi ou éliminés.

Phase 3 : L’étiquetage morphosyntaxique consiste à annoter les graphèmes afin de lever les ambiguïtés et de faciliter une bonne prononciation.

A la fin de l’étape de normalisation, le système dispose d’une suite de gra- phèmes qu’il va devoir convertir en phonèmes (suite de sons codés par un alphabet) au cours de l’étape suivante. Cee conversion n’est pas simple à cause des ambiguïtés occasionnées par la présence d’homographes et d’autres éléments grammaticaux susceptibles de prêter à confusion. Par exemple pour le yorùbá, dans la phrase « ilé funfun yii funfun ju ti awa lo. » (Cee maison blanche est plus blanche que la nôtre) le premier « funfun » (adjectif) ne se pro- nonce pas exactement de la même manière que le second « funfun » (verbe). Ainsi, l’entrée de l’étape suivante est un flux de couples graphème - étiquee.

Etape 2 : Prononciation L’étape suivante, après la normalisation est l’étape de la recherche de la bonne prononciation pour chaque graphème (souvent réduit en un mot). Le premier composant de cee étape est le lexique de pronon- ciation qui permet d’indiquer la transcription phonétique des mots du texte présents dans le lexique. Ce lexique, à lui seul, ne suit pas car il pourrait y avoir des noms propres qui ne se prononcent pas forcément de la manière dont ils sont écrits et qui ne figureront pas dans le lexique de prononciation d’où la présence d’un lexique de noms propres. Ces lexiques n’ont pas besoin

Réalisé par: John Oscar Raoul AOGA 18 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE d’être trop grand d’autant plus que certaines prononciations se déduisent par analogie.

Si le mot donné n’est pas présent dans les lexiques on applique les règles de transcription de leres en sons (Leer-to-Sound (LTS)) basé sur les algo- rithmes Graphèmes to Phonèmes (G2P). Les règles LTS sont, pour la plupart du temps, définies selon un corpus contenant des mots et leur transcription. Selon ce corpus, pour chaque lere un nombre fini de phonèmes lui est associé. Et pour chaque paire une probabilité est calculée (Black et Lenzo, 2007). Ainsi, à partir d’un arbre de décision (Classification And Regression Tree (CART)) (Breiman et al., 1984) 1 il est possible de prédire quel phonème correspond le mieux en prenant en compte le contexte. Cependant, les règles LTS ne sont pas eicaces pour toutes les langues (Doval, 2010) d’où l’arrivée des algo- rithmes G2P basés sur les données et les méthodes statistiques (Marchand et Damper, 2000). Dès lors plusieurs travaux sur l’approche statistique avec des systèmes orientés données ont vu le jour. Les pionniers furent Rosenberg et Sejnowski (1986) avec les réseaux de neurones, Dedina et Nusbaum (1991) avec la prononciation par analogie et les arbres de décision introduit par Pagel et al. (1998). Récemment, il y eu des travaux utilisant les Modèles de Markov Cachés (MMC)(Toth et Nemeth, 2010; Yamagishi et al., 2010).

Etape 3 : Analyse prosodique Cee étape est importante en ce sens qu’elle per- met de gérer la qualité de la voix en sortie. En eet, la prosodie se réfère aux caractéristiques qui rendent naturel le flux de phrase lue. Ainsi, l’intonation, le rythme et l’accentuation donnerons une perception particulièrement natu- relle d’une phrase donnée (une phrase airmative ne se lit pas de la même manière qu’une phase exclamative ni comme une phrase interrogative). Cee étape a donc pour mission de : 1. associer aux phonèmes une durée (d) impliquant le rythme ; 2. indiquer une certaine force symbolisée par l’amplitude maximale (A) re- présentant l’accentuation ;

1. Une version facilement implémentable de cet algorithme est décrit ici (SPSS, 2011)

Réalisé par: John Oscar Raoul AOGA 19 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

3. associer une fréquence fondamentale (F 0) donnant l’intonation.

A ce niveau, nous disposons d’une suite de phonèmes ainsi que les para- mètres prosodiques (durée-d, amplitude maximale-A, fréquence fondamentale- F 0). Ces informations forment la consigne sur la base de laquelle le module de DSP va générer la parole souhaitée.

2.1.1.2 Module DSP Ayant reçu en entrée la sortie du module TALN, le module DSP déduira les paramètres acoustiques correspondants selon des méthodes qui varient gran- dement selon la nature même de la synthèse (Xavier, 2011). Il existe en eet plusieurs approches de synthèse dont nous discuterons dans la session 2.1.2.

2.1.2 Les diérentes approches pour la synthèse vocale Il existe en eet plusieurs approches de synthèse vocale mais notre étude s’est limitée aux plus connues. Ainsi, on peut citer : — les approches de synthèse par règles (formant synthesis et articulatory synthesis) : repose sur des modélisations acoustiques de signal de la pa- role, autrement dit sur la génération de formant ; — l’approche de synthèses par concaténation d’unités ; — l’approche de synthèses par sélection d’unités ; — la synthèse par les Modèles de Markov Cachés (MMC).

Le tableau II.I présente ces approches avec leur principe en donnant des références de travaux pour chacun. Ce tableau précise aussi leurs forces et faiblesses.

2.1.3 Présentation de l’approche de synthèse vocale retenue La méthode de sélection d’unités a été introduite pour la première fois par Kurematsu et al. (1990) à travers son système AT Rµ−T alk puis pour prendre en compte les paramètres prosodiques il y a eu les ajouts eectués dans le sys- tème CHAT R (Black et Taylor, 1994). Pour prendre en compte le cas des mots inconnus du système et des liens orphelins, il y a eu les travaux de Beutnagel

Réalisé par: John Oscar Raoul AOGA 20 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Tableau II.I – Les approches de synthèse et leur principe

Catégorie Approche Principe Référence forces faiblesses Méthode synthé- Modélise le signal par Kla (1980) - voix intelli- - voix roboti- basée sur tiseurs à le principe source- gible ; sée les règles formants filtre. Ils génèrent - temps d’im- artificiellement le plémentation spectre du signal vocal court ; humain après avoir - peut gour- eectué des modélisa- mand en mé- tions acoustiques de la moire. parole. synthé- Modélise directement O’Cinneide - voix intelli- - voix roboti- tiseurs par le comportement de et al. (2007) gible. sée et mono- articula- l’articulation humaine. . tion Méthode Synthèse Consiste à enregis- Black et - pas de besoin - voix quelque basée sur par conca- trer l’ensemble des Campbell de grande ca- peu mé- diphones ténation diphones de la langue (1995) ; pacité ; tallique et d’unités : cible. Il suit de conca- Afolabi - voix plus monotone ; synthèse téner ses diphones et al. (2013) naturelle que - ne tient pas par di- pour obtenir le son les synthèse compte du phone souhaité. par règles contexte de l’enoncé." Méthode Synthèse Consiste à sélectionner Dagba - voix très na- – importante basée sur par sé- les unités adéquates et Boco turelle. taille du cor- l’approche lection dans un grand cor- (2014) ; pus ; statistique d’unités pus de parole pour Hunt et – temps de dé- orientée constituer le signal de Black veloppement corpus sortie en restant le plus (1996) très coûteux ; optimal possible. – temps d’exé- cution et de traitement parfois très long... Synthèse Fait la synthèse en Gonzalvo - Nécessite – importante par MMC se basant sur des et al. (2007) très peu de taille du cor- paramètres statis- mémoire de pus ; tiques appris sur stockage ; - maîtriser les un corpus de parole - possibilité paramètres et qui permeent de convertir la d’apprentis- d’inférer les bonnes voix originale sage pour prononciations. en une autre éviter le sur- voix apprentissage.

Réalisé par: John Oscar Raoul AOGA 21 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE et al. (1999) qui a combiné CHATR et les MMC.

La principale tâche de la méthode de sélection d’unités est de trouver les unités de parole les plus appropriées tirées de la base de données de parole de telle sorte à obtenir une grande qualité de son (ou voix) après la concaténation.

Cee méthode reçoit en entrée un flux de phonèmes (envoyé par fenêtre souvent égale à une phrase) avec des paramètres prosodiques notamment la fréquence fondamentale (F 0), la durée de chaque prononciation (d) et l’am- plitude (A) de chaque phonème.

Elle fournit en sortie des fragments de sons (appelés polyphones ou unités) tirés de la base de données de parole et des modèles prosodiques, correspon- dant aux caractéristiques des phonèmes fournis en entrée. Ces segments sont concaténés pour donner la parole en sortie.

Le problème de la recherche de la séquence optimale d’enregistrement d’uni- tés pour une meilleure qualité de voix peut se présenter comme la recherche du chemin optimal dans un graphe. La modélisation du problème comme un graphe présente d’énormes avantages en ce sens que nous disposons de beau- coup de moyens de résolution. Nous pouvons en eet considérer qu’aujour- d’hui les questions de recherche de chemin optimal dans un graphe sont maî- trisées. Ainsi, cee modélisation se présente comme suit : — les sommets du graphe représentent des unités (ou segments de son) issues de la base de données de parole classées par niveau en fonction de l’ordre d’arrivée des phonèmes auxquels elles correspondent ; — les arcs sont pondérés par les probabilités de concaténation et les dif- férences (en terme de probabilité) entre les caractéristiques pour passer d’une unité à la suivante. Chaque sommet d’un niveau N est connecté à tous les sommets du niveau N + 1.

i On obtient donc un graphe semblable à celui présenté à la figure 2.3 où Ek représente la ième unité du kème niveau.

Réalisé par: John Oscar Raoul AOGA 22 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

La pondération des arcs revient alors aux calculs de deux fonctions de coût à savoir : — la fonction de coût établissant la diérence entre les caractéristiques des unités appelée fonction de coût des caractéristiques que nous notons Ct (voir équation 2.1); — et la fonction de coût établissant le coût de concaténation d’un niveau à un autre appelée fonction de coût de concaténation qu’on note ici Cc et donné par l’équation 2.2.

Figure 2.3 – Graphe modélisant le problème de la sélection d’unités

P t X t t C (ti, ui) = wjCj(ti, ui) (2.1) j=1 où ème — ti représente la caractéristique de la i unité dans un niveau donné ; ème — ui représente la i unité dans un niveau donné ;

Réalisé par: John Oscar Raoul AOGA 23 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

— P le nombre d’unités pour un niveau donné ; t ème — wj le poids de la j caractéristique ; t ème — Cj(ti, ui) le coût de la j caractéristique par rapport à l’unité ui et à la

caractéristique ti

P c X c c C (ui−1, ui) = wjCi (ui−1, ui) (2.2) j=1 où

— ui−1 représente l’unité dans le niveau précédent ; ème — ui représente la i unité dans un niveau donné ; — P le nombre d’unités pour un niveau donné ; c ème — wj le poids de la j séquence ; c ème — Cj (ui−1, ui) le j coût entre ui−1 et ui

Le résultat final revient alors à minimiser la somme de ces deux fonctions coûts pour obtenir le chemin optimal de la séquence 1 à la séquence N. Ce calcul est présenté par l’équation 2.3.

" N N # n X t X c U 1 = min C (ti, ui) + C (ui−1, ui) (2.3) u1···uN i=1 i=2

L’algorithme de la méthode de sélection d’unités est présenté à la figure 2.4. On peut ainsi identifier les étapes de calculs des fonctions coûts, de re- cherche de chemin minimum et de concaténation des segments sélectionnés après lissage.

Les approches, citées plus haut (CHATR, MMC), sont implémentées dans des outils de synthèses vocales tels que : Festival (Black et al., 2002), FreeTTS (Walker et al., 2002) et MaryTTS (Schröder et Trouvain, 2003). Nous utiliserons MaryTTS qui implémente l’approche combinée CHATR et MMC.

La figure 2.5 présente un schéma synoptique de conversion d’un texte en parole. Il s’agit en eet d’un schéma synthèse.

Réalisé par: John Oscar Raoul AOGA 24 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Figure 2.4 – Algorithme de sélection d’unités

Réalisé par: John Oscar Raoul AOGA 25 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Figure 2.5 – Schéma synoptique de la synthèseTTS

2.2 Présentation de MaryTTS La conception d’un système TTS fonctionnel s’avère être une tâche ardue qui nécessite la patience et beaucoup d’aention. Cela devient encore plus compliqué quand on veut créer une voix de synthèse à partir de rien. C’est dans l’optique de simplifier la tâche, à la fois pour les développeurs et pour les utilisateurs que le projet Openmary a vu le jour dans les années 2000. Modular Architecture for Research on speech sYnthesis (Mary) ou encore Openmary, est un environnement complet de synthèse à partir du texte. Il est entière- ment codé en Java et donc de ce fait multiplateforme. Le système peut se décomposer en modules bien distincts, ce qui facilite l’ajout d’une nouvelle langue. Il suira de créer les modules propres à cee dernière (Dans la plu- part des cas, la seule création de modules de TALN suit) et les intégrer au système entier, procédé similaire à l’ajout de greons (plug-in). Le traitement s’eectuant pas à pas, chaque composant communique, en entrée et en sortie, à l’aide d’une représentation des données basée sur du XML, le MaryXML. Ces représentations restent visibles pour l’utilisateur, qui peut donc contrô- ler le bon déroulement du traitement. Des modules de traitement génériques

Réalisé par: John Oscar Raoul AOGA 26 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE existent et peuvent servir de point de départ à l’intégration d’une nouvelle langue au système (Xavier, 2011).

MaryTTS permet la concaténation de diphones avec MBROLA, la synthèse par sélection d’unités et la synthèse MMC avec HTS, dans une large base de données. Indépendamment du type de synthèse, Openmary fournit des scripts permeant de créer à partir de zéro une voix dans un nouveau langage. Cela inclut souvent la création d’un grand corpus et un logiciel pour l’enregistre- ment de ce dernier (Redstart 2). Des modules génériques sont aussi disponibles pour la création des composants TALN 3.

Une fois les modules de traitement créés, on dispose d’une interface gra- phique pour l’importation de la nouvelle voix. Cela consiste en l’alignement par MMC des fichiers audio avec les transcriptions phonétiques des fichiers textes et l’extraction de vecteurs acoustiques. Notons toutefois que les procé- dures de développement sont uniquement valables sous environnement UNIX.

Enfin, MaryTTS est basé sur une architecture client/serveur. A chaque utili- sation, le serveur doit être lancé et le client échange avec ce dernier les requêtes permeant le traitement. Cee approche permet une plus grande flexibilité, mais également une portabilité accrue. Ainsi, des serveurs à la capacité de cal- cul et de stockage supérieurs pourraient être accessibles via des systèmes plus modestes.

2.3 Solutions et applications existantes pour la synthèse vocale Les applications duTTS sont très nombreuses et couvrent globalement tous les domaines de la communication. Elles peuvent être aussi hybridées ou com- binées avec d’autres systèmes en vue d’obtenir des applications de plus en plus performantes.

2. http://mary.opendfki.de/wiki/RedStart 3. La procédure complete est présentée ici http://mary.opendfki.de/wiki/ NewLanguageSupport.

Réalisé par: John Oscar Raoul AOGA 27 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

2.3.1 Les applications où l’on rencontre la synthèse vocale On rencontre les applications de synthèse vocale dans trois(03) grands do- maines qui s’énumèrent comme suit :

Les guides de voix publiques ou les services d’information grand public : progres- sivement beaucoup d’applications grands publics incorporent ces outils qui ont pour fonction d’orienter ou d’informer les gens dynamiquement sur une situation ou un besoin donné.

Les applications d’interfaces ou d’équipements mobiles : l’essor des téléphones mobiles et des systèmes d’exploitation aérents apporte des besoins de plus en plus fort de profiter de la technologie numérique n’importe où, n’importe quand. Ces équipements n’ont pas forcément de grande capacité d’aichage et/ou l’on a toujours l’opportunité d’y être collé tout le temps d’où le contenu informationnel est de plus en plus préférable en audio : les livres, les journaux, les textes de SMS, les commandes pour ergonomie de l’utilisateur, etc ;

Les applications du bien-être : En raison de l’avancement des technologies de l’information, de nouvelles applications pour le bien-être ont été aussi pensées. En eet, étant donné qu’on peut réaliser des systèmes de synthèse vocale plus ou moins performants, il est possible de prévoir la lecture de courriels, de pages web avec des voix qui orent une certaine facilité aux personnes ayant une dé- ficience visuelle. Des essais ont même été eectués, depuis 2003, par fusion des techniques de médecine et de l’ingénierie du domaine de l’oto-laryngologie pour intégrer la synthèse vocale dans la résolution des déficiences du pharynx (Kimura, 2003).

Cependant, la mise au point de ces applications, nécessite des eorts de dé- veloppement ou de création de méthodes d’amélioration des systèmes de syn- thèse vocale appliquées au langage naturel. La synthèse vocale a ainsi connu, au cours de ces deux(02) dernières décennies, beaucoup de travaux car les dé- fis sont nombreux. Alors, les langues comme l’anglais, le français, l’allemand,

Réalisé par: John Oscar Raoul AOGA 28 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE l’italien, ... ont connu beaucoup de travaux et continuent d’en connaître. Ce état de chose est du au fait que les langues ne cessent d’évoluer avec l’arrivée de nouveaux mots, de nouveaux standards, etc. Comme systèmes commer- ciaux aboutis, nous pouvons citer Acapella 4 et Loquendo 5.

2.3.1.1 Les langues africaines en général Les langues africaines ne sont pas restées en marge de l’évolution technolo- gique, même si les ressources numériques disponibles ne sont pas consistantes pour la majorité d’entre elles (Eiselen, 2013; Awoyemi, 2013). Ainsi, les langues telles que l’amharique, le kiswahili, le fongbé, le yorùbá, le wolof ont connu des développements de technologies de synthèse vocale. Dans ce concert de technologies plusieurs méthodes ont vu le jour . Parmi celles-ci une se dé- marque par sa popularité et ses résultats encourageants, il s’agit de la sélection d’unités. Cee méthode a, en eet, permis à l’amharique (Kishore et al., 2007), le kiswahili (Gakuru et al., 2003; Gakuru et al., 2005) et le fongbé (Dagba et Boco, 2014), d’obtenir de bons résultats en somme.

2.3.1.2 Le yorùbá D’après l’étude de l’existant, les récentes recherches en synthèse vocale sur le yorùbá se sont étendues sur trois(03) principaux axes : (i) la reconnaissance vocale (Atanda et al., 2013; van Niekerk et Barnard, 2012; Àkànbí et Odéjobí, 2011; Odélobí, 2008), (ii) les systèmes de dialogues automatiques (Ibiyemi et Akintola, 2012) et (iii) la transcription de texte en parole (TTS) (Afolabi et al., 2013; van Niekerk et Barnard, 2013; Odejobi, 2011; Aibinu et al., 2011; Wong et Beaumont, 2008; Wong et Beaumont, 2007; Odéjobí et al., 2006; Odéjobí et al., 2004).

2.3.2 Notre étude Actuellement dans MaryTTS il existe huit (08) langues à savoir : l’allemand(de), l’anglais(en), le français(fr), l’italien(it), le russe(ru), le suédois(sv), le telugu(te)

4. http://www.acapela-group.com/ 5. http://www.nuance.es/empresas/solucion/soluciones-de-atencion-al-cliente/ servicios-y-soluciones/soluciones-de-recepcion-de-llamadas/ loquendo-small-business-bundle/interactive-tts-demo/index.htm

Réalisé par: John Oscar Raoul AOGA 29 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE et le Turc(tr). Soulignons que le français est l’une des dernières langues à être intégrée par des travaux réalisés par Xavier (2011). Ainsi, MaryTTS n’intègre aucune langue africaine et donc pas le yorùbá. Cependant, les travaux de (Afolabi et al., 2013) utilisant la méthode de concaténation d’unités ont pu aeindre 70% de taux d’acceptation (à l’évaluation par 20 personnes cibles). Les travaux donnant les meilleurs résultats, jugés selon la qualité de la voix synthétisée, sont ceux basés sur l’utilisation d’un corpus de parole (Watanabe et al., 2006). Cependant, d’après la liérature, il n’existe pas de travaux ni sur la conception d’un corpus de parole pour le yorùbá, ni sur les systèmes de syn- thèses basées sur les méthodes de sélection d’unités et de synthèse par MMC. D’où l’objet de notre étude qui consistera dans un premier temps à intégrer le yorùbá à MaryTTS et dans un second temps à produire un corpus de parole et à eectuer des tests préliminaires sur les algorithmes de sélection d’unités.

Réalisé par: John Oscar Raoul AOGA 30 Deuxième partie

Matériels et Méthodes

31 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Chapitre 3

Construction de corpus et intégration du yorùbá à MaryTTS

Les technologies deTTS basées sur l’utilisation de corpus (Corpus-based Text-to-Speech (CTTS)) à savoir Synthèse par sélection d’unités et synthèse par MMC, peuvent être catégorisées en deux groupes (Watanabe et al., 2006), à savoir : 1. les technologies de construction de corpus de parole (Figure 3.1a); 2. et les technologies de synthèse de la voix (Figure 3.1b).

(a) construction de corpus (b) Synthèse de la voix

Figure 3.1 – Technologies deTTS basées sur l’utilisation de corpus

Réalisé par: John Oscar Raoul AOGA 32 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Ainsi, nous avons construit, dans un premier temps, le corpus (qui a consti- tué une part importante de nos travaux) et nous avons ensuite étudié et dé- veloppé des technologies de synthèse de la voix nous permeant d’une part d’évaluer le corpus mais aussi d’avoir un système de base de synthèse vocale qui pourra être amélioré dans de futurs travaux.

3.1 Construction du corpus La construction de corpus de parole, comme nous le montrons à la figure 3.1a, a nécessité la collecte de phrases écrites en yorùbá avec des mots bien orthographiés constituant les données textuelles et les données audio repré- sentant la lecture de chacune des phrases en respectant les règles de pronon- ciation, les tons, les ponctuations (ici représentés par des silences) tout en adoptant un rythme constant dans un environnement de peu de bruits, l’idéal étant un studio où l’on a un environnement propice pour toute sorte d’enre- gistrement.

Après la phase de collecte nous avons abordé la phase d’analyse des données (TEXTE et AUDIO) puis celle d’analyse du corpus de parole.

3.1.1 Données TEXTE et Analyse linguistique L’Analyse de Données Textuelles (ADT) regroupe les méthodes qui visent à découvrir l’information « essentielle » contenue dans un texte (Fallery et Rodhain, 2007). Il existe quatre(04) types d’ADT qui sont : — l’analyse lexicale ( « de quoi » on parle ?) ; — l’analyse linguistique (« comment » on parle ?) ; — l’analyse cognitive (« représenter » la pensée) ; — l’analyse thématique (« interpréter » le contenu).

Logiquement, nous nous sommes intéressés à l’analyse linguistique car les autres analyses ne pouvaient nous servir en synthèse vocale. En terme d’ana- lyse linguistique on a appesanti nos études sur le calcul de la cooccurrence, qui nous a permis ensuite de calculer l’information mutuelle en vue d’appré-

Réalisé par: John Oscar Raoul AOGA 33 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE cier le contexte d’apparition des mots puis des phonèmes dans les phrases du corpus. En eet, comme le disait Mayare (2008), la cooccurrence est la copré- sence ou présence simultanée de deux(02) unités linguistiques (deux(02) mots par exemple ou deux phonèmes) au sein d’un même contexte linguistique (le paragraphe ou la phrase par exemple, ou encore une fenêtre arbitraire).

Soient u et v deux(02) unités d’analyse (assimilable à des mots). Soit f(u) la fréquence d’occurrence du mot u, c’est-à-dire le nombre de fois que le mot u apparaît sur une fenêtre (la fenêtre ici est une phrase). Soit f(u, v) la fréquence de cooccurrence de u et v, c’est-à-dire le nombre de fois que u et v apparaissent dans la même phrase du corpus. Alors l’information mutuelle I(u, v) est don- née par le logarithme du rapport de f(u, v) et de la multiplication de f(u) et de f(v) (équation 3.1). L’information mutuelle moyenne I(U, V ) est donnée par l’équation 3.2. Dans cee équation U et V représentent des variables aléa- toires des fonctions de répartition des mots u et v sur l’ensemble du corpus. On a aussi calculé la proportion de cooccurrence P (u, v) par rapport à l’en- semble des occurrences de u et de v privée des cooccurrences (Voir équation 3.3).

I(u, v) = logf(u, v) − logf(u) − logf(v) (3.1)

X I(U, V ) = f(u, v)I(u, v) (3.2) u,v f(u, v) P (u, v) = (3.3) f(u) + f(v) − f(u, v)

Ainsi, au cours de cee phase, nous pouvons distinguer trois(03) étapes à savoir :

Etape1 : La collecte des données textuelles s’est faite en prenant des docu- ments pêle-mêle sur internet. Il a fallu s’assurer aussi que ce soit des para- graphes (découper après en phrases) pour espérer une cohérence globale du

Réalisé par: John Oscar Raoul AOGA 34 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE corpus. En eet, bien que le sens des phrases importe peu ici, il est important d’avoir des phrases correctes pour faciliter la lecture et mere le lecteur dans un contexte réel et cohérent, ce qui enrichit le corpus de parole en émotions ;

Etape2 : Cee étape nous a permis d’analyser le corpus de texte (niveau phrases). Nous avons, dans un premier temps, produit les statistiques sur la taille du cor- pus en phrases et en mots (nombre de mots, nombre de mots distincts, nombre moyen de mots par phrases,...). Dans un second temps, nous avons calculé l’information mutuelle I(u, v), la proportion de cooccurrence P (u, v) et l’in- formation mutuelle moyenne I(U, V ) (voir les équations 3.1, 3.2 et 3.3). Tous ces calculs ont été eectués grâce au script perl « analyse-text-corpus.perl » (voir annexe C.2);

Etape3 : Au cours de cee étape, nous avons évalué la présence des diérents phonèmes du yorùbá dans chaque phrase, puis dans le corpus. Nous nous sommes ensuite assurés qu’il n’y ait pas une trop grande diérence entre les fréquences d’apparition des diérents phonèmes tout en s’assurant que tous les contextes d’utilisation (ou les plus courants) étaient représentés. C’est ce compromis qui définit l’équilibre vocalique dans le corpus.

A la fin de cee phase nous sommes passés à la phase d’enregistrement et d’analyse des données audio.

3.1.2 Données AUDIO et analyse du signal de parole Cee phase est subdivisée aussi en plusieurs étapes qui sont :

Etape1 : Il était question de trouver un lecteur des données textuelles. Ce der- nier devrait avoir le yorùbá pour langue maternelle et avoir une pratique cou- rante de la langue. Ainsi, nous étions sûres d’avoir des données audio res- pectant non seulement les règles de prononciation et les tons, mais aussi les paramètres prosodiques tels que la rythmique, l’intonation et l’accentuation. Nous avons pris en compte la vitesse de lecture car elle constitue un facteur important jouant sur l’articulation correcte des mots. Nous avons choisi alors

Réalisé par: John Oscar Raoul AOGA 35 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE un profil de journaliste de langue nationale yorùbá en activité qui répondait à l’ensemble de nos critères ;

Etape2 : à cee étape, nous avons choisi un environnement d’enregistrement répondant au critère du « moindre bruit possible ». Nous avons alors décidé que l’enregistrement se ferait dans un studio d’enregistrement ou tard dans la nuit (entre 00h et 04h du matin) ;

Etape3 : cee étape est celle de l’enregistrement proprement dit. Elle est basée sur l’utilisation de l’outil RedStart 1 de MaryTTS (Schröder et Trouvain, 2003). Cet outil nous a permis de calibrer le système sur les paramètres d’enregistre- ment avant le début de toute lecture/enregistrement. Ainsi, on a indiqué les paramètres audio (la fréquence : 44100 Hz, le bit : 16 et le type d’entrée : mono) et les paramètres de timing (le temps avant lecture et après lecture : 2000ms, le temps par caractère : en fonction de la longueur des phases, la pause : 0ms) (voir les Figures 3.2 et 3.3 pour le calibrage). Cet outil nous a permis aussi de réécouter le son, de le réenregistrer ou de visualiser le spectre du signal, le pitch et diagramme d’énergie. Il était possible d’utiliser d’autres outils (au- dacity 2 par exemple) mais qui n’oraient pas autant de fonctionnalités et de compatibilités (utiles pour nous) en un seul système ;

Etape4 : ici, nous avons procédé à un traitement minutieux des enregistre- ments. Nous avons écouté chaque phrase en ayant en face la version écrite puis le spectre du signal pour vérifier que le son n’est pas écrêté (Figure 3.4) ou mal lu. Si l’un et/ou l’autre des cas précédents survenait, l’enregistrement était repris ;

Etape5 : Nous avons eectué la normalisation des enregistrements sous for- mat wav pour les adapter aux systèmes de synthèse vocale avec l’outil au- dio_convertor_GUI 3 de MaryTTS. Cet outil nous a permis de régler non seule- ment l’amplitude globale et la puissance de l’enregistrement par phrase, mais

1. http://mary.opendfki.de/wiki/RedStart 2. http://audacity.fr/ 3. MARYBASE/target/marys-builder-5.1-SNAPSHOT/bin/audio_converter_GUI.sh

Réalisé par: John Oscar Raoul AOGA 36 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Figure 3.2 – Interface RedStart de réglage des paramètres audio

Figure 3.3 – Interface RedStart de réglage des paramètres de timing aussi de filtrer les fréquences de bruit inférieures à 50Hz et d’enlever les si- lences de début et de fin des sons wav (Figure 3.5).

Figure 3.4 – Spectre d’un signal écrêté (haut) et d’un spectre normal (bas)

Réalisé par: John Oscar Raoul AOGA 37 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Figure 3.5 – Fenêtre de normalisation de son

A la fin de cee phase nous disposons des données AUDIO et des données TEXTE qui ont été assemblées pour donner le corpus de parole.

3.1.3 Le corpus de parole Le corpus de parole est un répertoire contenant un sous-répertoire « wav » contenant les enregistrements au format wav et un fichier text.done.data qui se présente sur le format décrit par la formule 3.4. Dans l’exemple de la figure 3.6, « std_yor_001 » est le nom d’un wav existant dans le répertoire « wav » sous le nom « std_yor_001.wav » et correspondant à l’enregistrement de la phrase associée.

(nom du wav sans extension ”phrase en yoruba”) (3.4)

Figure 3.6 – Exemple de présentation du corpus de parole

Réalisé par: John Oscar Raoul AOGA 38 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Après l’obtention du corpus de parole tel qu’on l’a présenté nous avons pro- cédé à une série d’opérations pour l’obtention du modèle prosodique et de la base de données de parole 4. Ces opérations sont présentées dans la section suivante (section 3.2).

3.2 Construction du modèle prosodique et de la base de données de parole Pour concevoir le modèle prosodique et la base de données de parole nous avons utilisé MaryTTS(Schröder et Trouvain, 2003). Son choix ici au détriment de Festival(Black et al., 2002) ou encore de FreeTTS(Walker et al., 2002) est du au fait qu’il est modulaire, multi-plateforme et dispose d’une boite d’outils très riche. Il dispose aussi d’une communauté de résolution des bogues 5 très active. Il implémente dans le même outil deux(02) méthodes de synthèse vo- cale TTS basées sur l’approche orientée corpus à savoir : la sélection d’unités et les MMC. Ainsi, il facilite un travail de comparaison et ore une certaine li- berté de développement de nouveaux modules. MaryTTS intègre entre autres outils le VoiceImportTool 6 qui permet de créer de nouveaux composants de langage. Cependant, MaryTTS est très peu documenté ce qui rend le déver- minage des erreurs très improbable et approximatif. Cet état de chose ralentit le développement. Aussi, par défaut, il associe tous les éléments de langue à l’anglais.

Pour construire le modèle prosodique et la base de données de parole, nous avons d’abord conçu un nouveau module de la langue yorùbá pour MaryTTS nommé « marys-lang-yo » 7. C’est à base de ce module qu’on a créé un nou- veau composant de langue yorùbá qui constitue le système de TTS du yorùbá.

4. Il faut faire la diérence entre corpus de parole et base de données de parole : le corpus de parole c’est ce que nous avions présenté dans la section 3.1.3 alors que la base de données de parole découle du corpus de parole et contient plutôt des segments de son (unités) avec ses paramètres (probabilités d’apparition, contexte, environnement prosodique, critère de concaténation, ...) 5. https://github.com/marytts/marytts/issues?labels= voicebuilding&state=open 6. http://mary.opendfki.de/wiki/VoiceImportToolsTutorial 7. Le nom complet des modules de langue dans MaryTTS est « marys-lang-xy » ou xy désigne un diminutif de langue. Pour l’anglais c’est en, l’allemand de, le français fr, pour le yorùbá nous l’avons nommé yo

Réalisé par: John Oscar Raoul AOGA 39 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Nous présenterons ces deux éléments dans la suite.

3.2.1 La construction d’un nouveau module de langue pour MaryTTS Pour concevoir un nouveau module de langue dans MaryTTS, on s’est servi de la procédure détaillée dans NewLanguageImport 8. En suivant cee procé- dure, nous avons eectué les étapes suivantes :

Etape1 : Conception du fichier allophone.yo.xml qui contient la définition de tous les phonèmes en yorùbá avec leurs caractéristiques ; l’ensemble des élé- ments de la structure vocalique du yorùbá que nous avions abordé dans le chapitre1 (voir annexeA pour le formatage et les détails du fichier xml).

Etape2 : Conception d’un corpus de prononciation en générant des mots avec leurs prononciations correctes grâce au script perl « marys-generer-lexicon- decomposition.perl » (voir annexe C.1). Nous avons associé à ce corpus le cor- pus des travaux de Adédjouma et al. (2013) pour avoir un corpus plus réa- liste. Ce corpus a été utilisé pour apprendre au système comment on transcrit les mots basés sur les MMC implémentés dans l’outil Transcription_GUI de MaryTTS. A la sortie de ce système, nous avons un lexique de prononciation, un système pour la transcription des mots inconnus et un dictionnaire des mots courants du yorùbá.

Etape3 : Implémentation des classes Java permeant de segmenter le texte, de faire la syllabification et la phonémisation des mots.

Après la troisième étape, on a compilé à nouveau le noyau de MaryTTS en intégrant le nouveau module de langue créé qui nous donne alors la localisa- tion en yorùbá dans MaryTTS (Ce qui n’existait pas). Nous avons alors aaqué la deuxième phase qui est la création du composant langue yorùbá.

8. C’est la documentation sur l’ajout de nouveau module de langue dans MaryTTS situé à l’url http: //mary.opendfki.de/wiki/NewLanguageSupport consulté le 20 juin 2014

Réalisé par: John Oscar Raoul AOGA 40 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

3.2.2 La création du composant langue yorùbá dans MaryTTS Pour créer le composant langue yorùbá, nous avons utilisé l’outil VoiceIm- portTool en nous basant sur la procédure décrite dans la documentation Voi- ceImportToolTutorial 9 . Voici les principales étapes que nous avons suivi :

Etape1 : Préparation de l’environnement de travail de VoiceImportTool en configurant les chemins d’accès vers plusieurs librairies externes comme Praat 10, SOX 11, Ergodic Hidden Markov Model (EHMM)(Giustiniani et Pierucci, 1991), HTS(Young et al., 2006), ... ;

Etape2 : Annotation du corpus de parole basé sur l’algorithme de EHMM. On commence par exécuter l’algorithme d’annotation, puis on améliore cee dernière par l’algorithme de Baum Welch (Welch, 2003) et enfin on finit par faire l’alignement du texte et des enregistrements audio. On a obtenu alors des « fichiers.lab » qui constituent la base de toutes les opérations à venir ;

Etape3 : Ainsi, l’étape de la vérification et correction éventuelle de l’annota- tion permet de ne pas avoir des erreurs dans la suite du processus ;

Etape4 : Extraction des paramètres cibles permeant de calibrer le système sur ce que l’on veut faire (les tons, la position des sons, le type de phrase du son, le rythme) ;

Etape5 : Extraction des données de base des fichiers audio à savoir la durée des mots, les silences et les pauses, ... ;

Etape6 : Extraction des modèles acoustiques.

A ce stade, le modèle prosodique et la base de données de parole peuvent être générés. Cee génération varie selon la technologie utilisée. Nous avons utilisé la méthode de sélection d’unités. Alors, pour générer ces deux(02) éléments

9. https://github.com/marytts/marytts/wiki/VoiceImportToolsTutorial 10. http://dare.uva.nl/record/109185 11. http://www.sciencedirect.com/science/article/pii/S001216060099883X

Réalisé par: John Oscar Raoul AOGA 41 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE qui font partie intégrante du composant de langue nous avons suivi les étapes décrites dans UnitSelectionVoiceCreation 12 pour la sélection d’unités . Il faut alors importer le composant ainsi obtenu pour le rendre disponible pour les tests.

La figure 3.7 présente tous les sous-modules que nous avons implémenté et leur interaction. Chacun de ces sous-modules est une classe Java où nous avons implémenté les éléments de prétraitement et de préparation de la phase de traitement du signal sonore qui est indiqué en rose sur la figure (module DSP). La partie en bleu représente la phase de traitement du texte (Module TALN).

Figure 3.7 – Ensemble des sous-modules créés dans MaryTTS et leur interaction

Après avoir présenté l’intégration de la langue yorùbá dans MaryTTS et la conception du corpus de parole nous allons aborder la synthèse vocale de textes yorùbá fournis en entrée. Nous aborderons dans le chapitre4 comment on a eectué la synthèse du yorùbá et les tests.

12. https://github.com/marytts/marytts/wiki/UnitSelectionVoiceCreation

Réalisé par: John Oscar Raoul AOGA 42 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Chapitre 4

Synthèse vocale du yorùbá à partir de MaryTTS

Dans le chapitre3, nous avons abordé la procédure et les outils qui nous ont permis d’obtenir le corpus de parole puis le modèle prosodique et la base de données de parole tels que présentés à la figure 3.1a. La figure 3.1b quant à elle nous présente le schéma global de la synthèse de la voix dont nous avions pré- senté le schéma synoptique au niveau de la figure 2.5 avec les détails fournis dans la section 2.1.

Nous avons suivi les étapes telles que détaillées (section 2.1) à savoir : (i) au niveau du module de TALN une phase de normalisation suivie d’une phase de prononciation et finir par l’analyse prosodique et (ii) au niveau du module DSP l’implémentation du système de synthèse basé sur la sélection d’unités. Cependant nous avons simplifié certains aspects de la procédure. Nous pré- sentons ces simplifications dans la section 4.1.

4.1 La procédure de synthèse TTS pour le yorùbá en pratique Module de TALN : Au niveau de ce module nous avons les trois(03) phases :

Phase 1 : Normalisation. Nous avons implémenté les trois(03) étapes de cee phase :

Réalisé par: John Oscar Raoul AOGA 43 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

1. A l’étape de la segmentation, nous avons adapté le code du sous-module JTokenizer (JTokenizer.java) de MaryTTS au yorùbá ; 2. Au niveau de l’étape du prétraitement, nous avons choisi de supprimer tous les éléments comme les figures, les tableaux, les illustrations, les équations, etc. Nous avons ignoré les chires, les nombres et les sym- boles tels que *, + , -, qui n’ont pas été convertis dans leur correspondant en toutes leres. Alors le texte que nous synthétisons doit être globale- ment un texte en yorùbá ; 3. A cee étape, nous avons maintenu le système d’étiquetage par défaut de MaryTTS. Cet état de chose est dû au fait que MaryTTS n’ore pas la possibilité d’intégrer un module d’étiquetage extérieur qui nous aurait permis d’utiliser le système d’étiquetage morphosyntaxique de Adéd- jouma et al. (2013) qui est précis à 98,4%.

Phase 2 : Prononciation. Au cours de cee phase, nous avons utilisé le lexique de prononciation dont nous avons déjà présenté la conception à l’étape 2 de la section 3.2.1. ant au lexique de noms propres il n’a pas été associé. Au niveau de la prononciation des mots inconnus nous avons utilisé le module d’apprentissage transcription_GUI de MaryTTS basé sur les MMC.

Phase 3 : Analyse prosodique. Un système d’extraction des paramètres proso- diques a été implémenté. Il s’agit en eet d’un système minimal car l’implé- mentation des règles prosodiques par rapport aux spécifications du yorùbá n’ont pas été prises en compte.

Au niveau du module DSP, nous avons utilisé la sélection d’unités en prio- rité quoique nous ayons aussi eectué des tests avec la synthèse basée sur les MMC. Néanmoins, dans notre implémentation nous n’avons pas considéré le comportement du système face aux segments de sons manquants dans la base de données de parole. Il faut en eet faire un compromis entre la taille du cor- pus et le temps de traitement. On peut chercher à avoir un corpus grand bien fourni et avoir un temps de traitement relativement long. Dans ce cas, on es-

Réalisé par: John Oscar Raoul AOGA 44 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE père une qualité de parole en sortie optimale. On peut aussi avoir un corpus moyen avec l’implémentation d’un module de construction de segments man- quants. Ainsi, le temps de traitement est acceptable mais on perd en qualité de voix en sortie du système. Nous avons alors misé sur un corpus grand bien fourni vu que la phase de construction de segments audio n’était pas possible avec MaryTTS.

Nous avons ainsi conçu un système de synthèse en yorùbá de texte en parole. Nous avons alors eectué des tests unitaires puis un test global pour vérifier la performance de notre système.

4.2 Les procédures d’évaluation Pour eectuer les tests nous avons sélectionné du corpus de parole cent(100) phrases écrites en yorùbá (voir annexeB). Ces phrases constituent notre cor- pus de test sur lequel nous avons eectué tous les tests à suivre. Nous avons pris en compte pour ce choix divers critères qui se déclinent comme suit : — prendre des phrases contenant, en majorité, des mots ayant un usage général et courant ; — prendre des phrases riches en phonèmes et retrouver, à travers les cents(100) phrases, l’apparition de la majorité (sinon tous) des phonèmes en jeu ; — éviter des phrases contenant des chires, des nombres ou des symboles non pris en compte mais aussi les mots étrangers.

Nous avons eectué deux(02) types de tests à savoir : les tests unitaires et le test global du système.

4.2.1 Les tests Unitaires Il a été question à ce niveau de tester les deux modules de synthèse notam- ment le module TALN et le module DSP.

Au niveau du module TALN, nous avons soumis au système le corpus de test et nous avons regardé en sortie comment le texte était segmenté et comment

Réalisé par: John Oscar Raoul AOGA 45 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE il procédait à la transcription, en terme de prononciation.

Pour le module DSP, nous avons évalué la qualité du son en sortie en se basant sur le corpus test. Nous avons réalisé ces évaluations sur trois axes qui sont : l’axe en considérant les mots, celui qui considère les phrases et enfin l’axe qui regarde les paragraphes.

En ce qui concerne l’évaluation des mots nous avons calculé le Word Error Rate (WER), donnée par l’équation 4.1. Plus ce coeicient est faible plus la voix en sortie est intelligible (Xavier, 2011).

S + D + I WER = (4.1) N avec — N : le nombre de mots dans le texte donné — S : le nombre de mots mal reconnus — D : le nombre de mots omis — I : le nombre de mots ajoutés

4.2.2 Le test Global Ici, pour évaluer la qualité du synthétiseur du yorùbá, nous avons eectué des tests perceptuels visant à faire noter l’intelligibilité de la voix en sortie et son naturel. Pour ce faire nous avions soumis les voix issues du système pour dix(10) phrases, pris au hasard, du corpus de test à dix (10) locuteurs de la langue yorùbá. Ces locuteurs ont noté le naturel de la voix en sortie. Nous avions ensuite eectué le calcul du score général du système (équation 4.2). Ce calcul est eectué suivant l’évaluation du Score Moyen des Opinions (SMO) (Kishore et al., 2007). Pour faire ce calcul on aecte à chaque type d’apprécia- tion une pondération (un poids) qui permet après de faire le calcul du score ; ce qui constitue la mention du système (voir le tableau IV.I). Cee note per- met de donner une appréciation globale du système toujours en se référant au tableau IV.I.

Réalisé par: John Oscar Raoul AOGA 46 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

N X score = wipi (4.2) i=1 Où — N est le nombre d’appréciation ; ème — wi est la pondération de la i appréciation (voir le tableau IV.I) ème — pi est le pourcentage d’obtention de la i appréciation

Tableau IV.I – Les diérentes appréciations et leur pondération

Appréciation Pondération (w) Excellent 5 Très bien 4 Bien 3 Assez-bien 2 Passable 1 Médiocre 0

Ainsi, après avoir présenté les outils et la méthodologie adoptée pour la mise en œuvre de la synthèse vocale du yorùbá par TTS, dans le chapitre5, nous présentons les résultats.

Réalisé par: John Oscar Raoul AOGA 47 Troisième partie

Résultats et Discussion

48 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Chapitre 5

Résultats et Performances

L’objectif de cee étude est de concevoir un corpus de parole pour la syn- thèse vocale Text-to-Speech (TTS) et de l’appliquer sur la méthode de sélection d’unités. Les résultats, à la lumière de cet objectif, sont répartis en trois(03) parties qui se présentent comme suit : 1. les résultats de l’analyse eectuée sur le corpus ; 2. le modèle de la langue yorùbá et son composant pour MaryTTS ; 3. les tests eectués sur le système de synthèse vocale.

5.1 Analyses eectuées sur le corpus Le corpus de texte collecté sur internet comporte 2 415 phrases en grandes parties des phrases airmatives (2 141 phrases) avec seulement 6% de phrases interrogatives et 5% de phrases exclamatives. Ce corpus contient 46 117 mots (2 275 mots distincts) avec une moyenne de 19 mots/phrases. Ceci fait que nous avons beaucoup de phrases longues qui nous assure de bien prendre en compte le contexte. Nous sommes aussi assurés d’une certaine cohérence sé- mantique. La moyenne d’apparition de mots est 20,27 avec un écart-type de 93,22. Cet écart-type témoigne de la répartition inégale des mots dans le cor- pus. Cee remarque est appuyée par la courbe de la figure 5.1 qui représente la répartition moyenne des fréquences d’apparition des mots dans le corpus. Cet état de chose se justifie par le fait que des mots comme des pronoms, les prépositions apparaissent plus de 1 000 fois dans le corpus tandis que les noms

Réalisé par: John Oscar Raoul AOGA 49 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE communs, les verbes, les adjectifs, les adverbes une centaine de fois et les mots rares, les noms propres, les adjectifs numéraux cardinaux moins de 10 fois.

On remarque, à travers la figure 5.1 que nous avions en terme de catégorie les mots les moins fréquents (Catégorie I sur la figure) qui apparaissent moins de 10 fois) puis la catégorie II pour les mots les plus courants en proportion moyenne à savoir les noms communs, les verbes, les adjectifs (250 fois environ) et les prépositions, conjonctions de subordination et autres éléments de liaison pour la Catégorie III (apparaissant plus de 1 000 fois). Cee figure présente aussi les fluctuations autour des valeurs moyennes en précisant les bornes inférieures et supérieures pour chaque catégorie.

Figure 5.1 – Fonction de répartition des mots

Toutes les statistiques concernant le corpus sont présentées dans le tableau V.I

Le calcul de l’information mutuelle moyenne basé sur la distribution des mots dans le corpus a donné des résultats de valeurs négatives dans la majo-

Réalisé par: John Oscar Raoul AOGA 50 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE rité très proche de zéro (voir figure 5.2). Ces résultats prouvent qu’il y a une certaine indépendance (même une répartition aléatoire) des mots les uns par rapport aux autres au sein des phrases. Ce qui nous permet de croire à la diver- sité de notre corpus et à la prise en compte de la majorité des cas plausibles avec 63 487 relations mot-à-mot identifiées et une moyenne d’environ 27,90 relations par mot.

Tableau V.I – Caractéristiques du corpus de texte

Paramètres Valeurs Nombre de phrases 2 415 Proportion de phrases airmatives 88,65% Proportion de phrases interrogatives 6,05% Proportion de phrases exclamatives 5,30% Moyenne de mots par phrase 11,38 Nombre de phonèmes 148 823 (54 distincts) Fréquence d’apparition par phonèmes 2 705,87 Proportion de phonèmes de ton haut 24,48% Proportion de phonèmes de ton moyen 16,02% Proportion de phonèmes de ton bas 18,60% Proportion de phonèmes consonnes 40,93%

Figure 5.2 – Diagramme en bulle de fréquences d’apparition en fonction de l’information mutuelle

Réalisé par: John Oscar Raoul AOGA 51 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Concernant les phonèmes (les sons) dans le corpus, nous avons inventorié 148 823 pour 54 phonèmes identifiés ce qui fait une moyenne de 2 705,87 de fréquences d’apparition par phonème et un écart-type de 2 122,71. La courbe de la figure 5.3 représente les fréquences d’apparition des phonèmes. La ten- dance linéaire 1, représentée par la ligne en pointillé, est presque constante. Ceci prouve un certain équilibre entre les phonèmes. Pour mieux ainer cee analyse, nous avons fait une répartition des sons en quatre(04) groupes : Groupe1 : les voyelles de ton haut ; Groupe2 : les voyelles de ton moyen ; Groupe3 : les voyelles de ton bas ; Groupe4 : les consonnes.

Figure 5.3 – Courbe des fréquences d’apparition des phonèmes avec une évaluation de la tendance linéaire(droite en pointillé).

Pour chaque groupe, nous avons eectué une classification K-means (en uti- lisant XLSTAT 2 ) des phrases en fonction des distantes (minimale, moyenne et maximale) au barycentre (respectivement DmiB, DmoB, DmaB) et de la va-

1. La tendance linéaire nous donne une idée globale des fluctuations des fréquences d’apparition les unes par rapport aux autres. Ainsi, nous pouvons juger plus facilement des écarts. Elle nous permet ici de vérifier s’il y a équilibre pour les phonèmes. http://office.microsoft.com/fr-001/support/ ajouter-une-courbe-de-tendance-ou-de-moyenne-dans-un-graphique-HA102809798. aspx 2. http:://xlstat.com

Réalisé par: John Oscar Raoul AOGA 52 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE riance intra-classe (VIC). On a obtenu alors trois(03) classes. Le tableau V.II présente pour chaque groupe les détails des éléments de classification. Dans les trois(03) premiers groupes, on remarque que : — environ 52% des phrases présentent, en moyenne, une variance intra- classe inférieure à 7, ce qui veut dire qu’aucun phonème de cee classe n’apparaît 7 fois de plus que les autres (classe 1) ; — environ 30% des phrases présentent une variance intra-classe comprise entre 13 et 20 (classe 2) ; — et environ 20% des phrases présentent une variance intra-classe de plus de 27 (classe 3).

Pour le groupe 4, celui des consonnes, les écarts sont plus grands mais on a noté quand même que 52% des sons n’apparaissent pas 16 fois de plus que les autres. Pour plus de détails sur les profils des classes en terme de relation interclasse par phonèmes voir les figures D.2,D.3,D.4,D.5 de l’annexeD.

Tableau V.II – Détails des classifications K-mean par groupe

Catégories Classes Phrases VIC DmiB DmoB DmaB Groupe1 : tons haut 1 1 237 9,143 1,088 2,883 7,846 2 923 19,223 1,596 4,177 10,286 3 255 50,256 2,486 6,397 33,837 Groupe2 : tons moyen 1 1 406 6,803 0,890 2,470 6,633 2 852 16,295 1,498 3,825 11,017 3 157 41,994 2,590 5,991 16,839 Groupe3 : tons bas 1 1 257 6,362 0,909 2,393 6,053 2 714 27,482 1,627 4,732 18,779 3 444 13,238 1,163 3,421 11,007 Groupe4 : consonnes 1 1 288 16,829 2,091 3,987 7,852 2 910 36,885 2,468 5,915 11,752 3 217 86,094 4,992 8,857 24,136 VIC=Variance intra-classe ; DmiB=Distance minimale au barycentre ; DmoB=Distance moyenne au barycentre ; DmaB=Distance maximale au barycentre.

En ce qui concerne le corpus audio, l’enregistrement eectué avec RedStar s’est passé dans les conditions optimales et a pris quatre(04) semaines de tra- vail homme-jour . Nous avons ainsi obtenu un enregistrement d’une durée d’environ 234 Heures. Nous avons eectué la normalisation des enregistre-

Réalisé par: John Oscar Raoul AOGA 53 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE ments. Etant donné que les enregistrements étaien auto-corrigés pendant la phase d’enregistrement nous n’avons pas eu à supprimer d’enregistrements. Cependant, nous avons récupéré un premier jet d’enregistrements dans lequel nous avons pris 200 éléments constituant l’échantillon de test de l’eicacité du lecteur. Ainsi, nous avons évalué la performance du lecteur que nous présen- tons dans la figure 5.4. On note que : — Les phrases courtes (inférieures à 10 mots) sont à 95% bien lues ; — Les phrases moyennes (comprises entre 10 et 18 mots) sont à 75% bien lues ; — Les phrases longues (plus de 18 mots) sont à 80% bien lues ;

Figure 5.4 – Proportion de qualité de lecture en fonction des classes de phrase

Il faut souligner que les cas de phrases mal lues sont essentiellement dus à : (i) des mots inconnus du lecteur qui nécessitent souvent un temps d’ar- rêt en vue de mieux en évaluer la lecture ou une répétition du même mot, (ii) la fatigue due à la lecture d’un grand nombre de phrases par jour ou la suc- cession de plusieurs phrases longues et (iii) le temps imparti par RedStar qui peut s’avérer être court. Nous avons aussi apprécié l’eicacité dans la lecture des longues phrases avec une vitesse adaptée en gardant une prononciation

Réalisé par: John Oscar Raoul AOGA 54 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE correcte.

Le corpus de parole ainsi obtenu nous présentons dans la section suivante le modèle de yorùbá intégré dans MaryTTS et qui a permis de compiler le composant langue yorùbá.

5.2 Intégration de la langue yorùbá dans MaryTTS Nous avons conçu un lexique de 449 316 mots dont 124 978 sont annotés par étiquetage morphosyntaxique. Ayant appris par MMC sur ce lexique, nous avons obtenu un petit système permeant d’inférer sur la prononciation des mots inconnus qui s’insère dans la dernière phase du composant prononcia- tion du module TALN (voir figure 2.5).

La conception du modèle de langue a impliqué la création du fichier allo- phone.yo.xml qui contient la représentation des diérents sons de la structure vocalique du yorùbá (voir en annexeA).

Ainsi, nous avons une version de MaryTTS qui intègre le yorùbá. Alors nous avons publié cee version 3 qui est disponible à l’adresse suivante https:// github.com/marytts/marytts. Cee version constitue une branche du répertoire principal jusqu’à la prochaine version qui fusionne toutes les branches.

Etant donné que le code est opensource de futurs travaux peuvent s’eectuer en se servant de l’actuelle version comme base. Des travaux de comparaison et/ou d’amélioration peuvent être eectués aisément.

Par rapport à MaryTTS, l’ajout de module yorùbá est un apport en ce sens qu’il n’existait pas de localisation yorùbá.

3. https://github.com/marytts/marytts/wiki/Publishing-a-MARY-TTS-Voice

Réalisé par: John Oscar Raoul AOGA 55 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

5.3 Les tests eectués Le tableau V.III présente les caractéristiques du corpus de test.

Tableau V.III – Caractéristiques du corpus de test

Paramètres Valeurs Nombre de phrases 100 Nombre de mots 1138 (308 distincts) Moyenne de mots par phrase 11,38 Nombre de syllabes 634 (2,05 par mot) Nombre de phonèmes 3611 (54 distincts) Proportion de phonèmes de ton haut 22,29% Proportion de phonèmes de ton moyen 18,43% Proportion de phonèmes de ton bas 19,27% Proportion de phonèmes consonnes 40,01%

Les figures 5.5 et 5.6 présentent les interfaces clientes qui nous ont permis de faire les tests avec les configurations aérentes. Dans le cas des tests de TALN (figure 5.5) nous avons spécifié une sortie en allophone et ensuite nous avons pu comparer le résultat produit avec le texte en entrée pour voir les omissions ou les mauvaises transcriptions. Dans le cas des tests de DSP (figure 5.6), nous avons spécifié une sortie audio que nous avons écouté et fait écouter aussi aux 10 locuteurs.

5.3.1 Résultats sur le module de TALN Le module de TALN segmente et transcrit les phrases sans erreur. Ces résul- tats étaient prévisibles car déjà au cours de la compilation la phase de correc- tion manuelle des transcriptions, nous ne trouvions aucune erreur de trans- cription à corriger. Cee eicacité du système de transcription est due à la présence d’un lexique de transcription très bien fourni et contenant les possi- bilités de transcription éventuelles. Le problème à craindre, dans un premier temps, c’est la transcription des syllabes commençant par « n » ou par « m ». Dans ce cas, la voyelle suivante est nasalisée ; « na » (chicoter) se lit « nan » et non « na ». Dans un second temps, c’est la transcription des mots où les consonnes « n » et « m » sont considérées comme des syllabes à part.

Réalisé par: John Oscar Raoul AOGA 56 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Figure 5.5 – Interface cliente pour les tests sur le module TALN

5.3.2 Résultats sur le module DSP Au niveau du module DSP, les tests sont directement eectués sur la sortie du système. Nous présentons les statistiques des diérentes appréciations des locuteurs dans le tableau V.IV. Le calcul du score (voir équation 5.1 ) donne alors 2,9. Ainsi, on peut retenir que l’appréciation générale du système est Bien.

Tableau V.IV – Les diérentes appréciations et leur pondération

No Appréciation Pondération (w) Statistiques (p) en % 1 Excellent 5 14 2 Très bien 4 30 3 Bien 3 20 4 Assez-bien 2 14 5 Passable 1 12 6 Médiocre 0 10

score = 5×.14 + 4×.3 + 3×.2 + 2×.14 + 1×.12 = 2.9 (5.1)

Réalisé par: John Oscar Raoul AOGA 57 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Figure 5.6 – Interface cliente pour les tests sur le module DSP

Pour le test des mots, sur 64 mots lus 12 mots sont mal reconnus (soit 12/64 = 18,75% en évaluation directe), 7 mots omis et 4 mots ajoutés. Ainsi, le Word Error Rate (WER) donne 35,94 [(12+7+4)/64]. Cela signifie qu’il y a jusqu’à 36 cas, a priori, d’erreurs sur 100 mots lus.

Concernant la lecture des paragraphes, le système arrive à les lire phrase par phrase. Ainsi, la lecture se passe globalement bien. Seulement que le sys- tème prend souvent un peu de temps à produire le signal en sortie en fonction de la taille des paragraphes. Cependant, une évaluation rigoureuse de la per- formance du système au niveau paragraphe n’a pas été eectuée du fait de l’absence de travaux permeant la mesure de la qualité de la voix niveau pa- ragraphe.

Réalisé par: John Oscar Raoul AOGA 58 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Chapitre 6

Discussion et perspectives

Le premier résultat obtenu dans ces travaux est la conception d’un corpus de parole basée sur une méthodologie détaillée qui peut servir dans des tra- vaux similaires pour d’autres langues. Notons aussi que l’apport de l’analyse linguistique pour s’assurer de l’équilibre vocalique s’est avérée très utile. Elle a en eet permis de savoir comment se présente l’ensemble des phonèmes dans le corpus. Cela nous a permis aussi de mieux comprendre les résultats des tests. Ainsi, on s’oriente mieux au moment d’ajout ou d’augmentation de la taille du corpus. Cependant, il subsiste une diiculté de disposer d’un corpus très grand. En eet, les textes du corpus doivent être enregistrés par la même personne sans oublier que cee dernière doit être qualifiée pour faire ce tra- vail. Des travaux sur la possibilité d’associer des sources de voix hétérogènes peuvent permere de se servir de la grande masse de données hétérogènes disponibles.

Concernant le modèle de conception, nous disposons maintenant d’un mo- dule de langue yorùbá dans MaryTTS avec un composant qui figurera dans de futures versions de MaryTTS. Ceci constitue d’une part une amélioration de l’outil et d’autre part une facilitation des travaux de tests, de comparaison et d’amélioration. Cependant, ce modèle devrait subir l’ajout de nouveaux élé- ments de traitement qui permeront de l’ainer les aspects de la prosodie. Soulignons que l’un des facteurs bloquant ici est le temps de traitement du corpus pour la production des modèles prosodiques et la base de données de

Réalisé par: John Oscar Raoul AOGA 59 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE parole. En eet, dans notre cas, nous avons travaillé sur un ordinateur utili- sant quatre(04) processeurs (de deux(02) cœurs chacun avec une fréquence de 2.1GHz) et 4Go de RAM et pour 70 phrases, nous sommes à environ 25 mi- nutes, pour 200 à 02 heures, pour 600 à presque 06 heures, etc. Ceci rend le travail plus long. A l’analyse de ce problème deux perspectives peuvent-être explorées : (i) alléger les algorithmes tout en gardant le maximum d’eicacité, (ii) réfléchir à des algorithmes distribués pour permere l’exécution de ces traitements sur des super calculateurs.

Concernant le système de synthèse vocale, les éléments qualitatifs qui consti- tuent de véritables défis sont (Watanabe et al., 2006) : 1. l’amélioration de la qualité de la voix ; 2. le problème de personnalité ; 3. la prise en compte de l’émotion.

Par rapport au premier point, en terme de qualité de la voix nous avons un score de 2.9 avec une mention Bien dans la qualité de la voix. Cee men- tion, avec la même méthodologie de calcul de score et la même technique de synthèse vocale, est aussi celle obtenue pour l’Amharique (2.9) (Kishore et al., 2007), pour le Fongbé (2.7) (Dagba et Boco, 2014), pour le kiswahili (Gakuru et al., 2003). Les travaux de Afolabi et al. (2013), le plus récent des travaux en yorùbá pour la synthèse vocale, utilisent plutôt la technique de concaténation d’unités. Ils ont abouti à une précision de 70% dans la qualité de la voix avec une méthode de calcul de score diérente. Cependant, nous n’avons trouvé aucun travail, d’après la liérature, présentant d’autres résul- tats sur les systèmes TTS du yoruba. Plusieurs pistes pour des travaux futurs peuvent-être envisagées à savoir : — l’ensemble de ces méthodes d’évaluation est totalement subjectif et il serait bon de penser à des méthodes d’évaluation automatique comme celles qu’on rencontre dans d’autres branches du TALN comme la F- mesure ou encore le score BLEU ;

Réalisé par: John Oscar Raoul AOGA 60 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

— les études sur d’autres approches comme le MMC doivent pouvoir aller à maturation pour permere d’aeindre de meilleures performances ; — l’exploration de nouvelles méthodes comme le reenforcing learning pour la synthèse ou encore les algorithmes de réseaux de neurones pour une modélisation plus eiciente de la sélection d’unités ; — l’hybridation des forces de plusieurs techniques en vue d’obtenir un sys- tème intermédiaire avec une bonne qualité de voix capable de mieux se comporter face aux éléments inconnus du corpus de parole.

En ce qui concerne le taux d’erreur au niveau des mots, il n’existe aucun travail (d’après la liérature) sur la voix naturelle yorùbá. Cependant, pour la voix naturelle en français nous avons 36% pour le WER qui est proche de nos résultats (Xavier, 2011). Néanmoins, en évaluation directe pour le français, nous avons 6% pour le WER contre 18% pour notre système. Il faut noter que les travaux sur le français ont un corpus plus amélioré (Xavier, 2011).

En sélection d’unités, l’opération de lissage qui consiste à éliminer les dis- continuités dégrade la qualité de la voix en sortie et une solution à ce problème serait l’usage d’un corpus très grand (Watanabe et al., 2006). Cependant, cela n’empêche pas que de futurs travaux s’investissent dans l’amélioration de la concaténation de sons qui servira les méthodes de sélection et de concaténa- tion d’unités.

En ce qui concerne les problèmes de personnalité, il faut noter que le fait d’utiliser les voix de quelqu’un avec tous ses paramètres pour produire une voix en sortie peut poser des problèmes juridiques. Néanmoins, cela n’est pas un grand problème actuellement car les voix en sortie ne sont pas encore si naturelles que celles des voix humaines.

Pour le défi de l’émotion dans les textes synthétiques, la résolution du pro- blème est complexe. En eet, le lecteur produit les enregistrements en se met- tant dans un style de lecture narratif. Ceci entraîne une absence totale d’émo- tion. L’idéal est d’avoir des enregistrements pris pêle-mêle dans des situations

Réalisé par: John Oscar Raoul AOGA 61 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE de communication diérentes. Dans notre cas, nous avons pris des phrases issues de paragraphes. Nous les avons ensuite aligné dans une certaine cohé- rence pour amener le lecteur à se trouver dans un environnement de lecture presque réel. Cependant, cela n’a pas aidé à avoir de l’émotion dans les textes lus. Ainsi donc, d’autres pistes doivent être explorées prenant en compte la modélisation de la prosodie.

Pour ce qui en est de l’outil MaryTTS, dans sa future version la localisa- tion yoruba existera. Cependant, l’outil dispose de très peu de documentation expliquant quoi faire concrètement pour l’ajout de nouveaux modules et com- posants. Sur le site oiciel 1 de MaryTTS pour la résolution des problèmes, on a la solution à certains bogues mais une requête d’explications peut ne jamais avoir de suite. D’autres outils comme Festival sont utilisables, mais nos tests dans ceux-ci se sont avérés infructueux car beaucoup de caractères du yorùbá et pour d’autres langues nationales du Bénin (par exemple le Fongbé (Dagba et Boco, 2014)) sont inconnus ou mal traités. De futurs travaux peuvent s’orien- ter vers la mise en place d’un outil adapté à nos langues africaines. Cet outil devra être bien documenté.

1. https://github.com/marytts/marytts/issues/

Réalisé par: John Oscar Raoul AOGA 62 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Conclusion

Les travaux eectués dans le cadre de ce mémoire portent sur l’intégra- tion du yorùbá dans MaryTTS et la synthèse vocale Text-to-Speech (TTS) du yorùbá par sélection d’unités. L’objectif était de concevoir un corpus de parole et d’eectuer, à partir de là, des tests après conception d’un système de syn- thèse utilisant la méthode de sélection d’unités. Ainsi, nous avons obtenu un corpus de parole contenant 2 415 phrases. Le système de synthèse vocale TTS lit les textes yorùbá en entrée et produit en sortie un signal sonore représen- tant la transcription du texte en voix avec une bonne qualité. Pour en arriver là, nous avons utilisé MaryTTS et conçu un modèle et un composant de la langue yorùbá. Cependant, nous avons été confrontés aux cours de nos études à des diicultés liées à la lenteur des traitements, à la disponibilité de la documen- tation et à l’incompatibilité des outils utilisés avec le yorùbá. En conséquence de futures études pourraient s’orienter vers l’amélioration des algorithmes de synthèse pour une meilleure complexité temporelle, la conception d’un outil bien documenté et compatible avec nos langues nationales. Par ailleurs, l’amé- lioration des systèmes pour une meilleure qualité de voix et la synthèse par Modèles de Markov Cachés (MMC) sont de très sérieuses perspectives.

Réalisé par: John Oscar Raoul AOGA 63 Bibliographie

Adédjouma, S. A., Aoga, J. O. R. et Igue, A. M. (2013). Part-of-speech tagging of yorùbá standard, language of niger-congo family, Res. J. Computer and IT Sci. 1(1) : 2–5. Afolabi, A., Omidiora, E. et Arulogun, T. (2013). Development of text to speech system for yoruba language, Innovative Systems Design and Engineering - Special Issue of 2nd International Conference on Engineering and Techno- logy Research 4(9) : 1–8. Aibinu, A. M., Salami, M. J. E., Najeeb, A. R., Azeez, J. et Rajin, S. (2011). Evalua- ting the eect of voice activity detection in isolated yoruba word recog- nition system, 4th International Conference On the Mechatronics (ICOM) 2011 . Àkànbí, L. A. et Odéjobí, O. A. (2011). Automatic recognition of oral vowels in tone language : Experiments with fuzzy logic and neural network models, Applied So Computing 11(1) : 1467–1480. Akinlabi, A. (2004). Yorùbá sound system, NS Lawal and M. Sadiku (ed. s) Hand- book of Yorùbá Life and Culture pp. 453–468. Akinlabi, A. et Liberman, M. (2000). The tonal phonology of yoruba clitics, Linguistik aktuell/linguistics today 36 : 32–62. Aoga, J. O. R. (2012). Etiquetage morphosyntaxique du yoruba standard, une langue de la famille niger-congo et perspectives pour les langues nationales du benin, Master’s thesis, Laboratoire d’électrotechnique des télécom- munications et d’informatique appliquées(LETIA)/EPAC/UAC, Abomey- Calavi, Benin.

64 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Atanda, A. W. F., Yusof, S. A. M. et Hariharan, M. (2013). Yorùbá automatic speech recognition : A review, Rural ICT Development (RICTD) Internatio- nal Conference 2013 1(1) : 116–121. Awoyemi, T. (2013). Emergent trends in english usage : language and the in- ternet, International Journal of English Literature and Culture 1(2) : 33–40. Beutnagel, M., Conkie, A., Schroeter, J., Stylianou, Y. et Syrdal, A. (1999). The AT&T next-gen s system, Joint meeting of ASA, EAA, and DAGA, Citeseer, pp. 18–24. Black, A. W. et Campbell, N. (1995). Optimising selection of units from speech databases for concatenative synthesis. Black, A. W. et Taylor, P. (1994). Chatr : a generic speech synthesis system, Proceedings of the 15th conference on Computational linguistics-Volume 2, Association for Computational Linguistics, pp. 983–986. Black, A. W., Taylor, P., Caley, R. et Clark, R. (2002). The festival speech syn- thesis system, University of Edinburgh 1. Breiman, L., Friedman, J., Stone, C. J. et Olshen, R. A. (1984). Classification and regression trees, CRC press. Dagba, T. K. et Boco, C. (2014). A text to speech system for fon language using multisyn algorithm, Elsevier, Procedia Computer Science, 18th Inter- national Conference on Knowledge-Based and Intelligent Information and Engineering Systems - KES2014 35 : 447 – 455. Dedina, M. et Nusbaum, H. (1991). Pronounce : a program for prononciation bu analogy, Computer Speech and language 5(1) : 55–64. Doval, B. (2010). système de synthèse de la parole, TTS synthesis journal . Dudoit, D. H. (1987). Review of s conversion for english, Journal of the acous- tical society of america (JASA) 82(3). Dudoit, T. (1999). High quality s synthesis : an overview, Journal of Elec- trical and Electronics Engineering, Special Issue of Speech recognition and synthesis 17(1) : 25–37.

Réalisé par: John Oscar Raoul AOGA 65 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Eiselen, E. R. (2013). Establishing the Reliability of Natural Language Proces- sing Evaluation through Linear Regression Modelling, PhD thesis, Linguis- tics and Literary Theory at the Potchefstroom campus of the North-West University. Fakindele, K. J. (2005). Beginner’s Yoruba, Cataloging-in-publication data avai- lable from library of Congress, USA. Fallery, B. et Rodhain, F. (2007). atre approches pour l’analyse de données textuelles : lexicale, linguistique, cognitive, thématique, XVIème Confé- rence Internationale de Management Stratégique pp. 1–27. Montréal, Ca- nada. Friche, C. (2002). La reconnaissance vocale, EIVD/ institut TCOM pp. 1–22. Gakuru, M., Iraki, F., Tucker, R., Shalanova, K. et Ngugi, K. (2003). Design of speech data base for unit-selection in kiswahili s, E-Tech 2004 . Gakuru, M., Iraki, F., Tucker, R., Shalanova, K. et Ngugi, K. (2005). Development of a kiswahili text to speech system, in Proceedings of the Interspeech 2005 . Garry, J. et Rubino, C. (2001). Fact about the yoruba’s languages : an encyclo- pedia of the world’s major languages, past and present, An England Publi- shing Associates Book. Gbadou, Y. A. O. (2013). Système de traduction automatique pour le couple de langue yorùbá-anglais en exploitant un corpus bilingue parallèle, Master’s thesis, Laboratoire d’électrotechnique des télécommunications et d’in- formatique appliquées(LETIA)/EPAC/UAC, Abomey-Calavi, Benin. Giustiniani, M. et Pierucci, P. (1991). Phonetic ergodic hmm for sreccn syn- thesis. Gonzalvo, X., Socoró, J. C., Sanz, I. I., Monzo, C. et Martínez, E. (2007). Linguis- tic and mixed excitation improvements on a hmm-based speech synthesis for castilian spanish., SSW, pp. 362–367.

Réalisé par: John Oscar Raoul AOGA 66 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Hariharan, M., Chee, L. S., Ai, O. C. et Yaacob, S. (2012). Classification of speech dysfluencies using lpc based parameterization techniques, Journal of medical systems 36(3) : 1821–1830. Hunt, A. J. et Black, A. W. (1996). Unit selection in a concatenative speech synthesis system using a large speech database, Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEE In- ternational Conference on, Vol. 1, IEEE, pp. 373–376. Ibiyemi, T. et Akintola, A. (2012). Automatic speech recognition for telephone voice dialling in yorùbá, International Journal of Engineering 1(4). Igue, A. M. (2009). Grammaire Yorùbá de base abrégée, Center for Advanced Studies of African Society (CASAS), monograph 238. Kimura (2003). Fusion of medicine and engineering in otolaryngological do- main : Speech synthesis, Jibika Sosetsu . Kishore, S., Black, A., Kumar, R. et Sangal, R. (2007). Unit selection voice for amharic using festvox, International Journal Relation 10(1) : 47–97. Kla, D. H. (1980). Soware for a cascade/parallel formant synthesizer, the Journal of the Acoustical Society of America 67(3) : 971–995. Kurematsu, A., Takeda, K., Sagisaka, Y., Katagiri, S., Kuwabara, H. et Shikano, K. (1990). Atr japanese speech database as a tool of speech recognition and synthesis, Speech Communication 9(4) : 357–363. L’haire, S. (2011). Traitement Automatique des Langues et Apprentissage des Langues Assisté par Ordinateur : bilan, résultats et perspectives, PhD thesis, University of Geneva. Marchand, Y. et Damper, R. I. (2000). A multistrategy approach to improving pronunciation by analogy, Computational Linguistics 26(2) : 195–219. Mayare, D. (2008). L’entrelacement lexical des textes, co-occurrences et lexi- comÉtrie, Texte et Corpus 1(3) : 91–102. Montréal, Canada. O’Cinneide, A., Dorran, D. et Gainza, M. (2007). A brief introduction to speech synthesis and voice modification.

Réalisé par: John Oscar Raoul AOGA 67 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Odejobi, O. A. (2011). Design of a text markup system for yorùbá text-to- speech synthesis applications, Proceedings of the Conference on Human Language Technology for Development pp. 74–80. Odéjobí, O. A., Beaumont, A. J. et Wong, S. H. S. (2004). A computational model of intonation for yorùbá text-to-speech synthesis : Design and analysis. paper presented at the text, Speech and Dialogue . Odéjobí, O. A., Beaumont, A. J. et Wong, S. H. S. (2006). intonation contour realisation for standard yoruba text to speech synthesis a fuzzy compu- tational approach, computer speech and Language 20 : 563–588. Odélobí, O. A. (2008). Recognition of tones in yorùbá speech : Experiments with artificial neural networks speech, Audio, Image and Biomedical Si- gnal Processing using Neural Networks - Springer pp. 23–47. Pagel, V. K., Lenzo, A. et Black, A. (1998). Leer to sound rules for accented lexicon compression, ICSLP proceedings . Rashad, M. Z., Hazem, H. M., Ismail, I. R. et Mastorakis, N. (2010). An overview of s synthesis techniques, Proceedings of the 4th international conference on Communications and information technology pp. 84–89. Rosenberg, C. et Sejnowski, T. (1986). A parallel network that learns to read aloud, EE and CS technical report, JHU-EECS 86(1). Rowlands, E. C. (1969). Teach Yoursel Yoruba, The english universities press ltd. Toth, B. et Nemeth, G. (2010). Improvements of Hungarian Hidden Markov Model-based Text-to-Speech Synthesis, Acta Cybern 19(4) : 715–731. van Niekerk, D. R. et Barnard, E. (2012). Tone realisation in a yoruba speech recognition corpus, Speech Communication . van Niekerk, D. R. et Barnard, E. (2013). Predicting uerance pitch targets in yorùbá for tone realisation in speech synthesis, Speech Communication . Walker, W., Lamere, P. et Kwok, P. (2002). Frees : a performance case study.

Réalisé par: John Oscar Raoul AOGA 68 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Watanabe, S., Kaneyasu, T., Iwaki, T. et Miki, K. (2006). Corpus-based text-to- speech and its application, Oki Technical Review :Special Issue on Custo- mer Case Examples 73(2) : 62–65. Issue 206. Welch, L.R. (2003). Hidden Markov models and the Baum-Welch algorithm, IEEE Information Theory Society Newsleer 53(4) : 10–13. Wong, S. H. S. et Beaumont, A. J. (2007). A fuzzy decision tree-based duration model for standard yorùbá text-to-speech synthesis, Computer Speech and Language 21(2) : 325–349. Wong, S. H. S. et Beaumont, A. J. (2008). A modular holistic approach to pro- sody modelling for standard yorùbá speech synthesis, Computer Speech and Language 22(1) : 39–68. Xavier, F. (2011). Synthèse vocale : intégration du français au système marys, Master’s thesis, UPMC, IRCAM (centre Pompidou), Master ATIAM. Yamagishi, J., Usabaev, B., King, S., Was, O., Dines, J., Tian, J., Guan, Y., Hu, R., Oura, K., Wu, Y. et al. (2010). Thousands of voices for HMM-based speech synthesis–Analysis and application of TTS systems built on va- rious ASR corpora, Audio, Speech, and Language Processing, IEEE Transac- tions on 18(5) : 984–1004. Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J., Ollason, D., Povey, D. et al. (2006). The htk book (for htk version 3.4), Cambridge university engineering department 2(2) : 2–3.

Réalisé par: John Oscar Raoul AOGA 69 Webographie

Black, A. W. et Lenzo, K. A. (2007). Building Synthetic Voices, Language Tech- nologies Institute, Carnegie Mellon University. consulté le 10/07/2014. Gezundhajt, H. (1998). La phonétique et la phonologie, Département d’études françaises de l’Université de Toronto pp. 74–80. Consulté le 27- 05-2014. Schröder, M. et Trouvain, J. (2003). The german text-to-speech syn- thesis system mary : A tool for research, development and teaching., International Journal of Speech Technology 6 : 365– 377. consulté le 05/06/2014. SPSS (2011). CART Algorithms, IBM :SPSS Support. consulté le 10/07/2014.

70 Table des matières

Dédicace iii

Remerciements iv Liste des sigles et abréviations vi Notations vii

Liste des tableaux viii Liste des figures ix

Résumé xi Abstract xii Introduction1 1 Contexte et Justification...... 1 2 Problématique...... 2 3 Objectifs...... 3

I Synthèse Bibliographique 5 1 Langue yorùbá et sa structure vocalique6 1.1 Présentation des sons en yorùbá...... 6 1.1.1 Les voyelles...... 7 1.1.2 Les consonnes...... 9 1.1.3 Les tons...... 10 1.1.4 Structures syllabiques...... 12 1.2 Prosodie...... 13 2 Synthèse vocale et état de l’art 15 2.1 Synthèse TTS...... 15 2.1.1 Principes...... 16 2.1.1.1 Module TALN...... 17 2.1.1.2 Module DSP...... 20

71 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

2.1.2 Les diérentes approches pour la synthèse vocale.... 20 2.1.3 Présentation de l’approche de synthèse vocale retenue. 20 2.2 Présentation de MaryTTS...... 26 2.3 Solutions et applications existantes pour la synthèse vocale.. 27 2.3.1 Les applications où l’on rencontre la synthèse vocale. 28 2.3.1.1 Les langues africaines en général...... 29 2.3.1.2 Le yorùbá...... 29 2.3.2 Notre étude...... 29

II Matériels et Méthodes 31 3 Construction de corpus et intégration du yorùbá à MaryTTS 32 3.1 Construction du corpus...... 33 3.1.1 Données TEXTE et Analyse linguistique...... 33 3.1.2 Données AUDIO et analyse du signal de parole..... 35 3.1.3 Le corpus de parole...... 38 3.2 Construction du modèle prosodique et de la base de données de parole...... 39 3.2.1 La construction d’un nouveau module de langue pour MaryTTS...... 40 3.2.2 La création du composant langue yorùbá dans MaryTTS 41 4 Synthèse vocale du yorùbá à partir de MaryTTS 43 4.1 La procédure de synthèse TTS pour le yorùbá en pratique... 43 4.2 Les procédures d’évaluation...... 45 4.2.1 Les tests Unitaires...... 45 4.2.2 Le test Global...... 46

III Résultats et Discussion 48

5 Résultats et Performances 49 5.1 Analyses eectuées sur le corpus...... 49 5.2 Intégration de la langue yorùbá dans MaryTTS...... 55 5.3 Les tests eectués...... 56 5.3.1 Résultats sur le module de TALN...... 56 5.3.2 Résultats sur le module DSP...... 57 6 Discussion et perspectives 59 Conclusion 63

Bibliographie 64 Webographie 69

Table des matières 73

Réalisé par: John Oscar Raoul AOGA 72 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Annexes 75

A Les divers phonèmes de yorùbá et leur représentation phoné- tique (IPA) 75 B Les phrases de test 78

C Les scripts Perl de prétraitement des textes yorùbá 82 C.1 marys-generer-lexicon-decomposition.perl...... 82 C.2 analyse-text-corpus.perl...... 84 D Des statistiques concernant les phonèmes 92

Réalisé par: John Oscar Raoul AOGA 73 Annexes

74 Annexe A

Les divers phonèmes de yorùbá et leur représentation phonétique (IPA)

< allophones name= "sampa" xml:lang = "yo" f e a t u r e s = "vlng vheight vfront vrnd ctype cplace cvox" >

< !−− −−>

< !−−vheight:[1,3]; vfront:[1,3]; vrnd:( − ,+); −−> < !−−ctype:(s,f,n,r) − consonant type: stop fricative nasal approximant −−> < !−−c p l a c e :(l,a,p,v,d,g) − place of articulation: labial alveolar p a l a t a l velar labio−velar glottal −−> < !−−cvox:( − ,+); −−>

< s i l e n c e ph= "_" / >

< !−− Vowel−−> < !−−i−−> < !−−−−> < !−−−−>

< !−− Nasal vowel −−>

< !−− Long vowel−−>

75 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

< !−− Ton haut −−> < !−−í−−>

< !−− Ton bas −−> < !−−ì−−>

< !−− consonant−−> < !−−p−−>

Réalisé par: John Oscar Raoul AOGA 76 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

< !−−j−−> < !−−−−> < !−−−−> < !−−y−−>

< / allophones >

Réalisé par: John Oscar Raoul AOGA 77 Annexe B

Les phrases de test

Wày í o , i l è. ay é wà n í bo. r o. g i d i , ó s ì s. ófo, òkùnkùn sì wà lójú. Nígbà náà ni ìmó. l è. wá wà . Kí ìpínyà sì s. e. l è. láàárín omi àti omi. Al é. sì wá wà, òwúròÌ£ sì wá wà, àyí ni o. j ó. k e j ì . K í i l è. gb í gb e. s ì f a r a hàn . Ó s ì wá r í b é. è. . Síwájú sí i, O. l ó. run rí i pé ó dára. Ewéko tí ó mú irúgbìn jáde. Àwo. n igi eléso tí ó so àso ní irú tiwo. n, tí irúgbìn rè. wà n í nú r è. , l ó r í i l è. ay é . Ó s ì wá r í b é. è. . I l è. ay é s ì b è. r è. sí mú koríko jáde. Ewéko tí ó mú irúgbìn jáde ní irú tirè. à t i àwo. n igi tí ó so àso , tí irúgbìn rè. wà n í nú r è. , n í i r ú t i r è. . Wo. n yóò sì wà fún àmì àti fún àwo. n àsìkò àti fún àwo. n o. j ó. à t i à wo. n o. dún . À t i l á t i j o. ba ní òÌ£sán àti ní òru àti láti mú kí ìpínyà wà láà á r í n ìmó. l è. àti òkùnkùn. e. ran agbéléjè. à t i e. ran tí ó rìn ká àti e. ranko ì gb é. i l è. ay é n í i r ú t i r è. . Àti olúkúlùkù e. ran tí ó rìn ká ilè. n í i r ú t i r è. . K í e. sì di púpòÌ£, kí e. s ì kún i l è. ay é , k í e. s ì s. àkáwó. r è. . K í ó j é. oú nj e. f ún y í n . Ni mo ti fún ní gbogbo ewéko tútù yòÌ£yòÌ£ gé. gé. b í oú nj e. . ó dá ra gan−an ni . Bí òÌ£run àti ilè. ayé àti gbogbo e. gb é. o.mo. ogun wo. n s. e wá s í à s. epar í n ì ye. n .

78 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Ó s ì s. e é n í o. l ó.wòÌ£, nítorí pé inú rè. ni ó ti ó sinmi kúrò nín ú gbogbo i s. é. r è. t í O. l ó. run ti dá fún àte s. í s. e . Wàyí o, kò tíì sí igi kéékààké tí ó wà ní ilè. ay é . Kò sì sí ànìyàn kankan láti ro ilè. . Nípa báyìí, O. l ó. run mú kí olúkúlùkù igi tí ó fani mó. ra n í wíwò . Orúko. àyí àkíní ni. Wúr à i l è. ná à s ì dá ra . Orúko. odò kejì sì ni. òun ni àyí tí ó yí gbogbo ilè. Kú s. ì ká . Orúko. odò ke. t a s ì ni Hí dé. ké. l ì . Èmi yóò s. e o l ù r à n l ó.wó. kan fún un, gé. gé. b í à s. ekún r è. . Ohun yòówù tí o. kùnrin náà bá sì pà é, alààyà o. kàn kòÌ£òÌ£kan, ì ye. n ni or úko. r è. . Nítorí náà, o. kùnrin náà ó so. gbogbo e. ran agbéléjè. à t i àwo. n è. dá tí ó fò ní ojú òÌ£run àti gbogbo e. ranko inú pápá lórúko. . S. ùgbó. n fún ànìyàn, kò sí olùrànló.wó. kankan gé. gé. b í à s. ekún r è. . Lé. yìn náà, ó pa e. ran dé mó. àyà r è. . Obìnrin ni a óò máa pe àyí,Nítorí pé láti ara o. kùnrin ni a ti m ú ày í wá . Bé. è. ni, igi náà fani ló. kàn mó. ra l á t i wò . Nítorí náà, ó mú nínú àso rè. , ó s ì j e. é. . Nítorí náà, wó. n gán ewé òÌ£pòÌ£tó. , ò Ì £ p ò Ì £ t ó. pò Ì £ . Nítorí náà, mo sì je. . K í ni ìwo. s. e y ì í ? Obìnrin náà fàsì pé: Ejò−òun ni ó tàn mí, nítorí, nítorí. I k ù r e. ni ìwo. yóò máa fi, ikùn re. ni ìwo. yóò má a f i wó. , ekuru s ì ni ohun tí ìwo. yóò má a j e. . B í ìwo. bá y í j ú s í s. í s. e rere, ara re. kò ha ní yá gágá bí? S. ùgbó. n b í ìwo. kò bá yíjú sí s. í s. e rere , è. s. è. l úgo. s í e. nu ò Ì£n à , ì f à s í−o. kàn r è. s ì wà f ún o. . òun s ì s o. pé: Èmi kò mòÌ£. Èmi ha ni olùtó. jú arákùnrin mi bí? Látàrí àyí, ó wí pé: Kí ni ìwo. s. e ? F e t í s í l è. ! È. j è. arákùnrin re. ó ké jáde sí mi láti inú ilè. . Lé. yìn náà, a bí Írádì fún Énó. kù . Ó j é. o l ù p i l è. s. è. gbogbo àwo. n tí ó lo háàpù àti fàrà ape. B í a óò bá gb è. san Kéànì ní ìgbà méje. Èyí ni ìwé òÌ£ròÌ£−ì t àn n í pa Ádámù .

Réalisé par: John Oscar Raoul AOGA 79 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Ako. àti abo ni ó dá wo. n . Ádámù s ì ó bá a n ì s. ó láti wà láàyà fún àádóje o. dún . Láàárín àkókò náà, ó bí àwo. n o.mo. kùnrin àti àwo. n o.mo. b ì n r i n . Lé. yìn náà, ó bí Énó. s. ì . Láàárín àkókò náà, ó bí àwo. n o.mo. kùnrin àti àwo. n o.mo. b ì n r i n . Nítorí náà, gbogbo o. j ó. Kénánù j é. è. é. dé. gb è. r ún o. dún ó l é mé.wà á , ó s ì kú . Ó s ì b è. r è. s í pe or úko. r è. n í Nóà . Nóà s ì d i e. ni è. é. dé. gb è. t a o. dún . Nóà j é. o l ódodo . Ìwo. yóò s. e tísóhárì òrùlé. Èmi sì fìdí májè.mú mi mú l è. pè. l ú r e. . Ako. à t i abo ni wo. n yóò j é. . Ní nú è. dá tí ó fò ní irú tiwo. n àti nínú àwo. n e. ran agbéléjè. n í i r ú tiw o. n . Nínú gbogbo e. ran tí ó rìn lórí ilè. ní onírúurú tiwo. n , mé j ì n í nú òÌ£kòÌ£òÌ£kan ni yóò wo. l é s ó. dò Ì £ r e. n í b è. l á t i pa wó. n mó. l á à yà . Ní t ì r e. , sì mú gbogbo onírúurú oúnje. j í j e. f ún ara r e. . k í o s ì kó o j o. s ó. dò Ì £ ara r e. , k í ó s ì j é. oú nj e. f ún o. à t i f ún w o. n . Ní t o r í ìwo. ni mo rí pé ó jé. olódodo níwájú mi nínú ìran yìí. Nínú gbogbo e. ranko t í ó mó. , k í ìwo. mú mé je −mé j e s ó. dò Ì £ ara r e. , à gb à−ako. à t i abo r è. . Àwo. n ibodà ibú omi òÌ£run sì s. í . Omi náà sì ó pòÌ£ sí i. Ó s ì b è. r è. sí gbé áàkì náà. Ó sì léfòó lókà ilè. ay é . Omi náà kún bolè. , ó sì ópòÌ£ sí i ló. pò Ì £ l ó. pòÌ£ lórí ilè. ay é , s. ùgbó. n áàkì náà ó lo. l ó j ú omi . Nítorí náà, gbogbo e. ran tí ó rìn lórí ilè. ay é gb é.mì í mì . Ní nú àwo. n è. dá tí ó fò àti nínú àwo. n e. ran agbéléjè. à t i n í nú àwo. n e. ranko ì gb é. . Nípa báyìí, ó nu gbogbo ohun tí ó wà lórí ilè. kú r ò . Omi náà sì ó bá a lo. ní kíkún bo ilè. ay é f ún à ádó. j o. o. j ó. . Omi ná à s ì b è. r è. s í f o. n kúrò lórí ilè. ay é , n í kè. r è. kè. r è. ni ó ó f o. n . Lé. y ì n ì ye. n , ó r án e. ye. ìwò kan jáde. Àdàbà náà kò sì rí ibi ìsinmi fún àté. l e. s è. r è. .

Réalisé par: John Oscar Raoul AOGA 80 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Ó s ì ó bá a l o. láti dúró fún o. j ó. méje mìíràn sí i. Lé. yìn náà, ó rán àdàbà náà jáde, s. ùgbó. n kò tún padà wá só. dò Ì £ r è. mó. r á r á . Gbogbo è. dá alààyà, gbogbo e. ran tí ó rìn àti gbogbo è. dá t í ó f ò . Olúkúlùkù ohun tí ó rìn lórí ilè. ayé, ní ìbámu pè. l ú ì d í l é wo. n ni wó. n jáde kúrò nínú áàkì. K í e. sì di púpòÌ£, kí e. s ì kún i l è. ay é . O.wó. y í n ni a f i wó. n lé nísinsìnyí. Gbogbo e. ran tí ó rìn, tí ówà láàyà, là jé. oú nj e. f ún y í n . Gé. gé. bí ó ti rí ní ti ewéko tútù yòÌ£yòÌ£, mo fi gbogbo rè. f ún yín ní ti gidi. Àkúnya omi kì yóò sì s. e. l è. mó. l á t i run i l è. ay é . Ní ì ran−ìran fún àkókò tí ó lo. ká n r i n . Òs. ùmàrà yóò sì yo. n í àwo. s ánmà . Dájúdájú, àmi yóò sì rí i láti rántí májè.mú náà fún àkókò tí ó l o. kánrin láàárín O. l ó. run àti gbogbo alààyà. K í ó d i e. r ú t í ó r e. l è. j ù l o. f ún àwo. n arákùnrin rè. . Wày í o , a b è. r è. s í b í àwo. n o.mo. f ún wo. n l é. yìn àkúnya omi. òÌ£kòÌ£òÌ£kan ní ìbámu pè. l ú ahó. n r è. , n í ì bámu pè. l ú ì d í l é wo. n , n í pa or í l è.−àdà wo. n . Èyí ni ìlú ólá títóbi.

Réalisé par: John Oscar Raoul AOGA 81 Annexe C

Les scripts Perl de prétraitement des textes yorùbá

C.1 marys-generer-lexicon-decomposition.perl

1 #!/usr/bin/perl

2

3 ########################################################################

4 # #

5 # Fichier: marytts −generer−lexicon−decomposition.perl#

6 # Contenu: Analyse dur corpus de texte et production de stats#

7 # Auteur: John Oscar Raoul AOGA(johnaoga@gmail. com)#

8 # Os: Linux Mint 15 petra#

9 # Cmdd’usage:./ marytts −generer−lexicon−decomposition.perl#

10 # Description: #

11 # − Récupérer la liste des son et leur transcription#

12 # − générer les mots et leur transcription en faisant des combinai − #

13 # son Voyelles et consonnes#

14 # 19 juin 2014#

15 ########################################################################

16

17 # use Getopt::Std;

18 # getopts(’h’);

19 ### perl../../../ cmd/marytts −generer−lexicon−decomposition.perl> out − entry

20

21 open(TABCOR ,"original −s u b t i t u e");

22 while ( ) {

23 next if $_ eq"\n";

24 chomp;

82 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

25 die "Error␣in␣line:␣$_" unless / ^ ( . + ? ) \s( . + ? ) $ / ; #\\/

26 $tabcor{$1} = $2;

27 }

28 close(TABCOR) ;

29

30 open(VOY ,"voyel −lhm");

31 while ( ) {

32 next if $_ eq"\n";

33 chomp;

34 die "Error␣in␣line:␣$_" unless / ^ ( . + ? ) $ / ;

35 $v { $1 } = $1 ;

36 }

37 close(VOY) ;

38

39 open(CON,"conson −d i a");

40 while ( ) {

41 next if $_ eq"\n";

42 chomp;

43 die "Error␣in␣line:␣$_" unless / ^ ( . + ? ) $ / ;

44 $c { $1 } = $1 ;

45 }

46 close(CON) ;

47

48 #v etv −v

49 #print";;V etV −V\n";

50 foreach $keyc (keys %v ) {

51 print $keyc ,"␣’" ,$tabcor{$keyc},"\n";

52 foreach $keyv (keys %v ) {

53 print $keyc ,$keyv ,"␣’" ,$tabcor{$keyc}," −" ,$tabcor{$keyv},"\n";

54 }

55 }

56

57 #c

58 #print";;C\n";

59 foreach $keyc (keys %c ) {

60 print $keyc ,"␣’" ,$tabcor{$keyc},"\n";

61 }

62

63 #cv

64 #print";; CV\n";

65 foreach $keyc (keys %c ) {

66 foreach $keyv (keys %v ) {

67 $comb {"$keyc$keyv"} ="$tabcor{$keyc}$tabcor{$keyv}";

68 print $keyc ,$keyv ,"␣’" ,$tabcor{$keyc} ,$tabcor{$keyv} ,"\n";

69 }

70 }

71

Réalisé par: John Oscar Raoul AOGA 83 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

72 #cv−v

73 #print";; CV −V\n";

74 foreach $keyc (keys %comb ) {

75 foreach $keyv (keys %v ) {

76 print $keyc ,$keyv ,"␣’" ,$comb{$keyc} ," −" ,$tabcor{$keyv},"\n";

77 }

78 }

79

80 #v−cv

81 #print";;V −CV\n";

82 foreach $keyc (keys %v ) {

83 foreach $keyv (keys %comb ) {

84 print $keyc ,$keyv ,"␣" ,$tabcor{$keyc}," −’" ,$comb{$keyc} ,"\n";

85 }

86 }

87

88 #cv−cv

89 #print";; CV −CV\n";

90 foreach $keyc (keys %comb ) {

91 foreach $keyv (keys %comb ) {

92 print $keyc ,$keyv ,"␣’" ,$comb{$keyc} ," −" ,$comb{$keyv} ,"\n";

93 }

94 }

C.2 analyse-text-corpus.perl

1 #!/usr/bin/perl

2 ########################################################################

3 # #

4 # Fichier: analyse −test −corpus.perl#

5 # Contenu: Analyse dur corpus de texte et production de stats#

6 # Auteur: John Oscar Raoul AOGA(johnaoga@gmail. com)#

7 # Os: Linux Mint 15 petra#

8 # Cmdd’usage:./ analyse −text−corpus.perl#

9 # Description: #

10 # − normalise le texte pour une meilleur utilisation des lettres yor#

11 # − l i t les fichiers contenant les phonàmes#

12 # − genere les stats niveau mots, niveau phonàme, calculI(U,V)#

13 # 19 juin 2014#

14 ########################################################################

15

16 # use Getopt::Std;

17 # getopts(’h’);

18

19

20 sub t o l o w e r {

21 s/ É / é / g ;

Réalisé par: John Oscar Raoul AOGA 84 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

22 s/E. / e. / g ; 23 s/ È / à / g ;

24 s/À/ à / g ;

25 s/Á/ á / g ; 26 s/S. / s. / g ; 27 s/È. / è. / g ; 28 s/ Ì / ì / g ; 29 s/O. / o. / g ; 30 s/ÒÌ£/òÌ£/g;

31 s/Ó/ ó / g ;

32 s/Ò/ ò / g ;

33 s/ Í / í / g ;

34 s/N/` n` / g ;

35 s / \ . / . / g ;

36 s / \ ? / ? / g ;

37 s / ! / ! / g ;

38 s/ , / , / g ;

39 s / : / : / g ;

40 s / ; / ; / g ;

41 s/\s\s+/ / g ;

42

43 $ t o l = lc( $_ ) ;

44 }

45

46 sub fortonstat{

47 if(index( $tonhaut ,"\t$key\t")!= −1) {print SSTATSH"$key\t";}

48 if(index($tonmoyen ,"\t$key\t")!= −1) {print SSTATSM"$key\t";}

49 if(index( $tonbas ,"\t$key\t")!= −1) {print SSTATSB"$key\t";}

50 if(index($consonne ,"\t$key\t")!= −1) {print SSTATSC"$key\t";}

51 }

52

53 sub fortonstat2{

54 if(index( $tonhaut ,"\t$key\t")!= −1) {print SSTATSH $_[0];}

55 if(index($tonmoyen ,"\t$key\t")!= −1) {print SSTATSM $_[0];}

56 if(index( $tonbas ,"\t$key\t")!= −1) {print SSTATSB $_[0];}

57 if(index($consonne ,"\t$key\t")!= −1) {print SSTATSC $_[0];}

58 }

59

60 sub fortonstat3{

61 print SSTATSH $_[0];

62 print SSTATSM $_[0];

63 print SSTATSB $_[0];

64 print SSTATSC $_[0];

65 }

66

67 if (! open SONDOUBLE ,’<’,’son_double’){

68 die "Erreur␣ ouverture␣($!)";

Réalisé par: John Oscar Raoul AOGA 85 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

69 }

70 if (! open SONSIMPLE,’<’,’son_simple’){

71 die "Erreur␣ ouverture␣($!)";

72 }

73 if (! open PHPARTON ,’<’,’ph_par_ton’){

74 die "Erreur␣ ouverture␣($!)";

75 }

76

77 open DICOMOT,’>’,’dico_mots’;

78 open DICOSON ,’>’,’dico_sons’;

79 open SSTATS,’>’,’sentence_stats’;

80 open SSTATSH,’>’,’sentence_statsh’;

81 open SSTATSM ,’>’,’sentence_statsm’;

82 open SSTATSB,’>’,’sentence_statsb’;

83 open SSTATSC,’>’,’sentence_statsc’;

84 open PROBA ,’>’,’proba_stats’;

85 open PROBAF ,’>’,’probaF_stats’;

86 open PROBAI,’>’,’probaI_stats’;

87 open PROBAP ,’>’,’probaP_stats’;

88

89 while() {

90 chomp;

91 $son_simple{$_} = $_;

92 }

93

94 while( ) {

95 chomp;

96 $son_double{$_} = $_;

97 }

98

99 while( ) {

100 chomp;

101 $ph_par = $_;

102 }

103 ($tonhaut ,$tonmoyen , $tonbas ,$consonne)=split(/_/,$ph_par);

104

105 print SSTATS"Ph";

106 while (($key,$val) = each %son_double) {

107 print SSTATS"\t" ,$key;

108 fortonstat () ;

109 }

110

111 while (($key,$val) = each %son_simple) {

112 if( $key ne’␣’){

113 print SSTATS"\t" ,$key;

114 }else{

115 print SSTATS"\tSIL";

Réalisé par: John Oscar Raoul AOGA 86 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

116 }

117 fortonstat () ;

118 }

119 print SSTATS"\tson\tcar\n";

120 fortonstat3("\n");

121

122 while( < >) {

123 next if $_ eq"\n";

124 chomp;

125 t o l o w e r ( ) ;

126

127 @mots_phrase = split( / / , $ t o l ) ;

128 print SSTATS $#mots_phrase ;

129

130 $temp = $tol;

131 $sumson = 0 ;

132 $sumcar = 0 ;

133 #print $temp,"\t";

134 while (($key,$val) = each %son_double) {

135 if($key =~ /gb/){

136 }else{

137 $temp =~ s/ $key/!_!/g; #les mots commencant par des voyelles double sonta exclure

138 }

139 my @part = split(/$key/,$temp) ;

140 $temp =~ s/ $key / _ / g ;

141 $temp =~ s/!_!/ $key/g;

142

143 print SSTATS"\t" ,$#part;

144 fortonstat2("$#part\t");

145

146 $son{$key} += $#part;

147 $sumson+=$#part ;

148 $sumcar+=$#part ∗ 2 ;

149 }

150 #print $temp,"\n";

151 while (($key,$val) = each %son_simple) {

152 my @part = split(/$key/,$temp) ;

153

154 print SSTATS"\t" ,$#part;

155 fortonstat2("$#part\t");

156

157 $son{$key} += $#part;

158 $sumson+=$#part ;

159 $sumcar+=$#part ;

160 }

161 print SSTATS"\t" ,$sumson ,"\t" ,$sumcar ,"\n";

Réalisé par: John Oscar Raoul AOGA 87 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

162 fortonstat3("\n");

163

164

165 my %tempmot = ();

166 my %tempmotbis = ();

167 $counting=0;

168 foreach $mot (@mots_phrase) {

169 if(exists $mots{$mot}) {

170 $mots{$mot} = $mots{$mot} + 1;

171 }else{

172 $mots{$mot} = 1;

173 }

174 if( $mot ne’.’ and $mot ne’!’ and $mot ne’?’ and $mot ne’:’ and $mot ne’,’){

175 if(exists $tempmot{$mot}) {

176 $tempmot{$mot} +=1;

177 $tempmotbis{$mot} +=1;

178 }else{

179 $tempmot{$mot} =1;

180 $tempmotbis{$mot} =1;

181 $counting++;

182 }

183 }

184 }

185 print $counting ,"\n";

186 #calcule deI(u,v)&P(u,v)&I(U,V)

187 while (($mot1,$val1) = each %tempmot ) {

188 print PROBAF $mot1 ,"\t";

189 print PROBAI $mot1 ,"\t";

190 print PROBAP $mot1 ,"\t";

191 while (($mot2,$val2) = each %tempmotbis) {

192 if($val1<=$val2){

193 $f_mot1_mot2 = $val1;

194 $IM_mot1_Mot2 = −log( $ v a l 2 ) ;

195 $P_mot1_Mot2 = $val1/$val2;

196 }else{

197 $f_mot1_mot2 = $val2;

198 $IM_mot1_Mot2 = −log( $ v a l 1 ) ;

199 $P_mot1_Mot2 = $val2/$val1;

200 }

201 if(exists $IMM{ $mot1 ."_".$mot2}) {

202 $IMM{$mot1 ."_".$mot2} += $f_mot1_mot2 ∗ $IM_mot1_Mot2 ;

203 }else{

204 $IMM{$mot1 ."_".$mot2} = $f_mot1_mot2 ∗ $IM_mot1_Mot2 ;

205 }

206 print PROBAF $f_mot1_mot2 ,"\t";

207 print PROBAI $IM_mot1_Mot2 ,"\t";

Réalisé par: John Oscar Raoul AOGA 88 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

208 print PROBAP $P_mot1_Mot2 ,"\t";

209 #print PROBA $f_mot1_mot2,"",$IM_mot1_Mot2,"",$P_mot1_Mot2," ";

210 #print PROBA $f_mot1_mot2,"",sprintf ("%0.2f",$IM_mot1_Mot2)," ",sprintf ("%0.2f",$P_mot1_Mot2),"";

211 }

212 print PROBAF"\n";

213 print PROBAI"\n";

214 print PROBAP"\n";

215 #print PROBA"\n";

216 }

217 #print PROBA"\n";

218 print PROBAF"\n";

219 print PROBAI"\n";

220 print PROBAP"\n";

221

222 #print $tol;

223 #print"\n";

224

225

226 }

227 fortonstat3("\n");

228

229 $summot = 0 ;

230 $countmot=0;

231 $variance = 0;

232 while (($mot,$tag) = each %mots ) {

233 print DICOMOT $mot ,"\t",$tag ,"\n";

234 if( $mot ne’.’ and $mot ne’!’ and $mot ne’?’ and $mot ne’:’ and $mot ne’,’){

235 $summot +=$tag ;

236 $variance +=$tag ∗ $ t a g ;

237 $countmot++;

238

239 if(exists $ t a g D i f f 1 {"$tag"}){

240 $ t a g D i f f 1 {"$tag"} += 1;

241 $tagDiffMot1{"$tag"} .="␣".$mot;

242 }else{

243 $ t a g D i f f 1 {"$tag"} = 1;

244 $tagDiffMot1{"$tag"} ="␣".$mot;

245 }

246 }

247

248

249 }

250 $moyennemot = $summot/$countmot ;

251 $variance = $variance/$countmot−$moyennemot ∗ $moyennemot ;

Réalisé par: John Oscar Raoul AOGA 89 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

252

253 print DICOMOT"Nombre=" ,$countmot ,"␣␣ Somme=" ,$summot ,"␣␣ moyenne=", $moyennemot ,"␣ecart=", sqrt($variance) ,"\n";

254

255 while (($mot,$tag) = each %tagDiff1){

256 print DICOMOT $mot ,"\t",$tag ,"\t";

257 print DICOMOT $tagDiffMot1 {"$mot"},"\n";

258 }

259

260 $summot = 0 ;

261 $countmot=0;

262 $variance = 0;

263 while (($mot,$tag) = each %son ) {

264 print DICOSON $mot ,"\t",$tag ,"\n";

265 $key = $mot ;

266 fortonstat2("$mot\t$tag\n");

267

268 if( $mot ne’␣’){

269 $summot +=$tag ;

270 $variance +=$tag ∗ $ t a g ;

271 $countmot++;

272

273 if(exists $ t a g D i f f 2 {"$tag"}){

274 $ t a g D i f f 2 {"$tag"} += 1;

275 $tagDiffMot2{"$tag"} .="␣".$mot;

276 }else{

277 $ t a g D i f f 2 {"$tag"} = 1;

278 $tagDiffMot2{"$tag"} ="␣".$mot;

279 }

280 }

281 }

282 $moyennemot = $summot/$countmot ;

283 $variance = $variance/$countmot−$moyennemot ∗ $moyennemot ;

284

285 print DICOSON"Nombre=" ,$countmot ,"␣␣ Somme=" ,$summot ,"␣␣ moyenne=", $moyennemot ,"␣ecart=", sqrt($variance) ,"\n";

286

287 while (($mot,$tag) = each %tagDiff2){

288 print DICOSON $mot ,"\t",$tag ,"\t";

289 print DICOSON $tagDiffMot2 {"$mot"},"\n";

290 }

291

292 $debutmak = 1;

293 while (($mot,$tag) = each %IMM) {

294 if( $ t a g != 0 ) {

295 if($debutmak == 1){

296 $maxtag = $tag;

Réalisé par: John Oscar Raoul AOGA 90 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

297 $mintag = $tag;

298 $debutmak = 0;

299 }else{

300 if($maxtag < $tag){

301 $maxtag = $tag;

302 }

303

304 if($mintag > $tag){

305 $mintag = $tag;

306 }

307 }

308

309 if(exists $ t a g D i f f {"$tag"}){

310 $ t a g D i f f {"$tag"} += 1;

311 $tagDiffMot{"$tag"} .="␣".$mot;

312 }else{

313 $ t a g D i f f {"$tag"} = 1;

314 $tagDiffMot{"$tag"} ="␣".$mot;

315 }

316 print PROBA $mot ,"\t",$tag ,"\n";

317 }

318 }

319 print PROBA"max=" ,$maxtag ,"\tmin=" ,$mintag ,"\n";

320 while (($mot,$tag) = each % t a g D i f f ) {

321 print PROBA $mot ,"\t",$tag ,"\n";

322 #print PROBA $tagDiffMot{"$mot"},"\n";

323 }

324 close SONSIMPLE;

325 close SONDOUBLE ;

326 close PHPARTON ;

327 close DICOMOT ;

328 close DICOSON ;

329 close SSTATS;

330 close SSTATSH;

331 close SSTATSM ;

332 close SSTATSB;

333 close SSTATSC;

334 close PROBA ;

335 close PROBAF ;

336 close PROBAI;

337 close PROBAP ;

Réalisé par: John Oscar Raoul AOGA 91 Annexe D

Des statistiques concernant les phonèmes

Figure D.1 – Fonction de répartition des phonèmes

92 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Figure D.2 – Profil de classe : distance moyenne au barycentre pour chaque phonème de ton bas

Figure D.3 – Profil de classe : distance moyenne au barycentre pour chaque phonème de ton moyen

Réalisé par: John Oscar Raoul AOGA 93 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Figure D.4 – Profil de classe : distance moyenne au barycentre pour chaque phonème de ton haut

Figure D.5 – Profil de classe : distance moyenne au barycentre pour chaque phonème consonne

Réalisé par: John Oscar Raoul AOGA 94 INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE

Résumé La motivation principale de ce travail est la conception d’un système de synthèse vocale Text- To-Speech basée sur l’approche orientée corpus utilisant la méthode de sélection d’unités. Ce travail découle de l’absence d’un tel outil pour le yorùbá, une langue de la grande famille Niger-Congo parlée au Nigéria, au Bénin et au Togo. L’implémentation d’un tel outil a néces- sité la construction d’un corpus de parole contenant 2415 phrases. Ensuite, il a été procédé à l’intégration du yorùbá dans MaryTTS, un système modulaire et multiplateforme de synthèse vocale. Pour l’intégration nous avons conçu un lexique de 449316 mots dont 124978 sont anno- tés par étiquetage morphosyntaxique. Ayant appris par Modèles de Markov Cachés (MMC) sur ce lexique, nous avons obtenu un système permeant d’inférer sur la prononciation des mots inconnus qui s’insère dans la dernière phase du composant prononciation du module Traitement Automatique de Langues Naturelles (TALN). La modélisation de langue a impli- qué la création du fichier allophone.yo.xml qui contient la représentation des diérents sons de la structure vocalique du yorùbá. Ainsi, nous avons une version de MaryTTS qui intègre le yorùbá et qui est accessible à l’adresse hps ://github.com/marys/marys. L’évaluation du système, eectuée sur la base d’un corpus de test contenant 100 phrases, a été faite par le Score Moyen des Opinions (SMO) qui a donné 2,9 équivalent à la mention bien. Mots Clés : Synthèse vocale TTS, Sélection d’unités, MaryTTS, MMC, Yorùbá.

*** Abstract The main motivation of this work is the design of a Text-To-Speech synthesis system based-on corpus approach using the unit-selection method. This work was developed because of the lack of use of such system for Yoruba language, it belongs to Niger-Congo language spoken in Nigeria, Benin and Togo. The design of this system required building a speech corpus contai- ning 2,415 sentences. Then it was followed by the integration of the Yoruba in MaryTTS, which is a modular and multi-platform synthesis voice system. For integration, we develo- ped a lexicon of 449,316 words and only 124,978 were annotated by Part-of-Speech tagging. Hidden Markov model (HMM) was used to train the system on the lexicon. This allowed us to infer on the pronunciation of unknown words that fits into the last phase of the module component pronunciation of Natural Language Processing(NLP). The modeling of the lan- guage involved the creation of the allophone.yo.xml file which contains the representation of dierent sounds of vowel and structure of Yoruba language. Finally, we have a version of MaryTTS with the integration of Yoruba language. It is available on the following link : hps ://github.com/marys/marys. The evaluation of our system was done by the Mean Opinion Score (MOS) which gave us 2.9 equivalent to a good quality of voice. Keywords : TTS System, units selection, MaryTTS, HMM, Yoruba.

Réalisé par: John Oscar Raoul AOGA DEA-SPI