Université d’Abomey – Calavi Ecole Doctorale "Sciences Pour l’Ingénieur" DIPLOME D’ETUDES APPROFONDIES SCIENCES POUR INGENIEUR (DEA-SPI) Rapport de stage Spécialité : Informatique et Télécommunications INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE Présenté par : John Oscar Raoul AOGA, Ingénieur de conception en Génie Informatique et Télécommunications Soutenu le 04 décembre 2014 Encadré par : Sous la direction de : Dr. Théophile K. DAGBA, Pr. Antoine VIANOU, Maître Assistant, Professeur Titulaire, CAMES, ENEAM/UAC CAMES, EPAC/UAC Stage eectué au Laboratoire d’électrotechnique de télécommunication et d’informatique appliquée Année académique 2013 - 2014 Sommaire Dédicace iii Remerciements iv Liste des sigles et abréviations vi Notations vii Liste des tableaux viii Liste des figures ix Résumé xi Abstract xii Introduction1 I Synthèse Bibliographique 5 1 Langue yorùbá et sa structure vocalique6 2 Synthèse vocale et état de l’art 15 II Matériels et Méthodes 31 3 Construction de corpus et intégration du yorùbá à MaryTTS 32 4 Synthèse vocale du yorùbá à partir de MaryTTS 43 III Résultats et Discussion 48 5 Résultats et Performances 49 i INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE 6 Discussion et perspectives 59 Conclusion 63 Bibliographie 64 Webographie 69 Table des matières 73 Annexes 75 A Les divers phonèmes de yorùbá et leur représentation phoné- tique (IPA) 75 B Les phrases de test 78 C Les scripts Perl de prétraitement des textes yorùbá 82 D Des statistiques concernant les phonèmes 92 Réalisé par: John Oscar Raoul AOGA ii INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE Dédicace Ce mémoire est dédié à vous, vous qui aviez quié ce monde, sans un adieu, sans une promesse de retour, vous qui aviez été pour moi au delà d’un mentor, un père, vous FEU Sèmiyou A. ADEJOUMA, vous vivez toujours en moi par vos enseignements ! Reposez en paix. Réalisé par: John Oscar Raoul AOGA iii INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE Remerciements Comment une personne peut-elle dire merci à tout le monde quand il y a autant de gens à remercier ? Evidemment, par cee œuvre, je veux dire merci à mon père qui représente dans ma vie un puissant modèle à imiter, et à ma mère qui m’a enseigné l’amour, la bienveillance et le goût du travail bien fait. J’adresse aussi des remerciements particuliers aux personnes suivantes : . le Professeur Félicien AVLESSIDirecteur de l’École Polytechnique d’Abomey- Calavi (EPAC) et tout le personnel administratif ; . le Professeur Gérard DEGAN et tout le sta du CODOC, en particulier à madame AVALIGBE et au Professeur SANYA Emile ; . le Professeur Marc K. ASSOGBA, Directeur du Laboratoire d’électrotech- nique de télécommunication et d’informatique appliquée (LETIA) ; . le Professeur Antoine VIANOU, Professeur Titulaire en science et tech- nique de l’ingénieur, Chevalier de l’ordre international des palmes acadé- mique du CAMES, Vice-recteur honoraire de l’UAC, Président du Comité Scientifique Sectoriel Sciences et Techniques de l’Ingénieur et membre de l’Académie Nationale des Sciences Arts et Leres du Bénin ; . le Professeur Akanni Mamoud IGUÉ, pour sa contribution à la compré- hension des tournure vocalique du Yoruba ; . le Docteur K. Théophile DAGBA, Maître Assistant du CAMES et enseignant- chercheur ENEAM/UAC, pour avoir accepté être pour moi guide et réfé- rence dans l’exécution de ce projet ; . tous les enseignants du DEA-SPI notamment Dr SOGBOHOSSOU, Dr DISSOU, Dr DJOGBE, Pr GOUDJO, Dr DATON, ... qui ont assuré ma formation ; Réalisé par: John Oscar Raoul AOGA iv INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE . Monsieur Vincent AWE, Journaliste de langue nationale Yoruba en ser- vice à l’ORTB, pour la transformation du corpus texte en corpus audio ; . à toi Roxène ASSOGBA, pour ta présence et ta confiance sans cesse re- nouvélée ; . à vous mes sœurs, à toi ma cousine et à toute la famille, pour vos mul- tiples encouragements et soutiens ; . à tous les amis du DEA-SPI sans exception, avec vous j’ai senti que j’ap- partenais à une communauté solidaire ; . à Tous les membres du Laboratoire d’Électrotechnique de Télécommuni- cation et d’Informatique Appliquée (LETIA), pour la bonne ambiance de travail ; . à tous mes associés, collègues et amis à divers niveaux, notamment Conseil de l’entente, Brésillac Youth Group, PTGF, JBN, LOL Group, ... Réalisé par: John Oscar Raoul AOGA v INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE Liste des sigles et abréviations ADT Analyse de Données Textuelles ALAO Apprentissage des Langues Assisté par Ordinateur API Alphabet Phonétique International ASR Automatic Speech Recognition CART Classification And Regression Tree CTTS Corpus-based Text-to-Speech DSP Digital Speech Processing EHMM Ergodic Hidden Markov Model G2P Graphèmes to Phonèmes LTS Leer-to-Sound Mary Modular Architecture for Research on speech sYnthesis MMC Modèles de Markov Cachés SMO Score Moyen des Opinions TAL Traitement Automatique de Langues TALN Traitement Automatique de Langues Naturelles TAY Traitement Automatique du Yorùbá TTS Text-to-Speech WER Word Error Rate Réalisé par: John Oscar Raoul AOGA vi INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE Notations Symbole Désignation Unités A Amplitude du signal - d Durée de prononciation Seconde (s) F 0 Fréquence fondamentale Herz (Hz) N Nombre de niveau dans le graphe ème ui i unité dans un niveau donné ui−1 Unité dans le niveau précédent au niveau i i ème ème Ek Sommet du graphe de la i unité du k niveau Ct Fonction de coût des caractéristiques Cc Fonction de coût de concaténation ème ti Caractéristique de la i unité P Nombre d’unités pour un niveau donné t ème wj Poids de la j caractéristique c ème wj Poids de la j séquence ème t Coût de la j caractéristique par rapport à l’unité ui et à Cj(ti; ui) la caractéristique ti c ème Cj (ui−1; ui) j coût entre ui−1 et ui n U 1 Chemin optimal de la séquence 1 à la séquence n u,v Unités d’analyse U,V Variables aléatoires des fonctions de répartition de u et v f(u) Fréquence d’occurrence d’une unité d’analyse u f(u; v) Fréquence de cooccurrence de u et v P (u; v) Proportion de cooccurrence de u et v I(u; v) Information mutuelle de u et v I(U; V ) Information mutuelle moyenne de U et V ème wi Pondération de la i appréciation ème pi Pourcentage d’obtention de la i appréciation Réalisé par: John Oscar Raoul AOGA vii Liste des tableaux I.I les voyelles ouvertes avec leur représentation en Alphabet Pho- nétique International (API).....................7 I.II les voyelles nasales avec leur représentation en Alphabet Pho- nétique International (API).....................8 I.III les consonnes avec leur représentation en Alphabet Phoné- tique International (API)...................... 10 I.IV Le diagramme des consonnes................... 10 I.V Les organes et leurs manifestations selon le point d’articulation 11 I.VI Exemples de possibilités de mots monosyllabiques et dissylla- biques avec les diérents tons................... 11 II.I Les approches de synthèse et leur principe............ 21 IV.I Les diérentes appréciations et leur pondération......... 47 V.I Caractéristiques du corpus de texte................ 51 V.II Détails des classifications K-mean par groupe.......... 53 V.III Caractéristiques du corpus de test................. 56 V.IV Les diérentes appréciations et leur pondération......... 57 viii Liste des figures 1.1 Ensembles de sons en yorùbá : voyelles, consonnes et tons...6 1.2 Diagramme des voyelles......................8 1.3 Positions des prononciations dans la bouche pour les voyelles (Voy.).................................9 2.1 Passage du texte à la parole en passant par les modules de TALN et de DSP........................... 16 2.2 Schéma synoptique simplifié de la synthèse TTS......... 17 2.3 Graphe modélisant le problème de la sélection d’unités..... 23 2.4 Algorithme de sélection d’unités................. 25 2.5 Schéma synoptique de la synthèse TTS.............. 26 3.1 Technologies de TTS basées sur l’utilisation de corpus...... 32 3.2 Interface RedStart de réglage des paramètres audio....... 37 3.3 Interface RedStart de réglage des paramètres de timing.... 37 3.4 Spectre d’un signal écrêté (haut) et d’un spectre normal (bas). 37 3.5 Fenêtre de normalisation de son.................. 38 3.6 Exemple de présentation du corpus de parole........... 38 3.7 Ensemble des sous-modules créés dans MaryTTS et leur inter- action................................. 42 5.1 Fonction de répartition des mots.................. 50 5.2 Diagramme en bulle de fréquences d’apparition en fonction de l’information mutuelle....................... 51 5.3 Courbe des fréquences d’apparition des phonèmes avec une évaluation de la tendance linéaire(droite en pointillé)....... 52 ix INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE 5.4 Proportion de qualité de lecture en fonction des classes de phrase 54 5.5 Interface cliente pour les tests sur le module TALN....... 57 5.6 Interface cliente pour les tests sur le module DSP........ 58 D.1 Fonction de répartition des phonèmes............... 92 D.2 Profil de classe : distance moyenne au barycentre pour chaque phonème de ton bas......................... 93 D.3 Profil de classe : distance moyenne au barycentre pour chaque phonème de ton moyen....................... 93 D.4 Profil de classe : distance moyenne au barycentre pour chaque phonème de ton haut........................ 94 D.5 Profil de classe : distance moyenne au barycentre pour chaque phonème consonne......................... 94 Réalisé par: John Oscar Raoul AOGA x INTEGRATION DE LA LANGUE YORUBA AU SYSTEME MARYTTS DE SYNTHESE VOCALE Résumé La motivation principale de ce travail est la conception d’un système de synthèse vocale Text-To-Speech basée sur l’approche orientée corpus utilisant la méthode de sélection d’unités.
Details
-
File Typepdf
-
Upload Time-
-
Content LanguagesEnglish
-
Upload UserAnonymous/Not logged-in
-
File Pages108 Page
-
File Size-