Study of Unit Selection Text-To-Speech Synthesis Algorithms David Guennec

Total Page:16

File Type:pdf, Size:1020Kb

Study of Unit Selection Text-To-Speech Synthesis Algorithms David Guennec Study of unit selection text-to-speech synthesis algorithms David Guennec To cite this version: David Guennec. Study of unit selection text-to-speech synthesis algorithms. Data Structures and Algorithms [cs.DS]. Université Rennes 1, 2016. English. NNT : 2016REN1S055. tel-01439413 HAL Id: tel-01439413 https://tel.archives-ouvertes.fr/tel-01439413 Submitted on 18 Jan 2017 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. ANNÉE 2016 THÈSE / UNIVERSITÉ DE RENNES 1 sous le sceau de l’Université Bretagne Loire pour le grade de DOCTEUR DE L’UNIVERSITÉ DE RENNES 1 Mention : Informatique École doctorale Matisse présentée par David Guennec préparée à l’unité de recherche IRISA UMR6074 Institut de Recherche en Informatique et Systèmes Aléatoires École Nationale Supérieure des Sciences Appliquées et de Technologie Thèse soutenue à Lannion Étude des algorithmes le 22 septembre 2016 de sélection d’unités devant le jury composé de : Nick Campbell pour la synthèse de Professeur, Trinity College Dublin / rapporteur Ingmar Steiner Senior researcher, Université de Saarland / rappor- la parole à partir du teur Yves Laprie texte Directeur de recherche, CNRS, LORIA/examinateur Élisabeth Delais-Roussarie Directrice de recherche, CNRS, LLF / examinatrice Philip N. Garner Senior researcher, Idiap Research Institute / exami- nateur Damien Lolive Maître de conférences, Université de Rennes 1 / Di- recteur de thèse “No one regards what is before his feet; we all gaze at the stars.” Quintus Ennius (239–169 BC) Acknowledgements i Résumé en français Le présent résumé est une version condensée en français de l’ensemble des considérations, hypothèses et expérimentations, agrémentées de leurs résultats, présentés en langue anglaise dans cette thèse. Dans ce résumé, un soin partic- ulier a été apporté au respect du même ordre de présentation des idées apportées dans la thèse en anglais et dans le présent résumé, de sorte que chaque chapitre du premier correspond à une section du dernier. Par exemple, la section II du présent résumé décrit le contenu du chapitre 2 dans la partie en langue anglaise. Introduction Les travaux de thèse présentés dans ce documents portent sur le sujet qu’est la synthèse de la parole à partir du texte, lequel peut être décrit comme un objet d’étude pluridisciplinaire [Boë 1990; Boeffard 2004]. En effet, l’étude de la parole humaine fait autant appel aux considérations anatomiques, et donc issues de la médecine, pour décrire l’appareil vocal humain qu’à la physique pour comprendre la mécanique des flux d’air (l’acoustique) interagissant au sein de ce dernier. En outre, parce que la parole est le vecteur d’un message doté de sens, l’étude de ce dernier, la linguistique, y prend également une place prépondérante. La synthèse de la parole fait appel à l’ensemble de ces sciences, auxquelles il faut ajouter l’informatique. Avec l’émergence de l’informatique, les « machines parlantes » sont sorties des salles où elles étaient entreposées et où elles étaient souvent commandées à la main pour se retrouver au coeur de calculateurs aux capacités de traitement et de stockage en constante évolution. En effet, la syn- thèse de la parole visant la production d’un outil capable de produire un signal de parole sans intervention humaine directe, cet outil doit être doté d’un degré minimal d’automatisation. Comme dans de nombreux domaines, la majorité des systèmes de synthèse de la parole actuels ne tentent pas de reproduire le fonctionnement naturel de la bouche, du larynx et des poumons. Des systèmes relevant de cet ordre existent bel et bien (il s’agit de la synthèse dite articu- latoire), mais leur intérêt reste académique : ils visent à toujours mieux mod- éliser l’appareil vocal humain afin de le comprendre, de la même manière que les modèles de systèmes planétaires ou galactiques en physique visent à valider des théories par l’expérimentation. Lorsque la qualité de la parole synthétique est un objectif, les systèmes actuels visent plutôt, soit à reproduire la parole via des connaissances expertes sur la composition du signal vocal une fois produit, soit à utiliser ces connaissances expertes pour sélectionner les meilleures por- tions d’un corpus de parole pré-enregistré reproduisant le message à produire puis les joindre. Les travaux présentés dans cette thèse s’inscrivent dans le cadre de la sec- onde solution, nommée synthèse par sélection d’unités ou encore Synthèse Par Corpus (SPC). Les contributions présentées peuvent être réparties en deux par- ties. Tout d’abord (section VI), une analyse approfondie et un diagnostic de l’algorithme de sélection d’unités, lequel recherche dans le treillis des portions de corpus (nommées unités) utilisées, sont présentés. L’importance de l’optimalité iii de la solution est discutée et une nouvelle mise en oeuvre de la sélection basée sur un algorithme A∗ est proposée. La deuxième partie des contributions, elle- même subdivisée en trois portions, traite d’améliorations apportées à la fonction de coût permettant à l’algorithme de sélection de trier les séquences d’unités en vue de sélectionner la meilleure. Une méthode de calcul de coût cible est testée sur un coût visant les durées phonétiques des unités (section VII). Une méth- ode visant à améliorer l’intonation de la parole synthétisée est ensuite présentée (section VIII). Enfin, un système de pénalités nuancé par une fonction floue, lequel a pour but d’améliorer les jonctions entre unités est décrit (section IX). Avant la présentation de ces travaux, un état de l’art est dressé dans cet ordre : introduction sur la parole humaine (section I), historique de la synthèse de la parole et présentation de l’état courant des recherches (section II) et enfin présentation des différents éléments constitutifs d’un système de Synthèse Par Corpus (sections III et IV). Le chapitre résumé par la section V se charge, quant-à-lui, de présenter le protocole expérimental, les voix de synthèse ainsi que les outils pour gérer ces voix utilisés dans la thèse. Pour les travaux présentés dans cette thèse, nous travaillons dans un cadre ou la contrainte sur le temps réel lors de la synthèse est levée (le focus est sur la qualité) mais l’on s’y intéresse ponctuellement tout au long de la thèse, en particulier dans le chapitre traitant des algorithmes de synthèse (résumé en section VI). En outre, les travaux présentés dans cette thèse portent sur la syn- thèse du français. La majorité des résultats peuvent toutefois raisonnablement s’appliquer à de nombreuses langues. I De la production de la parole La parole humaine est un signal acoustique dont l’analyse permet de la subdiviser en deux composantes : la composante phonétique et la composante prosodique. La composante phonétique est la plus évidente. La parole peut être découpée en unités de sens plus ou moins grandes : phrases, groupes de souffle (séparés par une inspiration du locuteur), mots, syllabes et enfin phonèmes. Aux phonèmes, au nombre d’environ 35 en français (le nombre exact peut varier en fonction de composantes régionales ou historiques), on adjoint la notion de phone. Un phone est une réalisation acoustique d’un phonème. La parole étant influencée par de nombreux facteurs de variabilité, des phones correspondant au même phonème (dans ce cas, on parle d’allophones) peuvent être très différents. Cela peut notamment être dû au phénomène dit de coarticulation, qui veut que la prononciation d’un phonème soit directement influencée par celles de son prédécesseur et son successeur, voire par la prononciation de phonèmes plus distants. Enfin, une dernière notion revêt une importance considérable : il s’agit du diphone. Plusieurs recherches entreprises dans les années 50-60 ont en effet montré que les concaténations effectuées en milieu de phone étaient en règle générale de bien meilleure qualité que celles réalisées en frontière de phone [Peterson et al. 1958; Dixon and Maxey 1968]. De cette constatation est née une nouvelle unité : le diphone. Un diphone est une unité dont les deux frontières sont les centres de deux phones successifs, le centre du diphone étant la frontière entre les deux phones. Par exemple, la séquence de deux phones iv [a o] contient un seul diphone commençant à la moitié du [a] et finissant à la moitié du [o]. La deuxième composante de base de la parole est sa prosodie. La prosodie regroupe toutes les informations que la composante phonétique ne prend pas en considération. Di Cristo [Di Cristo 2000] caractérise la prosodie comme « la représentation formelle (aspect phonologique) des éléments de l’expression orale tels que les accents, les tons, l’intonation et la quantité, dont la mani- festation concrète, dans la production de la parole, est associée aux variations de la fréquence fondamentale (F0), de la durée et de l’intensité (paramètres prosodiques physiques), ces variations étant perçues par l’auditeur comme des changements de hauteur (ou de mélodie), de longueur et de sonie (paramètres prosodiques subjectifs). » Dans la définition ci-dessus, un élément particulière- ment important est la F0, laquelle est perçue par l’auditeur comme la hauteur de la voix. Il s’agit en fait de la fréquence la plus basse du signal de parole, un signal de parole étant représentable (les portions voisées – générées par vibra- tion des cordes vocales – sont d’ailleurs périodiques) dans le domaine spectral. La F0 correspond à la première harmonique du signal.
Recommended publications
  • THE DEVELOPMENT of ACCENTED ENGLISH SYNTHETIC VOICES By
    THE DEVELOPMENT OF ACCENTED ENGLISH SYNTHETIC VOICES by PROMISE TSHEPISO MALATJI DISSERTATION Submitted in fulfilment of the requirements for the degree of MASTER OF SCIENCE in COMPUTER SCIENCE in the FACULTY OF SCIENCE AND AGRICULTURE (School of Mathematical and Computer Sciences) at the UNIVERSITY OF LIMPOPO SUPERVISOR: Mr MJD Manamela CO-SUPERVISOR: Dr TI Modipa 2019 DEDICATION In memory of my grandparents, Cecilia Khumalo and Alfred Mashele, who always believed in me! ii DECLARATION I declare that THE DEVELOPMENT OF ACCENTED ENGLISH SYNTHETIC VOICES is my own work and that all the sources that I have used or quoted have been indicated and acknowledged by means of complete references and that this work has not been submitted before for any other degree at any other institution. ______________________ ___________ Signature Date iii ACKNOWLEDGEMENTS I want to recognise the following people for their individual contributions to this dissertation: • My brother, Mr B.I. Khumalo and the whole family for the unconditional love, support and understanding. • A distinct thank you to both my supervisors, Mr M.J.D. Manamela and Dr T.I. Modipa, for their guidance, motivation, and support. • The Telkom Centre of Excellence for Speech Technology for providing the resources and support to make this study a success. • My colleagues in Department of Computer Science, Messrs V.R. Baloyi and L.M. Kola, for always motivating me. • A special thank you to Mr T.J. Sefara for taking his time to participate in the study. • The six Computer Science undergraduate students who sacrificed their precious time to participate in data collection.
    [Show full text]
  • La Voz Humana
    UNIVERSIDAD DE CHILE FACULTAD DE ARTES MAGISTER EN ARTES MEDIALES SHOUT! Tesis para optar al Grado de Magíster en Artes Medialess ALUMNO: Christian Oyarzún Roa PROFESOR GUÍA: Néstor Olhagaray Llanos Santiago, Chile 2012 A los que ya no tienen voz, a los viejos, a los antiguos, a aquellos que el silencio se lleva en la noche. ii AGRADECIMIENTOS Antes que nada quiero agradecer a Néstor Olhagaray, por el tesón en haberse mantenido como profesor guía de este proyecto y por la confianza manifestada más allá de mis infinitos loops y procastinación. También quisiera manifestar mis agradecimientos a Álvaro Sylleros quién, como profesor del Diplomado en Lutería Electrónica en la PUC, estimuló y ayudó a dar forma a parte sustancial de lo aquí expuesto. A Valentina Montero por la ayuda, referencia y asistencia curatorial permanente, A Pablo Retamal, Pía Sommer, Mónica Bate, Marco Aviléz, Francisco Flores, Pablo Castillo, Willy MC, Álvaro Ceppi, Valentina Serrati, Yto Aranda, Leonardo Beltrán, Daniel Tirado y a todos aquellos que olvido y que participaron como informantes clave, usuarios de prueba ó simplemente apoyando entusiastamente el proyecto. Finalmente, quiero agradecer a Claudia González, quien ha sido una figura clave dentro de todo este proceso. Gracias Clau por tu sentido crítico, por tu presencia inspiradora y la ejemplar dedicación y amor por lo que haces. iii Tabla de Contenidos RESÚMEN v INTRODUCCIÓN 1 A Hard Place 1 Descripción 4 Objetivos 6 LA VOZ HUMANA 7 La voz y el habla 7 Balbuceos, risas y gritos 11 Yo no canto por cantar 13
    [Show full text]
  • Part 2: RHYTHM – DURATION and TIMING Część 2: RYTM – ILOCZAS I WZORCE CZASOWE
    Part 2: RHYTHM – DURATION AND TIMING Część 2: RYTM – ILOCZAS I WZORCE CZASOWE From research to application: creating and applying models of British RP English rhythm and intonation Od badań do aplikacji: tworzenie i zastosowanie modeli rytmu i intonacji języka angielskiego brytyjskiego David R. Hill Department of Computer Science The University of Calgary, Alberta, Canada [email protected] ABSTRACT Wiktor Jassem’s contributions and suggestions for further work have been an essential influence on my own work. In 1977, Wiktor agreed to come to my Human-Computer Interaction Laboratory at the University of Calgary to collaborate on problems asso- ciated with British English rhythm and intonation in computer speech synthesis from text. The cooperation resulted in innovative models which were used in implementing the world’s first completely functional and still operational real-time system for arti- culatory speech synthesis by rule from plain text. The package includes the software tools needed for developing the databases required for synthesising other languages, as well as providing stimuli for psychophysical experiments in phonetics and phonology. STRESZCZENIE Pu bli ka cje Wik to ra Jas se ma i wska zów ki do dal szej pra cy w spo sób istot ny wpły nę - ły na mo ją wła sną pra cę. W 1997 ro ku Wik tor zgo dził się na przy jazd do mo je go La - bo ra to rium In te rak cji Czło wiek -Kom pu ter na Uni wer sy te cie w Cal ga ry aby wspól nie za jąć się pro ble ma mi zwią za ny mi z ryt mem w bry tyj skim an giel skim oraz in to na cją w syn te zie mo wy z tek stu.
    [Show full text]
  • Aac 2, 3, 4, 5, 6, 50, 51, 52, 53, 55, 56, 57, 58, 59, 60, 61, 62
    315 Index A augmentative and alternative communication (AAC) 130, 145, 148 AAC 2, 3, 4, 5, 6, 50, 51, 52, 53, 55, 56, 57, Augmentative and Alternative Communication 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, (AAC) 50 69, 130, 131, 138, 140, 141, 142, 143, augmented speech 116, 126 144, 145, 147, 148, 149, 150, 153, 156, Augmented Speech Communication 117 158, 159, 160, 161, 162, 163, 164, 165, Augmented speech communication (ASC) 116 172, 173, 174, 175, 192, 194, 198, 205, automatic categorization 220 206, 207, 208, 213, 214, 215, 216, 257, automatic speech recognition 100 258, 259, 260, 263, 265 Automatic Speech Recognition (ASR) 189 able-bodied people 220 accessibility 12, 14, 15, 21 B acoustic energy 31 adaptive differential pulse code modulation background noise 56, 67, 130, 132, 134, 135, (ADPCM) 32 136, 137, 141, 142, 144 AIBO 17 BCI 17 aided communication techniques 205 bit rate 31, 32, 33, 41, 45, 47 aided communicator 234, 235, 241, 243, 245, bits per second (bps) 31 248, 250, 252 Blissymbols 235, 238, 239, 240, 241, 242, 243, aided language development 235 244, 246, 247, 250, 256 allophones 34, 35 brain-computer interfaces (BCI) 17 alternate reader 17 Brain Computer Interfaces (BCI’s) 6 alternative and augmentative communication brain-machine interface (BMI) 17 (AAC) 2, 93 C alternative communication 1 amyotrophic lateral sclerosis (ALS) 1 CALL 189, 190, 191, 192, 193, 196, 198, 199, analog-to-digital converter 30, 31 201, 202, 203 anti-aliasing (low-pass) filters 3 1 CASLT 188, 189, 190, 191, 193, 198, 199 aphasia 148, 149,
    [Show full text]
  • SPEECH ACOUSTICS and PHONETICS Text, Speech and Language Technology VOLUME 24
    SPEECH ACOUSTICS AND PHONETICS Text, Speech and Language Technology VOLUME 24 Series Editors Nancy Ide, Vassar College, New York Jean V´eronis, Universited´ eProvence and CNRS, France Editorial Board Harald Baayen, Max Planck Institute for Psycholinguistics, The Netherlands Kenneth W. Church, AT&TBell Labs, New Jersey, USA Judith Klavans, Columbia University, New York, USA David T. Barnard, University of Regina, Canada Dan Tufis, Romanian Academy of Sciences, Romania Joaquim Llisterri, Universitat Autonoma de Barcelona, Spain Stig Johansson, University of Oslo, Norway Joseph Mariani, LIMSI-CNRS, France The titles published in this series are listed at the end of this volume. Speech Acoustics and Phonetics by GUNNAR FANT Department of Speech, Music and Hearing, Royal Institute of Technology, Stockholm, Sweden KLUWER ACADEMIC PUBLISHERS DORDRECHT / BOSTON / LONDON A C.I.P Catalogue record for this book is available from the Library of Congress. ISBN 1-4020-2789-3 (PB) ISBN 1-4020-2373-1 (HB) ISBN 1-4020-2790-7 (e-book) Published by Kluwer Academic Publishers, P.O. Box 17, 3300 AA Dordrecht, The Netherlands. Sold and distributed in North, Central and South America by Kluwer Academic Publishers, 101 Philip Drive, Norwell, MA 02061, U.S.A. In all other countries, sold and distributed by Kluwer Academic Publishers, P.O. Box 322, 3300 AH Dordrecht, The Netherlands. Printed on acid-free paper All Rights Reserved C 2004 Kluwer Academic Publishers No part of this work may be reproduced, stored in a retrieval system, or transmitted in any form or by any means, electronic, mechanical, photocopying, microfilming, recording or otherwise, without written permission from the Publisher, with the exception of any material supplied specifically for the purpose of being entered and executed on a computer system, for exclusive use by the purchaser of the work.
    [Show full text]
  • Commercial Tools in Speech Synthesis Technology
    International Journal of Research in Engineering, Science and Management 320 Volume-2, Issue-12, December-2019 www.ijresm.com | ISSN (Online): 2581-5792 Commercial Tools in Speech Synthesis Technology D. Nagaraju1, R. J. Ramasree2, K. Kishore3, K. Vamsi Krishna4, R. Sujana5 1Associate Professor, Dept. of Computer Science, Audisankara College of Engg. and Technology, Gudur, India 2Professor, Dept. of Computer Science, Rastriya Sanskrit VidyaPeet, Tirupati, India 3,4,5UG Student, Dept. of Computer Science, Audisankara College of Engg. and Technology, Gudur, India Abstract: This is a study paper planned to a new system phonetic and prosodic information. These two phases are emotional speech system for Telugu (ESST). The main objective of usually called as high- and low-level synthesis. The input text this paper is to map the situation of today's speech synthesis might be for example data from a word processor, standard technology and to focus on potential methods for the future. ASCII from e-mail, a mobile text-message, or scanned text Usually literature and articles in the area are focused on a single method or single synthesizer or the very limited range of the from a newspaper. The character string is then preprocessed and technology. In this paper the whole speech synthesis area with as analyzed into phonetic representation which is usually a string many methods, techniques, applications, and products as possible of phonemes with some additional information for correct is under investigation. Unfortunately, this leads to a situation intonation, duration, and stress. Speech sound is finally where in some cases very detailed information may not be given generated with the low-level synthesizer by the information here, but may be found in given references.
    [Show full text]
  • Gender, Ethnicity, and Identity in Virtual
    Virtual Pop: Gender, Ethnicity, and Identity in Virtual Bands and Vocaloid Alicia Stark Cardiff University School of Music 2018 Presented in partial fulfilment of the requirements for the degree Doctor of Philosophy in Musicology TABLE OF CONTENTS ABSTRACT i DEDICATION iii ACKNOWLEDGEMENTS iv INTRODUCTION 7 EXISTING STUDIES OF VIRTUAL BANDS 9 RESEARCH QUESTIONS 13 METHODOLOGY 19 THESIS STRUCTURE 30 CHAPTER 1: ‘YOU’VE COME A LONG WAY, BABY:’ THE HISTORY AND TECHNOLOGIES OF VIRTUAL BANDS 36 CATEGORIES OF VIRTUAL BANDS 37 AN ANIMATED ANTHOLOGY – THE RISE IN POPULARITY OF ANIMATION 42 ALVIN AND THE CHIPMUNKS… 44 …AND THEIR SUCCESSORS 49 VIRTUAL BANDS FOR ALL AGES, AVAILABLE ON YOUR TV 54 VIRTUAL BANDS IN OTHER TYPES OF MEDIA 61 CREATING THE VOICE 69 REPRODUCING THE BODY 79 CONCLUSION 86 CHAPTER 2: ‘ALMOST UNREAL:’ TOWARDS A THEORETICAL FRAMEWORK FOR VIRTUAL BANDS 88 DEFINING REALITY AND VIRTUAL REALITY 89 APPLYING THEORIES OF ‘REALNESS’ TO VIRTUAL BANDS 98 UNDERSTANDING MULTIMEDIA 102 APPLYING THEORIES OF MULTIMEDIA TO VIRTUAL BANDS 110 THE VOICE IN VIRTUAL BANDS 114 AGENCY: TRANSFORMATION THROUGH TECHNOLOGY 120 CONCLUSION 133 CHAPTER 3: ‘INSIDE, OUTSIDE, UPSIDE DOWN:’ GENDER AND ETHNICITY IN VIRTUAL BANDS 135 GENDER 136 ETHNICITY 152 CASE STUDIES: DETHKLOK, JOSIE AND THE PUSSYCATS, STUDIO KILLERS 159 CONCLUSION 179 CHAPTER 4: ‘SPITTING OUT THE DEMONS:’ GORILLAZ’ CREATION STORY AND THE CONSTRUCTION OF AUTHENTICITY 181 ACADEMIC DISCOURSE ON GORILLAZ 187 MASCULINITY IN GORILLAZ 191 ETHNICITY IN GORILLAZ 200 GORILLAZ FANDOM 215 CONCLUSION 225
    [Show full text]
  • WIKI on ACCESSIBILITY Completion Report March 2010
    WIKI ON ACCESSIBILITY Completion report March 2010 By Nirmita Narasimhan Programme Manager Centre for Internet and Society Project Title: Wiki on “Accessibility, Disability and the Internet in India” Page | 1 REPORT Accessibility wiki: accessibility.cis-india.org The wiki project was envisaged and funded by the National Internet Exchange of India (www.nixi.in) and has been executed by the Centre for Internet and Society (www.cis-india.org), Bangalore. Project Start date: May 2009 End date: February 2010. Background India has a large percentage of disabled persons in its population— estimated to be over seven per cent as per the Census of 2001. Even this figure is believed to be a gross under representation of the total number of disabled persons residing in this large and diverse country. Taken in figures, this amounts to roughly 70-100 million persons with disabilities in the territory of India. Out of this number, a mere two per cent residing in urban areas have access to information and assistive technologies which enable them to function in society and enhance their performance. There are several reasons for this, one of them being that there is a deplorable lack of awareness which exists on the kinds of disabilities and about ways in which one can provide information and services to disabled persons. Parents, teachers, government authorities and society at large are all equally unaware about the options which exist in technology today to enable persons with disabilities to carry on independent and productive lives. Barring a few exceptions, India is still trapped in an era where a white cane and a Braille slate symbolises the future for blind people, while the world has progressed to newer forms of enabling technology such as screen readers, daisy players, the Kindle and so on.
    [Show full text]
  • Models of Speech Synthesis ROLF CARLSON Department of Speech Communication and Music Acoustics, Royal Institute of Technology, S-100 44 Stockholm, Sweden
    Proc. Natl. Acad. Sci. USA Vol. 92, pp. 9932-9937, October 1995 Colloquium Paper This paper was presented at a colloquium entitled "Human-Machine Communication by Voice," organized by Lawrence R. Rabiner, held by the National Academy of Sciences at The Arnold and Mabel Beckman Center in Irvine, CA, February 8-9,1993. Models of speech synthesis ROLF CARLSON Department of Speech Communication and Music Acoustics, Royal Institute of Technology, S-100 44 Stockholm, Sweden ABSTRACT The term "speech synthesis" has been used need large amounts of speech data. Models working close to for diverse technical approaches. In this paper, some of the the waveform are now typically making use of increased unit approaches used to generate synthetic speech in a text-to- sizes while still modeling prosody by rule. In the middle of the speech system are reviewed, and some of the basic motivations scale, "formant synthesis" is moving toward the articulatory for choosing one method over another are discussed. It is models by looking for "higher-level parameters" or to larger important to keep in mind, however, that speech synthesis prestored units. Articulatory synthesis, hampered by lack of models are needed not just for speech generation but to help data, still has some way to go but is yielding improved quality, us understand how speech is created, or even how articulation due mostly to advanced analysis-synthesis techniques. can explain language structure. General issues such as the synthesis of different voices, accents, and multiple languages Flexibility and Technical Dimensions are discussed as special challenges facing the speech synthesis community.
    [Show full text]
  • Estudios De I+D+I
    ESTUDIOS DE I+D+I Número 51 Proyecto SIRAU. Servicio de gestión de información remota para las actividades de la vida diaria adaptable a usuario Autor/es: Catalá Mallofré, Andreu Filiación: Universidad Politécnica de Cataluña Contacto: Fecha: 2006 Para citar este documento: CATALÁ MALLOFRÉ, Andreu (Convocatoria 2006). “Proyecto SIRAU. Servicio de gestión de información remota para las actividades de la vida diaria adaptable a usuario”. Madrid. Estudios de I+D+I, nº 51. [Fecha de publicación: 03/05/2010]. <http://www.imsersomayores.csic.es/documentos/documentos/imserso-estudiosidi-51.pdf> Una iniciativa del IMSERSO y del CSIC © 2003 Portal Mayores http://www.imsersomayores.csic.es Resumen Este proyecto se enmarca dentro de una de las líneas de investigación del Centro de Estudios Tecnológicos para Personas con Dependencia (CETDP – UPC) de la Universidad Politécnica de Cataluña que se dedica a desarrollar soluciones tecnológicas para mejorar la calidad de vida de las personas con discapacidad. Se pretende aprovechar el gran avance que representan las nuevas tecnologías de identificación con radiofrecuencia (RFID), para su aplicación como sistema de apoyo a personas con déficit de distinta índole. En principio estaba pensado para personas con discapacidad visual, pero su uso es fácilmente extensible a personas con problemas de comprensión y memoria, o cualquier tipo de déficit cognitivo. La idea consiste en ofrecer la posibilidad de reconocer electrónicamente los objetos de la vida diaria, y que un sistema pueda presentar la información asociada mediante un canal verbal. Consta de un terminal portátil equipado con un trasmisor de corto alcance. Cuando el usuario acerca este terminal a un objeto o viceversa, lo identifica y ofrece información complementaria mediante un mensaje oral.
    [Show full text]
  • Masterarbeit
    Masterarbeit Erstellung einer Sprachdatenbank sowie eines Programms zu deren Analyse im Kontext einer Sprachsynthese mit spektralen Modellen zur Erlangung des akademischen Grades Master of Science vorgelegt dem Fachbereich Mathematik, Naturwissenschaften und Informatik der Technischen Hochschule Mittelhessen Tobias Platen im August 2014 Referent: Prof. Dr. Erdmuthe Meyer zu Bexten Korreferent: Prof. Dr. Keywan Sohrabi Eidesstattliche Erklärung Hiermit versichere ich, die vorliegende Arbeit selbstständig und unter ausschließlicher Verwendung der angegebenen Literatur und Hilfsmittel erstellt zu haben. Die Arbeit wurde bisher in gleicher oder ähnlicher Form keiner anderen Prüfungsbehörde vorgelegt und auch nicht veröffentlicht. 2 Inhaltsverzeichnis 1 Einführung7 1.1 Motivation...................................7 1.2 Ziele......................................8 1.3 Historische Sprachsynthesen.........................9 1.3.1 Die Sprechmaschine.......................... 10 1.3.2 Der Vocoder und der Voder..................... 10 1.3.3 Linear Predictive Coding....................... 10 1.4 Moderne Algorithmen zur Sprachsynthese................. 11 1.4.1 Formantsynthese........................... 11 1.4.2 Konkatenative Synthese....................... 12 2 Spektrale Modelle zur Sprachsynthese 13 2.1 Faltung, Fouriertransformation und Vocoder................ 13 2.2 Phase Vocoder................................ 14 2.3 Spectral Model Synthesis........................... 19 2.3.1 Harmonic Trajectories........................ 19 2.3.2 Shape Invariance..........................
    [Show full text]
  • Expression Control in Singing Voice Synthesis
    Expression Control in Singing Voice Synthesis Features, approaches, n the context of singing voice synthesis, expression control manipu- [ lates a set of voice features related to a particular emotion, style, or evaluation, and challenges singer. Also known as performance modeling, it has been ] approached from different perspectives and for different purposes, and different projects have shown a wide extent of applicability. The Iaim of this article is to provide an overview of approaches to expression control in singing voice synthesis. We introduce some musical applica- tions that use singing voice synthesis techniques to justify the need for Martí Umbert, Jordi Bonada, [ an accurate control of expression. Then, expression is defined and Masataka Goto, Tomoyasu Nakano, related to speech and instrument performance modeling. Next, we pres- ent the commonly studied set of voice parameters that can change and Johan Sundberg] Digital Object Identifier 10.1109/MSP.2015.2424572 Date of publication: 13 October 2015 IMAGE LICENSED BY INGRAM PUBLISHING 1053-5888/15©2015IEEE IEEE SIGNAL PROCESSING MAGAZINE [55] noVEMBER 2015 voices that are difficult to produce naturally (e.g., castrati). [TABLE 1] RESEARCH PROJECTS USING SINGING VOICE SYNTHESIS TECHNOLOGIES. More examples can be found with pedagogical purposes or as tools to identify perceptually relevant voice properties [3]. Project WEBSITE These applications of the so-called music information CANTOR HTTP://WWW.VIRSYN.DE research field may have a great impact on the way we inter- CANTOR DIGITALIS HTTPS://CANTORDIGITALIS.LIMSI.FR/ act with music [4]. Examples of research projects using sing- CHANTER HTTPS://CHANTER.LIMSI.FR ing voice synthesis technologies are listed in Table 1.
    [Show full text]