Voice Source Modelling Techniques for Statistical Parametric Speech Synthesis Aalto University
Total Page:16
File Type:pdf, Size:1020Kb
Department of Signal Processing and Acoustics Aalto- Speech is the most natural way through TuomoRaitio which humans communicate, and today DD Voice source modelling speech synthesis is utilised in various ap- 40 / plications. However, the performance of 2015 modern speech synthesisers falls far short techniques for statistical from the abilities of human speakers—syn- sourceVoice modelling techniques for statistical parametric speech synthesis thesising intelligible and natural sounding parametric speech speech with desired contextual and speaker characteristics and appropriate speaking style is extremely difficult. This thesis aims synthesis to improve both the naturalness and expres- sivity of speech synthesis by proposing new methods for voice source modelling in sta- tistical parametric speech synthesis. With accurate estimation and appropriate model- Tuomo Raitio ling of the voice source signal, which is known to be the origin for several essential acoustic cues in spoken communication, various expressive voices are created with high degree of naturalness and intelligibility. Evaluations in various listening contexts show that speech created with the proposed methods is assessed to be more suitable than that generated with current techniques, thus providing potentially large benefits in many speech synthesis applications. 9HSTFMG*agbdgi+ ISBN 978-952-60-6136-8 (printed) BUSINESS + ISBN 978-952-60-6137-5 (pdf) ECONOMY ISSN-L 1799-4934 ISSN 1799-4934 (printed) ART + ISSN 1799-4942 (pdf) DESIGN + ARCHITECTURE UniversityAalto Aalto University School of Electrical Engineering SCIENCE + Department of Signal Processing and Acoustics TECHNOLOGY www.aalto.fi CROSSOVER DOCTORAL DOCTORAL DISSERTATIONS DISSERTATIONS Aalto University publication series DOCTORAL DISSERTATIONS 40/2015 Voice source modelling techniques for statistical parametric speech synthesis Tuomo Raitio A doctoral dissertation completed for the degree of Doctor of Science (Technology) to be defended, with the permission of the Aalto University School of Electrical Engineering, at a public examination held at the lecture hall S1 of the school on 5 June 2015 at 12. Aalto University School of Electrical Engineering Department of Signal Processing and Acoustics Supervising professor Professor Paavo Alku Thesis advisor Professor Paavo Alku Preliminary examiners Professor Steve Renals, University of Edinburgh, UK Assistant Professor Jon Gudnason, Reykjavik University, Iceland Opponent Professor Yannis Stylianou, University of Crete, Greece Aalto University publication series DOCTORAL DISSERTATIONS 40/2015 © Tuomo Raitio ISBN 978-952-60-6136-8 (printed) ISBN 978-952-60-6137-5 (pdf) ISSN-L 1799-4934 ISSN 1799-4934 (printed) ISSN 1799-4942 (pdf) http://urn.fi/URN:ISBN:978-952-60-6137-5 Unigrafia Oy Helsinki 2015 Finland Abstract Aalto University, P.O. Box 11000, FI-00076 Aalto www.aalto.fi Author Tuomo Raitio Name of the doctoral dissertation Voice source modelling techniques for statistical parametric speech synthesis Publisher School of Electrical Engineering Unit Department of Signal Processing and Acoustics Series Aalto University publication series DOCTORAL DISSERTATIONS 40/2015 Field of research Speech and language technology Manuscript submitted 16 December 2014 Date of the defence 5 June 2015 Permission to publish granted (date) 5 March 2015 Language English Monograph Article dissertation (summary + original articles) Abstract Speech is the most natural way of human communication, and thus designing a machine that imitates human speech has long fascinated people. Only rather recently, due to digitisation of speech and increase in computing power, this goal has become feasible. Although speech syn- thesis is used today in various applications from human-computer interaction to assistive tech- nologies, the performance of modern speech synthesisers is far from the abilities of human speakers. The ultimate goal of text-to-speech (TTS) synthesis is to read any text and convert it to intel- ligible and natural sounding speech with the desired contextual and speaker characteristics. Meeting all of these goals at once makes this task extremely difficult. Moreover, the quality of the speech signal cannot be compromised since humans are very sensitive in perceiving even the slightest artefacts in a speech signal. This thesis aims to improve both the naturalness and expressivity of speech synthesis by de- veloping speech processing algorithms that utilise information from the speech production mechanism. One of the key algorithms in this work is glottal inverse filtering (GIF), which is used for estimating the voice source signal from recorded speech. The voice source is known to be the origin of several essential acoustic cues used in spoken communication, such as the fun- damental frequency, but it is also related to acoustic cues underlying voice quality, speaking style, and speaker identity, all of which contribute to the naturalness and expressivity of speech. Accurate modelling of the voice source is often overlooked in conventional speech processing algorithms, and this work aims to improve especially this shortcoming. In this thesis, two new GIF methods are first proposed that can be used for improved estima- tion of the voice source signal. Secondly, several novel voice source parameterization and mod- elling methods are developed that can be used in statistical parametric speech synthesis (SPSS) to improve naturalness and expressivity. Thirdly, using GIF and the voice source modelling methods in the context of SPSS, expressive voices are created that aim to cover various human speaking styles used in everyday spoken communication. Finally, the created synthetic voices are assessed using extensive subjective evaluation in different listening conditions. The results of the evaluation show that the naturalness and expressivity of synthetic speech can be en- hanced using the techniques proposed in this thesis, and that the voices are perceived to be more suitable in various realistic contexts. Thus, the methods presented in this thesis provide a large potential to enhance the naturalness, expressivity, and suitability of speech synthesis in various applications. Keywords statistical parametric speech synthesis, voice source modelling, glottal inverse filtering, voice quality, expressive speech synthesis ISBN (printed) 978-952-60-6136-8 ISBN (pdf) 978-952-60-6137-5 ISSN-L 1799-4934 ISSN (printed) 1799-4934 ISSN (pdf) 1799-4942 Location of publisher Helsinki Location of printing Helsinki Year 2015 Pages 287 urn http://urn.fi/URN:ISBN:978-952-60-6137-5 Tiivistelmä Aalto-yliopisto, PL 11000, 00076 Aalto www.aalto.fi Tekijä Tuomo Raitio Väitöskirjan nimi Puheen äänilähteen mallintaminen tilastollisessa parametrisessa puhesynteesissä Julkaisija Sähkötekniikan korkeakoulu Yksikkö Signaalinkäsittelyn ja akustiikan laitos Sarja Aalto University publication series DOCTORAL DISSERTATIONS 40/2015 Tutkimusala Puhe- ja kieliteknologia Käsikirjoituksen pvm 16.12.2014 Väitöspäivä 05.06.2015 Julkaisuluvan myöntämispäivä 05.03.2015 Kieli Englanti Monografia Yhdistelmäväitöskirja (yhteenveto-osa + erillisartikkelit) Tiivistelmä Puhe on ihmisten luonnollisin tapa kommunikoida, ja siksi puhetta tuottavan koneen suun- nittelu on jo kauan kiehtonut ihmisiä. Kuitenkin vasta viime vuosikymmeninä puhesynteesistä on tullut käytännössä mahdollista, mikä suureksi osaksi on johtunut puheen digitaalisesta esi- tysmuodosta ja kasvaneesta laskentatehosta. Vaikka puhesynteesiä käytetään nykyään monen- laisissa sovelluksissa, kuten ihmisen ja tietokoneen vuorovaikutuksessa sekä avustavassa tek- nologiassa, nykyiset puhesyntetisaattorit ovat kuitenkin vielä kaukana ihmisten monipuolises- ta puheentuottokyvystä. Puhesynteesin perimmäinen tavoite on muuttaa mikä tahansa teksti ymmärrettäväksi ja luonnollisen kuuloiseksi puheeksi, josta välittyvät myös tilanteeseen sopivat ja puhujalle omi- naiset puheen piirteet. Näiden kaikkien tavoitteiden saavuttaminen yhtä aikaa on erittäin haas- tavaa, minkä lisäksi puhesignaalin laatu pitää olla erittäin hyvä, koska ihminen on hyvin herkkä havaitsemaan pienimpiäkin virheitä puhesignaalissa. Tämän väitöskirjan tavoitteena on parantaa sekä puhesynteesin laatua että ilmaisuvoimaa kehittämällä puheenkäsittelymenetelmiä, jotka tarkemmin hyödyntävät informaatiota pu- heentuoton toimintatavasta. Yksi tämän työn tärkeimmistä menetelmistä onkin äänilähteen käänteissuodatus, minkä avulla äänitetystä puheesta voidaan määrittää äänilähdesignaali. Tä- mä signaali on erittäin tärkeä puheen havaitsemisen kannalta, sillä se vaikuttaa olennaisesti niihin akustisiin piirteisiin, jotka liittyvät ääntö- ja puhetapaan ja siten puheen persoonallisiin piirteisiin. Vaikka nämä piirteet vaikuttavat merkittävästi puheen luonnollisuuteen ja ilmai- suvoimaan, perinteisissä puhesynteesimenetelmissä käytetään yleensä hyvin yksinkertaistet- tua äänilähdesignaalin mallintamista. Tässä työssä pyritään parantamaan synteettisen puheen laatua keskittymällä erityisesti edellämainittuun ongelmaan. Tässä väitöskirjassa esitetään ensiksi kaksi uutta äänilähteen käänteissuodatusmenetelmää, jotka mahdollistavat tarkemman äänilähdesignaalin määrittämisen puheesta. Toiseksi työssä esitetään useita uusia äänilähteen mallintamistekniikoita, joita voidaan käyttää tilastollisessa parametrisessa puhesynteesissä parantamaan puheen luonnollisuutta ja ilmaisuvoimaa. Kol- manneksi käyttämällä äänilähteen käänteissuodatus- ja mallintamistekniikoita työssä luotiin synteettisiä ääniä, jotka pyrkivät kattamaan erilaisia