Applicationofsinging Synthesistechniquesto
Total Page:16
File Type:pdf, Size:1020Kb
APPLICATION OF SINGING SYNTHESIS TECHNIQUES TO BERTSOLARITZA a dissertation presented by Xabier Sarasola Aramendia Thesis director: Dr. Eva Navas Cordón in partial fulfillment of the requirements for the degree of Doctor of Philosophy in the subject of Computer Science UPV/EHU Bilbo October 2020 (cc)2020 XABIER SARASOLA ARAMENDIA (cc by-sa 4.0) Acknowledgments I would like to thank the following people for helping with this research project: • Eva nire tutoreari, laguntza eta pazientzia guztiarengatik. Itsasuntzi guztiek behar dute lema. Flotatzea eta aurrera egitea ez da inoiz nahikoa. • Aholabeko taldekide guztiei. Ezinezkoa da neurtzea lan hau egin bitartean jasotako erronkak, laguntza eta babesa. Inma, meritoa dauka hau bezelako talde poliedrikoa bat gainbegiratzea eta zer esanik ez honekin helburu koer- enteak lortzea. Eskerrik asko gidaritzarengatik. Jon, eskerrik asko unibert- sitate irakaskuntzarako sarreran laguntzeagatik. Makinista izatea ez duzu oraindik lortu baina bips bezelako lurrun-makina bat nola zaintzen duzun ikusita argi dago arazorik ez zenuela izango eskala handiagoekin. Ibon, er- ronka dialektiko etengabea, eskerrik asko txartel grafikoen eta pythonen arora sartzerakoan pauso bakoitzaren zehaztasun zientifikoa exijitzeagatik. Igor, eskerrik asko hizketaren ezagutzarekin laguntzeagatik eta edozein gairi buruzko ikuspuntu kritikoa emateagatik. Daniel, tan excepcional en el conocimiento de la voz humana y tan cercano en el día a día. Gracias por la introducción y ayuda en mis inicios en la sínte- sis de voz. Agustín, gracias también por la ayuda con la síntesis de voz en mis inicios y los cursos acelerados sobre el idioma y cultura japonesa. No creo que mi trabajo haya conseguido la calidad de Hatsune Miku pero espero haberme acercado lo suficiente. David, gracias por haberme respondido i con elegancia tantas dudas y preguntas en aspectos que han ido desde lo estríctamente profesional a estadísticas tan polémicas como las asistencias post-rebote en el fútbol. Gracias también por implantar y haber sostenido la cultura de las palmeras. Las idiosincrasias se hacen, no se nacen. Luis, gra- cias por la amabilidad y ayuda desde el primer momento en el que llegué. Tu conocimiento sobre el laboratorio y todo lo que lo rodea se acerca a tu enciclopédico saber sobre el cómic. Ambas habilidades han sido esenciales durante estos años. Sneha, thank you for introducing to our research group the amazing world of the human brain and your help with all my musical questions. Itxasne, eskerrik asko laborategiari emandako gatz eta piperrarengatik eta laguntzarengatik. Palmeren kultura ere zurea da. Victor, aunque hayamos compartido poco tiempo de laboratorio, te tengo que agradecer haber puesto encima de la mesa las tecnologías y desafíos que marcarán el futuro de la síntesis de voz. Eder, ez dugu asko elkar topatu denbora honetan baina musikari buruz izan- dako galdera askoren erantzunak topatzen lagundu didazu. Eskerrik asko. • Giorgos and Maria, for all the help and advise offered in that little paradise called Creta. • Bertsozale Elkartea eta Xenpelar dokumentazio zentroa, eskerrik asko hain- bat urtetan profesionaltasun handiaz jasotako datuak erabiltzen uzteagatik. Datu hauek izan dira lan honen subjektu material nagusia eta espero dut bertsolaritzaren etorkizunerako bide berriak irekitzen lagundu izana. ii Laburpena Tesi hau bertsolaritza kantu-ahots sintesi sistema berri baten garapenean zen- tratzen da, zuzeneko grabazioak oinarri gisa erabiliz. Lan honen erronka ez da soi- lik kantu-ahots sintesi sistema bat martxan jartzea. Bertsolaritza grabazioen cor- pusak bertso inprobisatuen transkripzioak ditu, baina grabazio artxiboek kantu- ahotsa ez diren hainbat elementu dituzte. Grabazioa gehienak zuzeneko saioak di- renez, hizlarien ahotsa, jendearen txaloak eta zarata datu-basearen parte dira. Gain- era, kantu-ahotsa ez dago etiketatua datu-basean. Ezaugarri hauek dituen datu- base batekin, lan honen helburua bertsolaritza audioak garbitu, segmentatu eta etiketatzeko metodoak sortzea da, ondoren datu horiek kantu-ahotsaren sintesi ereduak sortzeko balio duten aztertzeko. Grabazioetan kantu-ahots segmentuak automatikoki lortzeko metodoak garatu ditugu, hizketaetakantu-ahotsabereiztendituztenalgoritmoaksortuz. Interbentzi- oen eta fonemen segmentazioa burutu dugu kantari anitzeko datubasean. Pro- posatutako segmentazio algoritmoek etorkizunean ager daitezken bertsolari be- rrien grabazioak segmentatzeko gaitasuna dute. Ondoren, bertsolaritza artearen propietate musikalak aztertu ditugu eta datu-baseko melodia teorikoak eta haien interpretazioa alderatu ditugu. Sistema automatikoak definitu ditugu bertsolarien kantu-ahotsa musikalki etiketatzeko. Etiketatze honek vibratoa kontuan hartzen du eta honen erabilera aztertu dugu bertsolari bakoitzean. Lortutako etiketatze sistema guztien ebaluazioa egin dugu prozesuan zehar. Etiketatutako bertso grabazioen datu-basea sortu ondoren kantu-ahots sintesi sistemak sortu ditugu HMM eta DNN-ak erabiliz. Sistema hauei pitch nor- iii malizazioa, tempo egokitzapena eta vibrato iragarpen teknikak gehitu dizkiegu. Metodo bat definitu dugu partiturak bertsolari bakoitzera automatikoki egok- itzeko hauen pitch tartea kontuan hartuz. Bertsolari desberdinetarako sortutako sintesi ereduak modu subjektibo eta objektiboan ebaluatu ditugu emaitza onak lor- tuz. Tesi honen ekarpenak bertsolaritza eta kantu-ahotsaren sintesiarekin erlazion- atzen dira. Informazio maila berriak gehitu dizkiogu bertsolaritza corpusari, kantu- ahotsaren segmentazioarekin, interbentzioen segmentazi- oa, fonemen segmen- tazioa eta etiketatze musikalarekin. Etiketatzeko metodo hauek ez dute inolako kontrolik behar eta, beraz, etorkizunean datu-base etiketatuak handitzeko tresnak sortu ditugu. Kantari anitzeko datu-base bat sortu dugu, artearen egoerako beste kantu-ahots datubaseak baina handiago dena. Azkenik, bertsolaritza kantu-ahotsa sintetizatzeko sistemak definitu ditugu kantari eta teknologia desberdinekin, emai- tza positiboak lortuz. iv Abstract This thesis focuses on the development of a new bertsolaritza singing voice syn- thesis system using as base original bertsolaritza live session recordings. The chal- lenge of this work is not only the implementation of a singing voice synthesis sys- tem. The recorded corpus of bertsolaritza contains the transcriptions of impro- vised verses, but the audio files contain multiple elements that are not singing voice. As the majority of the recorded audios are live sessions, the voice of a speaker, ap- plause of the public and noise are part of the database. In addition, the musical labeling of the singing voice is not included in the database. With a database of these properties, the aim of this work is to create methods to clean, segment and label the audios in the bertsolaritza and analyze the possibility of using them to create synthesis models for bertsolaritza singing voice synthesis. We have developed methods to automatically obtain the singing voice segments in the recordings, creating new speech and singing voice classification algorithms. The segmentation of bertso utterances and phonemes has been performed ina multi-singer database. The segmentation algorithms proposed have the capacity to align material from unseen bertsolaris in the future. After that, we analyzed the musical properties of the bertsolaritza art and compared the theoretical melodies in the database with the actual interpretation of them. We defined automatic sys- tems to musically label the bertsolaritza singing voice generating a fully labeled bertsolaritza database. Musical labeling included vibrato and we analyzed the use of it in each bertsolari. We evaluated all automatic labeling systems in the process. After creating a labeled database of bertso recordings we generated singing voice v synthesis systems using HMMs and DNNs. We included f0 normalization, tempo adaptation and vibrato prediction techniques in these systems. We defined meth- ods to automatically adapt music scores for each bertsolari considering the pitch range of each bertsolari. We evaluated synthesis models created for different bert- solaris in a subjective and objective way obtaining good results. The contributions of this thesis are related to bertsolaritza and singing voice syn- thesis. We added new information levels to the bertsolaritza corpus with the seg- mentation of singing voice, the alignment of utterances and phonemes and the subsequent musical labeling. These labeling methods need no manual supervision and therefore we created tools to increase the labeled database in the future. We created a multi-singer singing voice database that is considerably bigger than any state of the art singing voice databases. Finally we defined systems to synthesize bertsolaritza singing voice using different singers and technologies obtaining pos- itive results. vi Contents Acknowledgments i Laburpena iii Abstract v Contents vii Listing of figures xiii Listing of tables xix 1 Introduction 1 1.1 Motivation ............................ 2 1.1.1 Bertsolaritza ........................ 3 1.1.2 Singing voice synthesis .................. 3 1.1.3 Aholab signal processing laboratory ............ 4 1.1.4 Convergence of paths ................... 4 1.2 Research overview ........................ 4 1.3 Objectives ............................ 6 1.4 Thesis structure .......................... 8 2 State of the art 11 2.1 Singing voice ........................... 12 2.1.1 Singing voice f0 ...................... 18 vii 2.1.1.1 Modeling strategies