Data-Driven Concatenative Sound Synthesis
Total Page:16
File Type:pdf, Size:1020Kb
Acad´emie de Paris Universit´e Paris 6 { Pierre et Marie Curie Ecole´ Doctorale d'Informatique THESE` DE DOCTORAT sp´ecialit´e ACOUSTIQUE, TRAITEMENT DE SIGNAL ET INFORMATIQUE APPLIQUES´ A` LA MUSIQUE pr´esent´ee par Diemo Schwarz pour obtenir le grade de DOCTEUR de l'UNIVERSITE´ PARIS 6 { PIERRE ET MARIE CURIE DATA-DRIVEN CONCATENATIVE SOUND SYNTHESIS soutenue le 23. 1. 2004 devant le jury compos´e de XAVIER RODET Directeur de Th`ese UDO ZOLZER¨ Rapporteur FRANC¸ OIS PACHET Rapporteur THIERRY DUTOIT Examinateur GERARD´ CHOLLET Examinateur JEAN-FRANC¸ OIS PERROT Examinateur ii PhD Thesis in Acoustics, Computer Science, Signal Processing Applied to Music Data-Driven Concatenative Sound Synthesis Diemo Schwarz [email protected] http://www.ircam.fr/anasyn/schwarz Version 1.01 19th January 2004 Ircam { Centre Pompidou 1, place Igor{Stravinsky 75004 Paris, France http://www.ircam.fr University of Paris 6 { Pierre et Marie Curie iv v . a` Marie-Eve` Chapter Overview Abstract ix R´esum´e xi Acknowledgments xiii Contents xv 1 Introduction 1 I Previous and Related Work 7 2 Overview 9 3 Speech Synthesis 15 4 Musical Sound Synthesis 23 II Automatic Alignment 31 5 Introduction 33 6 Dynamic Time Warping 49 7 Hidden Markov Models 67 8 Discussion 79 III The Data-Driven Sound Synthesis System Caterpillar 81 9 System Overview 83 10 Sound Descriptors 85 11 Characteristic Values 101 12 Database 109 vi CHAPTER OVERVIEW vii 13 Database Interface 115 14 The Caterpillar Database Schema 121 15 Corpus Examples and Statistics 133 16 Synthesis 149 17 Applications and Results 157 Conclusion 169 18 Conclusions and Future Directions 171 Appendix 179 A The Caterpillar Database Schema 181 B Database Interface (dbi) Reference 189 C Database Explorer (dbx) Reference 197 D Documentation of the Documentation Scripts 199 E SDIF Description Types 201 F The X-SAMPA Computer Readable Phonetic Alphabet 205 G Phonetic Categories 207 Bibliography 237 Index 255 viii CHAPTER OVERVIEW Abstract Concatenative data-driven sound synthesis methods use a large database of source sounds, segmented into heterogeneous units, and a unit selection algorithm that finds the units that match best the sound or musical phrase to be synthesised, called the target. The selection is performed according to the features of the units. These are characteristics extracted from the source sounds, e.g. pitch, or attributed to them, e.g. instrument class. The selected units are then transformed to fully match the target specification, and concatenated. However, if the database is sufficiently large, the probability is high that a matching unit will be found, so the need to apply transformations is reduced. Usual synthesis methods are based on a model of the sound signal. It is very difficult to build a model that would preserve all the fine details of sound. Concatenative synthesis achieves this by using actual recordings. This data-driven approach (as opposed to a rule-based approach) takes advantage of the information contained in the many sound recordings. For example, very naturally sounding transitions can be synthesized, since unit selection is aware of the context of the database units. In speech synthesis, concatenative synthesis methods are the most widely used. They resulted in a considerable gain of naturalness and intelligibility. Results in other fields, for instance speech recognition, confirm the general superiority of data-driven approaches. Concatenative data-driven approaches have made their way into some musical synthesis applications which are briefly presented. The Caterpillar software system developed in this thesis allows data-driven musical sound syn- thesis from a large database. However, musical creation is an artistic activity and thus not based on clearly definable criteria, like in speech synthesis. That's why a flexible, interactive use of the system allows composers to obtain new sounds. To constitute a unit database, alignment of music to a score is used to segment musical instrument recordings. It is based on spectral peak structure matching and the two approaches using Dynamic Time Warping and Hidden Markov Models are compared. Descriptor extraction analyses the sounds for their signal, spectral, harmonic, and perceptive char- acteristics, and temporal modeling techniques characterise the temporal evolution of the units uni- formly. However, it is possible to attribute score information like playing style, or arbitrary infor- mation to the units, which can later be used for selection. The database is implemented using a relational SQL database management system for optimal flexibility and reliability. A database interface cleanly separates the synthesis system from the database. The best matching sequence of units is found by a Viterbi unit selection algorithm. To incorporate a more flexible specification of the resulting sequence of units, the constraint solving algorithm of adaptive local search has been alternatively applied to unit selection. Both algorithms are based on two distance functions: the target distance expresses the similarity of a target unit to the database units, and the concatenation distance the quality of the join of two database units. Data-driven concatenative synthesis is then applied to instrument synthesis with high level control, explorative free synthesis from arbitrary sound databases, resynthesis of a recording with sounds from the database, and artistic speech synthesis. For these applications, unit corpora of violin sounds, environmental noises, and speech have been built. ix x R´esum´e La synth`ese concat´enative par s´election d'unit´es sonores utilise une base de donn´ees de sons enre- gistr´es, et un algorithme de s´election d'unit´es qui choisit les segments de la base de donn´ees qui conviennent le mieux pour la s´equence musicale que l'on souhaite synth´etiser, dite la cible. En- suite, ces segments sont concat´en´es pour former la phrase cible. La s´election est fond´ee sur les caract´eristiques de l'enregistrement, qui sont obtenues par analyse du signal et correspondent par exemple a` la hauteur, a` l'´energie ou au spectre. Les m´ethodes de synth`ese musicale habituelles sont fond´ees sur un mod`ele du signal sonore, mais il est tr`es difficile d'´etablir un mod`ele qui pr´eserverait la totalit´e des d´etails du son. En revanche, la synth`ese concat´enative, qui utilise des enregistrements r´eels pr´eserve ces d´etails. Si la base de donn´ees des enregistrements est suffisament grande, on dispose d'une grande quantit´e de sons dans de nombreux contextes, ce qui permet de minimiser l'application de transformations, qui entra^ınent toujours une d´egradation du son. Cette approche, dite approche fond´ee sur les donn´ees, b´en´eficie des informations contenues dans les nombreux enregistrements sonores. Au contraire, l'ap- proche dite \fond´ee sur les r`egles" construit les r`egles de fa¸con r´eflexive, ce qui peut ^etre source d'erreurs. En synth`ese de la parole, les m´ethodes de synth`ese concat´enative sont les plus employ´ees. Ces syst`emes sont g´eneralement consid´er´es comme plus performants que les syst`emes de synth`ese pa- ram´etriques fond´es sur les r`egles pour le naturel et l'intelligibilit´e. En effet, les r´esultats dans d'autres domaines, comme celui de la reconnaissance de la parole, confirment la sup´eriorit´e g´en´erale de l'ap- proche fond´ee sur les donn´ees. Les id´ees de la synth`ese concat´enative fond´ee sur les donn´ees ap- paraissent dans d'autres applications et syst`emes de synth`ese musicale. Ceux-ci sont bri`evement pr´esent´ees et analys´ees. Le syst`eme logiciel Caterpillar, r´ealis´e au cours de cette th`ese, permet de r´ealiser la synth`ese sonore musicale concat´enative fond´ee sur les donn´ees. Or, la cr´eation musicale est une activit´e artistique, et n'est donc pas fond´ee sur des crit`eres rigoureusement d´efinis, comme c'est le cas en synth`ese de la parole, celle-ci accordant un inter^et primordial a` l'intelligibilit´e et au naturel. C'est pourquoi l'utilisation de ce syst`eme de synth`ese musicale pour une activit´e cr´eatrice permet ´egalement aux compositeurs et musiciens d'atteindre de nouvelles sonorit´es. Le syst`eme est capable d'int´egrer d'autres bases de donn´ees de sons, des caract´eristiques suppl´ementaires, et de nouveaux algorithmes de s´election. Les fonctionnalit´es de Caterpillar sont : • l'analyse et la segmentation des enregistrements destin´es a` fournir le mat´eriel source • l'analyse en descripteurs sonores et la modelisation temporelle des unit´es sonores • la gestion des fichiers de son et de donn´ees dans la base de donn´ees • la recherche et la s´election d'unit´es de la base de donn´ees en fonction des param`etres cibles • la concat´enation des unit´es La segmentation d'enregistrements musicaux est obtenue par alignement de la partition avec le signal sonore d'une ex´ecution de celle-ci. L'alignement est fond´e sur une m´ethode d'appariement spectral, utilisable aussi dans un cas polyphonique, et deux m´ethodes diff´erentes, qui sont compar´es, le Dynamic Time Warping et les cha^ınes de Markov cach´ees (Hidden Markov Models). xi xii RESUM´ E´ L'analyse en descripteurs fournit des caract´eristiques du signal, spectrales, harmoniques et percep- tives. Toutefois, il est possible d'attribuer des informations de la partition (modes de jeu) ou des informations arbitraires aux unit´es. La mod´elisation temporelle r´eduit les courbes continues des descripteurs a` un vecteur de caract´eristiques qui d´ecrivent l'´evolution temporelle d'un descripteur a` travers une unit´e.