Data-Driven Concatenative Sound Synthesis

Académie de Paris Université Paris 6 { Pierre et Marie Curie Ecole´ Doctorale d'Informatique THESE` DE DOCTORAT spécialité ACOUSTIQUE, TRAITEMENT DE SIGNAL ET INFORMATIQUE APPLIQUES´ A` LA MUSIQUE présentée par Diemo Schwarz pour obtenir le grade de DOCTEUR de l'UNIVERSITE´ PARIS 6 { PIERRE ET MARIE CURIE DATA-DRIVEN CONCATENATIVE SOUND SYNTHESIS soutenue le 23. 1. 2004 devant le jury composé de XAVIER RODET Directeur de Thèse UDO ZOLZER¨ Rapporteur FRANÇ OIS PACHET Rapporteur THIERRY DUTOIT Examinateur GERARD´ CHOLLET Examinateur JEAN-FRANÇ OIS PERROT Examinateur ii PhD Thesis in Acoustics, Computer Science, Signal Processing Applied to Music Data-Driven Concatenative Sound Synthesis Diemo Schwarz [email protected] http://www.ircam.fr/anasyn/schwarz Version 1.01 19th January 2004 Ircam { Centre Pompidou 1, place Igor{Stravinsky 75004 Paris, France http://www.ircam.fr University of Paris 6 { Pierre et Marie Curie iv v . a` Marie-Eve` Chapter Overview Abstract ix Résumé xi Acknowledgments xiii Contents xv 1 Introduction 1 I Previous and Related Work 7 2 Overview 9 3 Speech Synthesis 15 4 Musical Sound Synthesis 23 II Automatic Alignment 31 5 Introduction 33 6 Dynamic Time Warping 49 7 Hidden Markov Models 67 8 Discussion 79 III The Data-Driven Sound Synthesis System Caterpillar 81 9 System Overview 83 10 Sound Descriptors 85 11 Characteristic Values 101 12 Database 109 vi CHAPTER OVERVIEW vii 13 Database Interface 115 14 The Caterpillar Database Schema 121 15 Corpus Examples and Statistics 133 16 Synthesis 149 17 Applications and Results 157 Conclusion 169 18 Conclusions and Future Directions 171 Appendix 179 A The Caterpillar Database Schema 181 B Database Interface (dbi) Reference 189 C Database Explorer (dbx) Reference 197 D Documentation of the Documentation Scripts 199 E SDIF Description Types 201 F The X-SAMPA Computer Readable Phonetic Alphabet 205 G Phonetic Categories 207 Bibliography 237 Index 255 viii CHAPTER OVERVIEW Abstract Concatenative data-driven sound synthesis methods use a large database of source sounds, segmented into heterogeneous units, and a unit selection algorithm that finds the units that match best the sound or musical phrase to be synthesised, called the target. The selection is performed according to the features of the units. These are characteristics extracted from the source sounds, e.g. pitch, or attributed to them, e.g. instrument class. The selected units are then transformed to fully match the target specification, and concatenated. However, if the database is sufficiently large, the probability is high that a matching unit will be found, so the need to apply transformations is reduced. Usual synthesis methods are based on a model of the sound signal. It is very difficult to build a model that would preserve all the fine details of sound. Concatenative synthesis achieves this by using actual recordings. This data-driven approach (as opposed to a rule-based approach) takes advantage of the information contained in the many sound recordings. For example, very naturally sounding transitions can be synthesized, since unit selection is aware of the context of the database units. In speech synthesis, concatenative synthesis methods are the most widely used. They resulted in a considerable gain of naturalness and intelligibility. Results in other fields, for instance speech recognition, confirm the general superiority of data-driven approaches. Concatenative data-driven approaches have made their way into some musical synthesis applications which are briefly presented. The Caterpillar software system developed in this thesis allows data-driven musical sound synthesis from a large database. However, musical creation is an artistic activity and thus not based on clearly definable criteria, like in speech synthesis. That's why a flexible, interactive use of the system allows composers to obtain new sounds. To constitute a unit database, alignment of music to a score is used to segment musical instrument recordings. It is based on spectral peak structure matching and the two approaches using Dynamic Time Warping and Hidden Markov Models are compared. Descriptor extraction analyses the sounds for their signal, spectral, harmonic, and perceptive characteristics, and temporal modeling techniques characterise the temporal evolution of the units uni- formly. However, it is possible to attribute score information like playing style, or arbitrary information to the units, which can later be used for selection. The database is implemented using a relational SQL database management system for optimal flexibility and reliability. A database interface cleanly separates the synthesis system from the database. The best matching sequence of units is found by a Viterbi unit selection algorithm. To incorporate a more flexible specification of the resulting sequence of units, the constraint solving algorithm of adaptive local search has been alternatively applied to unit selection. Both algorithms are based on two distance functions: the target distance expresses the similarity of a target unit to the database units, and the concatenation distance the quality of the join of two database units. Data-driven concatenative synthesis is then applied to instrument synthesis with high level control, explorative free synthesis from arbitrary sound databases, resynthesis of a recording with sounds from the database, and artistic speech synthesis. For these applications, unit corpora of violin sounds, environmental noises, and speech have been built. ix x Résumé La synthèse concaténative par sélection d'unités sonores utilise une base de données de sons enre- gistrés, et un algorithme de sélection d'unités qui choisit les segments de la base de données qui conviennent le mieux pour la séquence musicale que l'on souhaite synthétiser, dite la cible. En- suite, ces segments sont concaténés pour former la phrase cible. La sélection est fondée sur les caractéristiques de l'enregistrement, qui sont obtenues par analyse du signal et correspondent par exemple a` la hauteur, a` l'énergie ou au spectre. Les méthodes de synthèse musicale habituelles sont fondées sur un modèle du signal sonore, mais il est très difficile d'établir un modèle qui préserverait la totalité des détails du son. En revanche, la synthèse concaténative, qui utilise des enregistrements réels préserve ces détails. Si la base de données des enregistrements est suffisament grande, on dispose d'une grande quantité de sons dans de nombreux contextes, ce qui permet de minimiser l'application de transformations, qui entra^ınent toujours une dégradation du son. Cette approche, dite approche fondée sur les données, bénéficie des informations contenues dans les nombreux enregistrements sonores. Au contraire, l'approche dite \fondée sur les règles" construit les règles de fa¸con réflexive, ce qui peut être source d'erreurs. En synthèse de la parole, les méthodes de synthèse concaténative sont les plus employées. Ces systèmes sont géneralement considérés comme plus performants que les systèmes de synthèse pa- ramétriques fondés sur les règles pour le naturel et l'intelligibilité. En effet, les résultats dans d'autres domaines, comme celui de la reconnaissance de la parole, confirment la supériorité générale de l'approche fondée sur les données. Les idées de la synthèse concaténative fondée sur les données ap- paraissent dans d'autres applications et systèmes de synthèse musicale. Ceux-ci sont brièvement présentées et analysées. Le système logiciel Caterpillar, réalisé au cours de cette thèse, permet de réaliser la synthèse sonore musicale concaténative fondée sur les données. Or, la création musicale est une activité artistique, et n'est donc pas fondée sur des critères rigoureusement définis, comme c'est le cas en synthèse de la parole, celle-ci accordant un interêt primordial a` l'intelligibilité et au naturel. C'est pourquoi l'utilisation de ce système de synthèse musicale pour une activité créatrice permet également aux compositeurs et musiciens d'atteindre de nouvelles sonorités. Le système est capable d'intégrer d'autres bases de données de sons, des caractéristiques supplémentaires, et de nouveaux algorithmes de sélection. Les fonctionnalités de Caterpillar sont : • l'analyse et la segmentation des enregistrements destinés a` fournir le matériel source • l'analyse en descripteurs sonores et la modelisation temporelle des unités sonores • la gestion des fichiers de son et de données dans la base de données • la recherche et la sélection d'unités de la base de données en fonction des paramètres cibles • la concaténation des unités La segmentation d'enregistrements musicaux est obtenue par alignement de la partition avec le signal sonore d'une exécution de celle-ci. L'alignement est fondé sur une méthode d'appariement spectral, utilisable aussi dans un cas polyphonique, et deux méthodes différentes, qui sont comparés, le Dynamic Time Warping et les cha^ınes de Markov cachées (Hidden Markov Models). xi xii RESUM´ E´ L'analyse en descripteurs fournit des caractéristiques du signal, spectrales, harmoniques et percep- tives. Toutefois, il est possible d'attribuer des informations de la partition (modes de jeu) ou des informations arbitraires aux unités. La modélisation temporelle réduit les courbes continues des descripteurs a` un vecteur de caractéristiques qui décrivent l'évolution temporelle d'un descripteur a` travers une unité.

Data-Driven Concatenative Sound Synthesis

Playing (With) Sound of the Animation of Digitized Sounds and Their Reenactment by Playful Scenarios in the Design of Interactive Audio Applications

The Unicode Cookbook for Linguists: Managing Writing Systems Using Orthography Profiles

Developing Sound Spatialization Tools for Musical Applications with Emphasis on Sweet Spot and Oﬀ-Center Perception

Libro Publicacion Oficial A4

Kaija Saariaho's Early Electronic Music at IRCAM, 1982–87

Akrata, for 16 Winds by Iannis Xenakis: Analyses1

Philological Sciences. Linguistics” / Journal of Language Relationship Issue 3 (2010)

Electronic Music Machines: the New Musical Instruments Jean-Michel Reveillac

UCLA Electronic Theses and Dissertations

Sprechen Über Neue Musik

Popular Music in Germany the History of Electronic Music in Germany

Sampling Without Authorisation Can Infringe a Phonogram Producer's