Music Sound Synthesis Using Machine Learning: Towards a Perceptually Relevant Control Space
Total Page:16
File Type:pdf, Size:1020Kb
THÈSE Pour obtenir le grade de DOCTEUR DE L’UNIVERSITE GRENOBLE ALPES Spécialité : Signal, Image, Parole, Télécoms (SIPT) Arrêté ministériel : 25 mai 2016 Présentée par Fanny ROCHE Thèse dirigée par Laurent GIRIN, Professeur, Communauté Université Grenoble Alpes, GIPSA-Lab et Co-encadrée par Thomas HUEBER, Chargé de Recherche, CNRS, GIPSA-Lab et Maëva GARNIER, Chargée de Recherche, CNRS, GIPSA-Lab et Samuel LIMIER, Ingénieur, ARTURIA préparée au sein du Laboratoire Grenoble Images Parole Signal Automatique (GIPSA-Lab) et d’ARTURIA dans l'École Doctorale Electronique, Electrotechnique, Automatique, Traitement du Signal (EEATS) Music sound synthesis using machine learning: Towards a perceptually relevant control space Thèse soutenue publiquement le 29 septembre 2020, devant le jury composé de : Monsieur Christophe D’ALESSANDRO Directeur de Recherche, CNRS, Institut Jean le Rond d’Alembert, Rapporteur, Président du jury Monsieur Geoffroy PEETERS Professeur, Télécom ParisTech, LTCI, Rapporteur Madame Emilia GÓMEZ Associate Professor, Universitat Pompeu Fabra, MTG, Examinatrice Monsieur Antoine LIUTKUS Chargé de Recherche, INRIA, LIRMM, Examinateur Monsieur Laurent GIRIN Professeur, Communauté Université Grenoble Alpes, GIPSA-Lab, Directeur de Thèse Monsieur Thomas HUEBER Chargé de Recherche, CNRS, GIPSA-Lab, Co-encadrant de Thèse Madame Maëva GARNIER Chargée de Recherche, CNRS, GIPSA-Lab, Co-encadrante de Thèse, Invitée Monsieur Samuel LIMIER Ingénieur, ARTURIA, Co-encadrant de Thèse, Invité UNIVERSITÉ DE GRENOBLE ALPES ÉCOLE DOCTORALE EEATS Electronique, Electrotechnique, Automatique, Traitement du Signal THÈSE pour obtenir le titre de docteur en sciences de l’Université de Grenoble Alpes Mention : Signal, Image, Parole, Télécoms Présentée et soutenue par Fanny ROCHE Music sound synthesis using machine learning: Towards a perceptually relevant control space Thèse dirigée par Laurent GIRIN et co-encadrée par Thomas HUEBER, Maëva GARNIER et Samuel LIMIER préparée au laboratoire Grenoble Images Parole Signal Automatique (GIPSA-Lab) et ARTURIA soutenue le 29 septembre 2020 Jury : Président du jury : Christophe D’ALESSANDRO CNRS, Institut Jean le Rond d’Alembert Rapporteur : Geoffroy PEETERS Télécom ParisTech, LTCI Examinatrice : Emilia GÓMEZ Universitat Pompeu Fabra, MTG Examinateur : Antoine LIUTKUS INRIA, LIRMM Directeur : Laurent GIRIN Communauté Université Grenoble Alpes, GIPSA-Lab Encadrant : Thomas HUEBER CNRS, GIPSA-Lab Invitée : Maëva GARNIER CNRS, GIPSA-Lab Invité : Samuel LIMIER ARTURIA Abstract One of the main challenges of the synthesizer market and the research in sound synthesis nowadays lies in proposing new forms of synthesis allowing the creation of brand new sonori- ties while offering musicians more intuitive and perceptually meaningful controls to help them reach the perfect sound more easily. Indeed, today’s synthesizers are very powerful tools that provide musicians with a considerable amount of possibilities for creating sonic textures, but the control of parameters still lacks user-friendliness and may require some expert knowledge about the underlying generative processes. In this thesis, we are interested in developing and evaluating new data-driven machine learning methods for music sound synthesis allow- ing the generation of brand new high-quality sounds while providing high-level perceptually meaningful control parameters. The first challenge of this thesis was thus to characterize the musical synthetic timbre by evidencing a set of perceptual verbal descriptors that are both frequently and consensually used by musicians. Two perceptual studies were then conducted: a free verbalization test enabling us to select eight different commonly used terms for describing synthesizer sounds, and a semantic scale analysis enabling us to quantitatively evaluate the use of these terms to characterize a subset of synthetic sounds, as well as analyze how consensual they were. In a second phase, we investigated the use of machine learning algorithms to extract a high-level representation space with interesting interpolation and extrapolation properties from a dataset of sounds, the goal being to relate this space with the perceptual dimensions evidenced earlier. Following previous studies interested in using deep learning for music sound synthesis, we focused on autoencoder models and realized an extensive comparative study of several kinds of autoencoders on two different datasets. These experiments, together with a qualitative analysis made with a non real-time prototype developed during the thesis, allowed us to validate the use of such models, and in particular the use of the variational autoencoder (VAE), as relevant tools for extracting a high-level latent space in which we can navigate smoothly and create new sounds. However, so far, no link between this latent space and the perceptual dimensions evidenced by the perceptual tests emerged naturally. As a final step, we thus tried to enforce perceptual supervision of the VAE by adding a regularization during the training phase. Using the subset of synthetic sounds used in the second perceptual test and the corresponding perceptual grades along the eight perceptual dimensions provided by the semantic scale analysis, it was possible to constraint, to a certain extent, some dimensions of the VAE high-level latent space so as to match these perceptual dimensions. A final comparative test was then conducted in order to evaluate the efficiency of this additional regularization for conditioning the model and (partially) leading to a per- ceptual control of music sound synthesis. Keywords: Synthesizer sounds, synthetic timbre perceptual characterization, timbre verbal descriptors, (variational) autoencoders, perceptually controlled audio synthesis. i Résumé Un des enjeux majeurs du marché des synthétiseurs et de la recherche en synthèse sonore aujourd’hui est de proposer une nouvelle forme de synthèse permettant de générer des sons inédits tout en offrant aux utilisateurs de nouveaux contrôles plus intuitifs afin de les aider dans leur recherche de sons. En effet, les synthétiseurs sont actuellement des outils très puissants qui offrent aux musiciens une large palette de possibilités pour la création de textures sonores, mais également souvent très complexes avec des paramètres de contrôle dont la manipulation nécessite généralement des connaissances expertes. Cette thèse s’intéresse ainsi au développement et à l’évaluation de nouvelles méthodes d’apprentissage machine pour la synthèse sonore permettant la génération de nouveaux sons de qualité tout en fournissant des paramètres de contrôle pertinents perceptivement. Le premier challenge que nous avons relevé a donc été de caractériser perceptivement le timbre musical synthétique en mettant en évidence un jeu de descripteurs verbaux util- isés fréquemment et de manière consensuelle par les musiciens. Deux études perceptives ont été menées : un test de verbalisation libre qui nous a permis de sélectionner huit termes communément utilisés pour décrire des sons de synthétiseurs, et une analyse à échelles sé- mantiques permettant d’évaluer quantitativement l’utilisation de ces termes pour caractériser un sous-ensemble de sons, ainsi que d’analyser leur "degré de consensualité". Dans un second temps, nous avons exploré l’utilisation d’algorithmes d’apprentissage ma- chine pour l’extraction d’un espace de représentation haut-niveau avec des propriétés intéres- santes d’interpolation et d’extrapolation à partir d’une base de données de sons, le but étant de mettre en relation cet espace avec les dimensions perceptives mises en évidence plus tôt. S’inspirant de précédentes études sur la synthèse sonore par apprentissage profond, nous nous sommes concentrés sur des modèles du type autoencodeur et avons réalisé une étude compar- ative approfondie de plusieurs types d’autoencodeurs sur deux jeux de données différents. Ces expériences, couplées avec une étude qualitative via un prototype non temps-réel développé durant la thèse, nous ont permis de valider les autoencodeurs, et en particulier l’autoencodeur variationnel (VAE), comme des outils bien adaptés à l’extraction d’un espace latent de haut- niveau dans lequel il est possible de se déplacer de manière continue et fluide en créant de tous nouveaux sons. Cependant, à ce niveau, aucun lien entre cet espace latent et les dimensions perceptives mises en évidence précédemment n’a pu être établi spontanément. Pour finir, nous avons donc apporté de la supervision au VAE en ajoutant une régularisa- tion perceptive durant la phase d’apprentissage. En utilisant les échantillons sonores résultant du test perceptif avec échelles sémantiques labellisés suivant les huit dimensions perceptives, il a été possible de contraindre, dans une certaine mesure, certaines dimensions de l’espace latent extrait par le VAE afin qu’elles coïncident avec ces dimensions. Un test comparatif a été finalement réalisé afin d’évaluer l’efficacité de cette régularisation supplémentaire pour con- ditionner le modèle et permettre un contrôle perceptif (au moins partiel) de la synthèse sonore. Mots clés : Sons de synthétiseurs, caractérisation perceptive du timbre synthétique, de- scripteurs verbaux de timbre, autoencodeurs (variationnels), contrôle perceptif de la synthèse sonore. iii Aknowledgments Il y a de ça maintenant un peu plus de six ans dans le froid et la nuit de cette contrée chère à mon coeur, une petite idée folle a germé dans mon esprit : pourquoi pas une thèse ? Et me voilà aujourd’hui arrivée au bout de ce périple