Audio Source Separation for Music in Low-Latency and High-Latency Scenarios

Audio Source Separation for Music in Low-latency and High-latency Scenarios Ricard Marxer Pi~nón TESI DOCTORAL UPF / 2013 Directors de la tesi Dr. Xavier Serra i Dr. Jordi Janer Department of Information and Communication Technologies This dissertation is dedicated to my family and loved ones. Acknowledgments I wish to thank the Music Technology Group (MTG) at the Universitat Pompeu Fabra (UPF) for creating such a great environment in which to work on this research. I especially want to thank my supervisors Xavier Serra and Jordi Janer for giving me this opportunity and their support during the whole process. I also want to express my deepest gratitude to the Yamaha Corporation and their Monet research team formed by Keita Arimoto, Sean Hashimoto, Kazunobu Kondo, Yu Takahashi and Yasuyuki Umeyama, without whom this work would not have been possible. I also want to thank MTG's signal processing team composed of Merlijn Blaauw, Jordi Bonada, Graham Coleman, Saso Musevic and Marti Umbert with whom we had many fruitful discussions that became the seeds of the research conducted here. Another special thanks goes to the Music Cognition Group at the ILLC / University of Amsterdam with Henkjan Honing, Leigh Smith and Olivia Ladinig who invited me to stay and do research with them for a while. There I learned a lot about how we humans perceive music and how this can be taken into account when processing these types of signals. Many thanks to all the researchers with whom I have collaborated, discus- sed and shared great moments over these years. Some of these are Eduard Aylon, Andreas Beisler, Dmitry Bogdanov, Oscar` Celma, Maarten de Boer, Juan JoséBosch, Ferdinand Fuhrmann, Jordi Funollet, Cristina Garrido, Emilia Gómez,Perfecto Herrera, Piotr Holonowicz, Enric Guaus, Mart´ın Haro, Cyril Laurier, Oscar Mayor, Owen Meyers, Waldo Nogueira, Hen- drik Purwins, Gerard Roma, Justin Salamon, Joan Serrà,Mohamed Sordo, Roberto Toscano, Nicolas Wack and JoséR. Zapata. I'm sorry if I have v vi forgotten anyone of you who have aided me so much. Many thanks to my father, Jack Marxer, for his valuable feedback, proo- freading and corrections of this document. Finally I would like to thank my family and Mathilde for being there when I most needed them. Abstract Source separation in digital signal processing consists in finding the original signals that were mixed together into a set of observed signals. Solutions to this problem have been extensively studied for musical signals, however their application to real-world practical situations remains infrequent. There are two main obstacles for their widespread adoption depending on the scenario. The main limitation in some cases is high latency and computational cost. In other cases the quality of the results is insufficient. Much work has gone toward improving the quality of music separation under general conditions. But few studies have been devoted to the development of low-latency and low computational cost separation of monaural signals, as well as to the separation quality of specific instruments. We propose specific methods to address these issues in each of these scenarios independently. First, we focus on methods with low computational cost and low latency. We propose the use of Tikhonov regularization as a method for spectrum decomposition in the low-latency context. We compare it to existing techniques in pitch estimation and tracking tasks, crucial steps in many separation methods. We then use the proposed spectrum decomposition method in low-latency separation tasks targeting singing voice, bass and drums. Second, we propose several high-latency methods that improve the separation of singing voice by modeling components that are often not accounted for, such as breathiness and consonants. Finally, we explore using temporal correlations and human annotations to enhance the separation of drums and complex polyphonic music signals. vii Resum En el camp del tractament digital de senyal, la separacióde fonts consisteix en l'obtenciódels senyals originals que trobem barrejats en un conjunt de senyals observats. Les solucions a aquest problema s'han estudiat àmpliament per a senyals musicals. Hi ha peròdues limitacions principals per a la seva aplicaciógeneralitzada. En alguns casos l'alta latènciai cost computacional del mètode ésl'obstacle principal. En un segon escenari, la qualitat dels resultats ésinsuficient. Gran part de la recerca s'ha enfocat a la millora de qualitat de separacióde la músicaen condicions generals, peròpocs es- tudis s'han centrat en el desenvolupament de tècniquesde baixa latènciai baix cost computacional de mescles monoaurals, aix´ıcom en la qualitat de separacióde instruments espec´ıfics. Aquesta tesi proposa mètodes per tractar aquests temes en cadascun dels dos casos de forma independent. En primer lloc, ens centrem en els mètodes amb un baix cost computacional i baixa latència. Proposem l'úsde la regularitzacióde Tikhonov com a mètode de descomposicióde l'espectre en el context de baixa latència. El comparem amb les tècniquesexistents en tasques d’estimaciói seguiment dels tons, que sónpassos crucials en molts mètodes de separació. A continuacióutilitzem i avaluem el mètode de descomposicióde l'espectre en tasques de separacióde veu cantada, baix i percussió. En segon lloc, proposem diversos mètodes d'alta latènciaque milloren la separacióde la veu cantada, gràciesal modelatge de components espec´ıfics,com la respiraciói les consonants. Finalment, explorem l'úsde correlacions temporals i anotacions manuals per millorar la separaciódels instruments de percussiói dels senyals musicals polifònicscomplexes. ix Resumen En el campo del tratamiento digital de la se~nal,la separaciónde fuentes consiste en la obtenciónde las se~nalesoriginales que han sido mezcladas en un conjunto de se~nalesobservadas. Las soluciones a este problema se han estudiado ampliamente para se~nalesmusicales. Hay dos limitaciones principales para su adopcióngeneralizada. En algunos casos la alta latencia y coste computacional es el mayor obstáculo.En un segundo escenario, la calidad de los resultados es insuficiente. Gran parte de la investigaciónse ha enfocado en la mejora de la calidad de separaciónde la músicaen condiciones generales, pero pocos estudios se han centrado en el desarrollo de técnicasde baja latencia y bajo coste computacional de mezclas monoaurales, as´ıcomo en la calidad de separaciónde instrumentos espec´ıficos. Esta tesis propone métodos para tratar estos temas en cada uno de los casos de forma independiente. En primer lugar, nos centramos en los métodos con un bajo coste computacional y baja latencia. Proponemos el uso de la regularizaciónde Tikhonov como método de descomposicióndel espectro en el contexto de baja latencia. Lo comparamos con las técnicasexistentes en tareas de estimacióny seguimiento de los tonos, que son pasos cruciales en muchos métodos de separación.A continuaciónutilizamos y evaluamos el método de descomposicióndel espectro en tareas de separaciónde voz cantada, bajo y percusión.En segundo lugar, proponemos varios métodos de alta latencia que mejoran la separaciónde la voz cantada, gracias al modelado de componentes que a menudo no se toman en cuenta, como la respiracióny las consonantes. Finalmente, exploramos el uso de correlacio- nes temporales y anotaciones manuales para mejorar la separaciónde los instrumentos de percusióny se~nalesmusicales polifónicascomplejas. xi Résumé Dans le domaine du traitement du signal, la séparationde source consiste àobtenir les signaux originaux qui ont étémélangésdans un ensemble de signaux observées.Les solutions àce problèmeont largement étéétudiés pour l'application àla musique. Il existe deux principales limitations. La premièreest une latence et un coûtde calcul élevés.La seconde est une qualitéinsuffisante des résultats.Une grande partie de la recherche actuelle s'est concentréeàaméliorer,dans le cas générale,la qualitéde séparationde la musique. Peu d'études ont étéconsacréesàminimiser la latence et le coût de calcul des techniques, ainsi qu’àla qualitéde séparationd'instruments spécifiques. Cette thèsepropose des méthodes pour aborder ces deux questions indépen- damment. Dans un premier temps, nous nous concentrons sur les méthodes àfaibles coût de calcul et de latence. Pour cela, nous proposons d'utiliser la régularisationde Tikhonov en tant que méthode de décomposition spectrale. Nous la comparons àdes techniques existantes dans le cadre de l'estimation et de suivi des tons, qui sont des étapes cruciales pour de nom- breux procédésde séparation.Nous avons aussi utiliséet évaluéla méthode de décomposition spectrale pour la séparation de voix chantée,de basse et de percussion. Dans un second temps, nous proposons des méthodes àla- tence élevée.La modélisationdes composants qui ne sont souvent pas pris en compte, comme la respiration et les consonnes, nous permet d'améliorer la séparationde voix chantée.Nous explorons l'utilisation de corrélations temporelles et annotations manuelles pour améliorerla séparationdes instruments de percussion et les signaux musicaux polyphoniques complexes. xiii Contents Acknowledgmentsv Abstract vii Resum ix Resumen xi Résumé xiii Contents xv List of Figures xviii List of Tables xxii List of Abbreviations and Symbols xxiii 1 Introduction3 1.1 Applications............................ 5 1.2 Motivation and Objectives.................... 9 1.3 Context of the Study....................... 10 1.4 Presentation of Contributions.................. 10 1.5 Organization ........................... 11 2 Audio Source Separation Basics 15 2.1 Problem Definition and Classification.............

Audio Source Separation for Music in Low-Latency and High-Latency Scenarios

Chapter 15 - BLIND SOURCE SEPARATION: Principal & Independent Component Analysis C G.D

Signal Processing for Magnetoencephalography

Arxiv:1909.11294V3 [Stat.ML] 11 Jun 2021

Brain Signal Analysis

Some Multivariate Signal Processing Operations

Thesis Signal Fraction Analysis and Artifact

A Review of Blind Source Separation in NMR Spectroscopy Ichrak Toumi, Stefano Caldarelli, Bruno Torrésani

Unsupervised Audio Source Separation Using Generative Priors

Blind Dimensionality Reduction with Analog Integrated Photonics

Survey of Sparse and Non-Sparse Methods in Source Separation

Anechoic Blind Source Separation Using Wigner Marginals

Comparison of Principal Component Analysis and Independedent Component Analysis for Blind Source Separation