Application of Automatic Speech Recognition Technologies to Singing
Total Page:16
File Type:pdf, Size:1020Kb
Technische Universit¨at Ilmenau Fakult¨at fur¨ Elektrotechnik und Informationstechnik Application of Automatic Speech Recognition Technologies to Singing Doctoral Thesis Submitted by: Anna Marie Kruspe Date & place of birth: July 6, 1987, Halle/Saale Submission date: May 8, 2018 Defense date: July 9, 2018 Course of study: Media Technology Matriculation Number: 39909 Advisor: Prof. Dr.-Ing. Dr. rer. nat. h.c. mult. Karlheinz Brandenburg Reviewers: Prof. Masataka Goto Dr.-Ing. Sebastian Stober urn:nbn:de:gbv:ilm1-2018000226 Abstract The research field of Music Information Retrieval is concerned with the automatic analysis of musical characteristics. One aspect that has not received much attention so far is the automatic analysis of sung lyrics. On the other hand, the field of Automatic Speech Recognition has produced many methods for the automatic analysis of speech, but those have rarely been employed for singing. This thesis analyzes the feasibility of applying various speech recognition methods to singing, and suggests adaptations. In addition, the routes to practical applications for these systems are described. Five tasks are considered: Phoneme recognition, language identification, keyword spotting, lyrics-to-audio alignment, and retrieval of lyrics from sung queries. The main bottleneck in almost all of these tasks lies in the recognition of phonemes from sung audio. Conventional models trained on speech do not perform well when applied to singing. Training models on singing is difficult due to a lack of annotated data. This thesis offers two approaches for generating such data sets. For the first one, speech recordings are made more \song-like". In the second approach, textual lyrics are automatically aligned to an existing singing data set. In both cases, these new data sets are then used for training new acoustic models, offering considerable improvements over models trained on speech. Building on these improved acoustic models, speech recognition algorithms for the individual tasks were adapted to singing by either improving their robustness to the differing characteristics of singing, or by exploiting the specific features of singing per- formances. Examples of improving robustness include the use of keyword-filler HMMs for keyword spotting, an i-vector approach for language identification, and a method for alignment and lyrics retrieval that allows highly varying durations. Features of singing are utilized in various ways: In an approach for language identification that is well-suited for long recordings; in a method for keyword spotting based on phoneme durations in singing; and in an algorithm for alignment and retrieval that exploits known phoneme confusions in singing. Zusammenfassung Das Gebiet des Music Information Retrieval befasst sich mit der automatischen Analy- se von musikalischen Charakteristika. Ein Aspekt, der bisher kaum erforscht wurde, ist dabei der gesungene Text. Auf der anderen Seite werden in der automatischen Spracher- kennung viele Methoden fur¨ die automatische Analyse von Sprache entwickelt, jedoch selten fur¨ Gesang. Die vorliegende Arbeit untersucht die Anwendung von Methoden aus der Spracherkennung auf Gesang und beschreibt m¨ogliche Anpassungen. Zudem werden Wege zur praktischen Anwendung dieser Ans¨atze aufgezeigt. Funf¨ Themen werden dabei betrachtet: Phonemerkennung, Sprachenidentifikation, Schlagwortsuche, Text-zu-Gesangs-Alignment und Suche von Texten anhand von gesungenen Anfragen. Das gr¨oßte Hindernis bei fast allen dieser Themen ist die Erkennung von Phonemen aus Gesangsaufnahmen. Herk¨ommliche, auf Sprache trainierte Modelle, bieten keine guten Ergebnisse fur¨ Gesang. Das Trainieren von Modellen auf Gesang ist schwierig, da kaum annotierte Daten verfugbar¨ sind. Diese Arbeit zeigt zwei Ans¨atze auf, um solche Da- ten zu generieren. Fur¨ den ersten wurden Sprachaufnahmen kunstlich¨ gesangs¨ahnlicher gemacht. Fur¨ den zweiten wurden Texte automatisch zu einem vorhandenen Gesangs- datensatz zugeordnet. Die neuen Datens¨atze wurden zum Trainieren neuer Modelle genutzt, welche deutliche Verbesserungen gegenuber¨ sprachbasierten Modellen bieten. Auf diesen verbesserten akustischen Modellen aufbauend wurden Algorithmen aus der Spracherkennung fur¨ die verschiedenen Aufgaben angepasst, entweder durch das Ver- bessern der Robustheit gegenuber¨ Gesangscharakteristika oder durch das Ausnutzen von hilfreichen Besonderheiten von Gesang. Beispiele fur¨ die verbesserte Robustheit sind der Einsatz von Keyword-Filler-HMMs fur¨ die Schlagwortsuche, ein i-Vector- Ansatz fur¨ die Sprachenidentifikation sowie eine Methode fur¨ das Alignment und die Textsuche, die stark schwankende Phonemdauern nicht bestraft. Die Besonderheiten von Gesang werden auf verschiedene Weisen genutzt: So z.B. in einem Ansatz fur¨ die Sprachenidentifikation, der lange Aufnahmen ben¨otigt; in einer Methode fur¨ die Schlagwortsuche, die bekannte Phonemdauern in Gesang mit einbezieht; und in einem Algorithmus fur¨ das Alignment und die Textsuche, der bekannte Phonemkonfusionen verwertet. iii Acknowledgements - Danksagung This thesis would not have been possible without the help of many people. First of all, I would like to thank Prof. Karlheinz Brandenburg for being my advisor, and for enabling various cooperations throughout the years. Through these cooperations, I got to meet Prof. Masataka Goto and Dr. Sebastian Stober, whom I would like to thank for serving as my reviewers. I am grateful for my time spent at Fraunhofer IDMT, where I learned a lot about research and enjoyed a very warm and friendly working atmosphere. In particular, I would like to thank my colleagues Ania, Estefan´ıa, Jakob, Patrick, Sascha, Christof, Christian, Stelios, and Daniel for their help and inspiration. In addition, I want to thank to my colleagues at AIST and at the Johns Hopkins University for their new perspectives. Ich m¨ochte mich bei meiner Familie bedanken, insbesondere bei meinen Eltern, ohne die ich nie so weit gekommen w¨are, und bei meinem Opa, der mich immer angefeuert hat. Außerdem bei meinen Freunden fur¨ viele Abende bei Bier, Spielen und interessan- ten Gespr¨achen. Und naturlich¨ bei Johannes, dem ich noch den gr¨oßten Eisbecher der Welt schulde. If you cannot teach me to fly, teach me to sing. (J. M. Barrie, \Peter Pan") Table of Contents iv Table of Contents 1 Introduction 1 1.1 Motivation ...................................1 1.2 Research objectives ...............................3 1.3 Thesis structure .................................5 1.4 Publications ...................................5 2 Technical Background 8 2.1 General processing chain .............................8 2.2 Audio features .................................9 2.2.1 Mel-Frequency Cepstral Coefficients (MFCCs) ............... 10 2.2.2 Shifted Delta Cepstrum (SDCs) ...................... 12 2.2.3 Perceptual Linear Predictive features (PLPs) ................ 12 2.2.4 TempoRal Patterns (TRAP) ....................... 16 2.3 Distance calculation ............................... 17 2.3.1 Dynamic Time Warping .......................... 17 2.3.2 Levenshtein distance ........................... 21 2.4 Machine learning algorithms ........................... 22 2.4.1 Gaussian Mixture Models ......................... 23 2.4.2 Hidden Markov Models .......................... 25 2.4.3 Support Vector Machines ......................... 28 2.4.4 i-Vector processing ............................ 30 2.4.5 Artificial Neural Networks ........................ 32 3 State of the Art 38 3.1 From speech to singing .............................. 38 3.2 Phoneme recognition .............................. 39 3.3 Language identification ............................. 43 3.4 Keyword spotting ................................ 45 3.5 Lyrics-to-audio alignment ............................ 47 3.6 Lyrics retrieval ................................. 51 4 Data Sets 53 4.1 Speech data sets ................................. 53 4.1.1 TIMIT ................................. 53 4.1.2 NIST Language identification corpus (NIST2003LRE) ........... 53 4.1.3 OGI Multi-Language Telephone Speech Corpus (OGIMultilang) ....... 54 Table of Contents v 4.2 Unaccompanied singing data sets ......................... 55 4.2.1 YouTube data set (YTAcap) ........................ 55 4.2.2 Hansen's vocal track data set (ACAP) ................... 56 4.2.3 DAMP data set ............................. 57 4.2.4 Retrieval data set by the author (AuthorRetrieval) ............. 59 4.3 Accompanied singing data sets .......................... 60 4.3.1 QMUL Expletive data set ......................... 60 4.3.2 Mauch's data set ............................. 60 4.3.3 Hansen's vocal track data set (polyphonic) (ACAP Poly) .......... 60 4.4 Keywords .................................... 60 5 Singing Phoneme Recognition 62 5.1 Phoneme recognition using models trained on speech ............... 65 5.2 Phoneme recognition using models trained on \songified" speech .......... 66 5.3 Phoneme recognition using models trained on a-capella singing ........... 70 5.3.1 Corpus construction ........................... 70 5.3.2 Alignment validation ........................... 72 5.3.3 Phoneme recognition ........................... 73 5.3.4 Error sources ............................... 76 5.4 Conclusion ................................... 77 6 Sung Language Identification 80 6.1 Sung language identification using i-vectors .................... 82 6.1.1 Proposed system ............................. 83 6.1.2 Experiments with known speakers ..................... 83 6.1.3 Experiments