Audio Content Processing for Automatic Music Genre Classification
Total Page:16
File Type:pdf, Size:1020Kb
Audio content processing for automatic music genre classification: descriptors, databases, and classifiers. Enric Guaus i Termens A dissertation submitted to the Department of Information and Communication Technologies at the Universitat Pompeu Fabra for the program in Computer Science and Digital Communications in partial fulfilment of the requirements for the degree of — Doctor per la Universitat Pompeu Fabra Doctoral dissertation direction: Doctor Xavier Serra Department of Information and Communication Technologies Universitat Pompeu Fabra, Barcelona Barcelona, 2009 This research was performed at the Music Technology Group of the Univer- sitat Pompeu Fabra in Barcelona, Spain. This research was partially funded by the HARMOS eContent project EDC-11189 and by the SIMAC project IST-FP6-507142. A mon pare... Acknowledgements I would like to thank all the people of the Music Technology Group and specially Xavier Serra, Perfecto Herrera, Emilia Gómez, Jordi Bonada, Cyril Laurier, Joan Serrà, Alfonso Pérez, Esteban Maestre, Merlijn Blaauw. I would also thank the former members Sebastian Streich, Bee Suan Ong, Jaume Masip, Vadim Tarasov, José Pedro and Eloi Batlle. It is also important to recognize the unconditional support from the people at the ESMUC, specially Enric Giné, Ferran Conangla, Josep Maria Comajun- cosas, Emilia Gómez (again), Perfecto Herrera (again) and Roser Galí. I would like to mention here the people who introduced me in the research at the Universitat Ramon Llull: Josep Martí and Robert Barti. In addition, i would like to thank all my friends and specially those who I meet every thursday, those who I meet with thousand of childs running under our legs and also that who makes brings me part of the responsability of Aitana. And Paola, who supported my in everything, everytime and everywhere. Finally, I would like to thank all my family who guided me in the difficult moments, and specially thanks to that who can’t call me Doctor Guaus. v Abstract This dissertation presents, discusses, and sheds some light on the problems that appear when computers try to automatically classify musical genres from au- dio signals. In particular, a method is proposed for the automatic music genre classification by using a computational approach that is inspired in music cog- nition and musicology in addition to Music Information Retrieval techniques. In this context, we design a set of experiments by combining the different el- ements that may affect the accuracy in the classification (audio descriptors, machine learning algorithms, etc.). We evaluate, compare and analyze the obtained results in order to explain the existing glass-ceiling in genre classifi- cation, and propose new strategies to overcome it. Moreover, starting from the polyphonic audio content processing we include musical and cultural aspects of musical genre that have usually been neglected in the current state of the art approaches. This work studies different families of audio descriptors related to timbre, rhythm, tonality and other facets of music, which have not been frequently addressed in the literature. Some of these descriptors are proposed by the au- thor and others come from previous existing studies. We also compare machine learning techniques commonly used for classification and analyze how they can deal with the genre classification problem. We also present a discussion on their ability to represent the different classification models proposed in cog- nitive science. Moreover, the classification results using the machine learning techniques are contrasted with the results of some listening experiments pro- posed. This comparison drive us to think of a specific architecture of classifiers that will be justified and described in detail. It is also one of the objectives of this dissertation to compare results under different data configurations, that is, using different datasets, mixing them and reproducing some real scenarios in which genre classifiers could be used (huge datasets). As a conclusion, we discuss how the classification architecture here proposed can break the existing glass-ceiling effect in automatic genre classification. To sum up, this dissertation contributes to the field of automatic genre classification: a) It provides a multidisciplinary review of musical genres and its classification; b) It provides a qualitative and quantitative evaluation of families of audio descriptors used for automatic classification; c) It evaluates different machine learning techniques and their pros and cons in the context of genre classification; d) It proposes a new architecture of classifiers after analyzing music genre classification from different disciplines; e) It analyzes the behavior of this proposed architecture in different environments consisting of huge or mixed datasets. vii viii Resum Aquesta tesi versa sobre la classificació automàtica de gèneres musicals, basa- da en l’anàlisi del contingut del senyal d’àudio, plantejant-ne els problemes i proposant solucions. Es proposa un estudi de la classificació de gèneres musicals des del punt de vista computacional però inspirat en teories dels camps de la musicologia i de la percepció. D’aquesta manera, els experiments presentats combinen diferents elements que influeixen en l’encert o fracàs de la classificació, com ara els descriptors d’àudio, les tècniques d’aprenentatge, etc. L’objectiu és avaluar i comparar els resultats obtinguts d’aquests experiments per tal d’explicar els límits d’encert dels algorismes actuals, i proposar noves estratègies per tal de superar-los. A més a més, partint del processat de la informació d’àudio, s’inclouen aspectes musicals i culturals referents al gènere que tradicionalment no han estat tinguts en compte en els estudis existents. En aquest contexte, es proposa l’estudi de diferents famílies de descriptors d’àudio referents al timbre, ritme, tonalitat o altres aspectes de la música. Al- guns d’aquests descriptors són proposats pel propi autor mentre que d’altres ja són perfectament coneguts. D’altra banda, també es comparen les tècniques d’aprenentatge artificial que s’usen tradicionalment en aquest camp i s’ana- litza el seu comportament davant el nostre problema de classificació. També es presenta una discussió sobre la seva capacitat per representar els diferents models de classificació proposats en el camp de la percepció. Els resultats de la classificació es comparen amb un seguit de tests i enquestes realitzades sobre un conjunt d’individus. Com a resultat d’aquesta comparativa es proposa una arquitectura específica de classificadors que també està raonada i explicada en detall. Finalment, es fa un especial èmfasi en comparar resultats dels classi- ficadors automàtics en diferents escenaris que pressuposen la barreja de bases de dades, la comparació entre bases de dades grans i petites, etc. A títol de conclusió, es mostra com l’arquitectura de classificació proposada, justificada pels resultats dels diferents anàlisis, pot trencar el límit actual en tasques de classificació automàtica de gèneres musicals. De manera condensada, podem dir que aquesta tesi contribueix al camp de la classificació de gèneres musicals en els següents aspectes: a) Proporciona una revisió multidisciplinar dels gèneres musicals i la seva classificació; b) Presenta una avaluació qualitativa i quantitativa de les famílies de descriptors d’àudio davant el problema de la classificació de gèneres; c) Avalua els pros i contres de les diferents tècniques d’aprenentatge artificial davant el gènere; d) Proposa una arquitectura nova de classificador d’acord amb una visió interdisciplinar dels gèneres musicals; e) Analitza el comportament de l’arquitectura proposada davant d’entorns molt diversos en el que es podria implementar el classificador. ix Resumen Esta tesis estudia la clasificación automática de géneros musicales, basada en el análisis del contenido de la señal de audio, planteando sus problemas y proponiendo soluciones. Se propone un estudio de la clasificación de los géneros musicales desde el punto de vista computacional, pero inspirado en teorías de los campos de la musicología y la percepción, De este modo, los experimentos persentados com- binan distintos elementos que influyen en el acierto o fracaso de la clasificación, como por ejemplo los descriptores de audio, las técnicas de aprondizaje, etc. El objetivo es comparar y evaluar los resultados obtenidos de estos experimentos para explicar los límites de las tasas de acierto de los algorismos actuales, y proponer nuevas estrategias para superarlos. Además, partiendo del procesado de la información de Audio, se han incluido aspectos musicales y culturales al género que tradicionalmente no han sido tomados en cuenta en los estudios existentes. En este contexto, se propone el estudio de distintas famílias de descriptores de audio referentes al timbre, al ritmo, a la tonalidad o a otros aspectos de la música. Algunos de los descriptores son propuestos por el mismo autor, mientras que otros son perfectamente conocidos. Por otra parte, también se comparan las técnicas de aprendizaje artificial que se usan tradicionalmente, y analizamos su comportamiento en frente de nuestro problema de clasificación. Tambien planteamos una discusión sobre su capacidad para representar los diferentes modelos de clasificación propuestos en el campo de la percepción. Estos resultados de la clasificación se comparan con los resultados de unos tests y encuestas realizados sobre un conjunto de individuos. Como resultado de esta comparativa se propone una arquitectura específica de clasificadores que tambien