Emotion-Based Analysis and Classification of Audio Music
Total Page:16
File Type:pdf, Size:1020Kb
Silva Panda Renato Eduardo Eduardo Renato C USI AND M UDIO NALYSIS A A OF D E Renato Eduardo Silva Panda BAS - ATION C MOTION EMOTION-BASED ANALYSIS AND LASSIFI E C CLASSIFICATION OF AUDIO MUSIC Doctoral thesis submitted to the Doctoral Program in Information Science and Technology, supervised by Prof. Dr. Rui Pedro Pinto de Carvalho e Paiva, and presented to the Department of Informatics Engineering of the Faculty of Sciences and Technology of the University of Coimbra. January 2019 K Renato.indd 1 28/05/2019 12:06:51 Faculdade de Ciências e Tecnologia EMOTION-BASED ANALYSIS AND CLASSIFICATION OF AUDIO MUSIC Renato Eduardo Silva Panda Doctoral thesis submitted to the Doctoral Program in Information Science and Technology, supervised by Prof. Dr. Rui Pedro Pinto de Carvalho e Paiva, and presented to the Department of Informatics Engineering of the Faculty of Sciences and Technology of the University of Coimbra. January 2019 AUTHOR, SUPERVISOR AND INSTITUTION INFORMATION Author: Renato Eduardo Silva Panda [email protected] Supervisor: Prof. Dr. Rui Pedro Pinto de Carvalho e Paiva [email protected] Host Institution: Centre for Informatics and Systems of the University of Coimbra Institution granting the academic degree: University of Coimbra, Faculty of Sciences and Technology Financial support by Fundação para a Ciência e a Tecnologia, SFRH/BD/91523/2012. Emotion-based Analysis and Classification of Audio Music ©2019 Renato Eduardo Silva Panda Thesis submitted to the University of Coimbra in partial fulfillment of the requirements for the degree of Doctor of Philosophy in Informatics Engineering This work was carried out under the supervision of Professor Doutor Rui Pedro Pinto de Carvalho e Paiva Professor Auxiliar do Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra ABSTRACT This research work addresses the problem of music emotion recognition using audio signals. Music emotion recognition research has been gaining ground over the last two decades. In it, the typical approach starts with a dataset, composed of music files and associated emotion ratings given by listeners. This data, typically audio signals, is first processed by computational algorithms in order to extract and summarize their charac- teristics, known as features (e.g., beats per minute, spectral metrics). Next, the feature set is fed to machine learning algorithms looking for patterns that connect them to the given emotional annotations. As a result, a computational model is created, which is able to infer the emotion of a new and unlabelled music file based on the previously found patterns. Although several studies have been published, two main issues remain open and are the current barrier to progress in field. First, a high-quality public and sizeable audio dataset is needed, which can be widely adopted as a standard and used by different works. Currently, the public available ones suffer from known issues such as low quality annotations or limited size. Also, we believe novel emotionally-relevant audio features are needed to overcome the plateau of the last years. Supporting this idea is the fact that the vast majority of previous works were focused on the computational classification component, typically using a similar set of audio features originally proposed to tackle other audio analysis problems (e.g., speech recognition). Our work focuses on these two problems. Proposing novel emotionally-relevant audio features requires knowledge from sev- eral fields. Thus, our work started with a review of music and emotion literature to understand how emotions can be described and classified, how music and music dimen- sions work and, as a final point, to merge both fields by reviewing the identified relations between musical dimensions and emotional responses. Next, we reviewed the existent audio features, relating them with one of the eight musical dimensions: melody, har- mony, rhythm, dynamics, tone color, expressive techniques, musical texture and musical form. As a result, we observed that audio features are unbalanced across musical dimen- sions, with expressive techniques, musical texture and form said to be emotionally-rele- vant but lacking audio extractors. To address the abovementioned issues, we propose several audio features. These were built on previous work to estimate the main melody notes from the low-level audio signals. Next, various musically-related metrics were extracted, e.g., glissando presence, articulation information, changes in dynamics and others. To assess their relevance to vii viii Abstract emotion recognition, a dataset containing 900 audio clips, annotated in four classes (Russell’s quadrants) was built. Our experimental results show that the proposed features are emotionally-relevant and their inclusion in emotion recognition models leads to better results. Moreover, we also measured the influence of both existing and novel features, leading to a better un- derstanding of how different musical dimensions influence specific emotion quadrants. Such results give us insights about the open issues and help us define possible research paths to the near future. Keywords: audio music emotion recognition, music information retrieval, emotionally- relevant audio features, musical texture, expressive techniques, bi-modal approaches, music and emotion; RESUMO Este trabalho aborda o tema do reconhecimento emocional em música utilizando sinais áudio polifónicos. A área do reconhecimento de emoções em música tornou-se um foco de estudo nas últimas duas décadas. Nesta área, a abordagem típica começa com um conjunto de dados e respectivas anotações emocionais geradas por ouvintes. Estes dados, sendo a forma mais comum os sinais áudio, são primeiro processados por algoritmos computacionais para extracção de informação sobre os mesmos (e.g., batidas por minuto ou métricas de energia). De seguida, o conjunto de características extraídas é analisado por algoritmos de aprendizagem computacional, identificando padrões que associam as mesmas às diferentes emoções associadas. O resultado final é um modelo que utiliza as regras aprendidas para identificar a emoção numa nova música ainda desconhecida. Embora vários investigadores tenham abordado o tema, consideramos que existem dois problemas principais que se mantêm em aberto e contribuem para a falta de pro- gresso nesta área. Primeiro, faltam conjuntos de dados de qualidade, tamanho conside- rável e livre acesso que sejam adoptados como testes-padrão deste ramo de investigação e assim facilitem a comparação de trabalhos. Para além disso, e não menos importante, são necessários novos algoritmos computacionais capazes de extrair do sinal áudio carac- terísticas musicais emocionalmente relevantes. Na base desta ideia, está o facto de a grande maioria dos trabalhos anteriores ser mais focada na componente de classificação computacional, limitando-se durante a extracção de características a utilizar algoritmos criados para outros problemas (e.g., reconhecimento de fala). Este trabalho tem como principal objectivo o de atacar estes problemas. A extracção de características emocionalmente relevantes a partir de sinais áudio requer um conhecimento sólido em diversas áreas. Assim, este trabalho começou com uma revisão da literatura nas áreas da música e da emoção. Estas serviram de base para perceber os diferentes paradigmas na classificação de emoções, as várias componentes e dimensões musicais e identificar as relações que são conhecidas entre dimensões musi- cais e respostas emocionais específicas. De seguida, foram analisados vários dos algorit- mos computacionais existentes para extracção de características de áudio, associando cada um destes com uma das oito dimensões musicais possíveis: melodia, harmonia, ritmo, dinâmica, timbre (ou tom da cor), técnicas de expressividade, textura e forma. Como resultado, verificámos que dimensões como a textura e forma musical ou técnicas de expressividade são apontadas como relevantes emocionalmente mas poucos são os algoritmos que tentam capturar alguma desta informação. De forma a mitigar esta lacuna, foram propostos vários algoritmos para extrair ca- racterísticas musicais. Estas começam por utilizar trabalho anterior, transformando o sinal áudio numa estimativa das notas que representam a melodia principal. Através ix x Resumo destas, são extraídas diversas métricas, e.g., presença de glissando, informação sobre arti- culação, variações de dinâmica, entre outras. Para avaliar a influência destas no reconhe- cimento emocional, foi criado um conjunto de dados de 900 excertos musicais anotados em quatro classes (quadrantes) e devidamente balanceados. Os resultados experimentais demonstram que a adição das características propostas melhora a classificação de forma estatisticamente significativa. Além disso, foi também medida a influência das várias características, levando a uma melhor compreensão de como as diferentes dimensões musicais influenciam estados emocionais específicos. Es- tas permitem traçar alguns caminhos para investigação futura, uma vez que o problema do reconhecimento emocional em música está longe de estar resolvido. ACKNOWLEDGEMENTS “Gratitude is not only the greatest of virtues but the parent of all others.” Marcus Tullius Cicero (January 106 BC – December 43 BC) This work would have been impossible without the aid and support of several people over the last years. Among those, three stand out due to their continuous inspiration and support during this adventure and to them I dedicate