Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis
Total Page:16
File Type:pdf, Size:1020Kb
Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis DISSERTATION zur Erlangung des akademischen Grades Doktor der technischen Wissenschaften eingereicht von Alexander Schindler Matrikelnummer 9926045 an der Fakultät für Informatik der Technischen Universität Wien Betreuung: Ao.univ.Prof. Dr. Andreas Rauber Diese Dissertation haben begutachtet: arXiv:2002.00251v1 [cs.MM] 1 Feb 2020 (Univ. Prof. Mag. Dipl.-Ing. Dr. (Univ. Prof. Dr. Allan Hanbury) Markus Schedl) Wien, 01.10.2019 (Alexander Schindler) Technische Universität Wien A-1040 Wien Karlsplatz 13 Tel. +43-1-58801-0 www.tuwien.ac.at Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis DISSERTATION submitted in partial fulfillment of the requirements for the degree of Doktor der technischen Wissenschaften by Alexander Schindler Registration Number 9926045 to the Faculty of Informatics at the Vienna University of Technology Advisor: Ao.univ.Prof. Dr. Andreas Rauber The dissertation has been reviewed by: (Univ. Prof. Mag. Dipl.-Ing. Dr. (Univ. Prof. Dr. Allan Hanbury) Markus Schedl) Wien, 01.10.2019 (Alexander Schindler) Technische Universität Wien A-1040 Wien Karlsplatz 13 Tel. +43-1-58801-0 www.tuwien.ac.at Erklaerung zur Verfassung der Arbeit Alexander Schindler Beckmanngasse 4/12, 1140 Wien Hiermit erklaere ich, dass ich diese Arbeit selbstqendig verfasst habe, dass ich die verwen- deten Quellen und Hilfsmittel vollstaendig angegeben habe und dass ich die Stellen der Arbeit - einschliesslich Tabellen, Karten und Abbildungen -, die anderen Werken oder dem Internet im Wortlaut oder dem Sinn nach entnommen sind, auf jeden Fall unter Angabe der Quelle als Entlehnung kenntlich gemacht habe. (Ort, Datum) (Unterschrift Verfasser) i Abstract The context of this thesis is embedded in the interdisciplinary research field of Music Infor- mation Retrieval (MIR) and in particular in the subsection which extracts information from the audio signal by means of digital signal analysis. Because music is in itself multi-modal, many approaches harness multiple input modalities such as audio, lyrics or music notes to solve MIR research tasks. This thesis focuses on the information provided by the visual layer of music videos and how it can be harnessed to augment and improve tasks of the MIR research domain. The main hypothesis of this work is based on the observation that certain expressive categories such as genre or theme can be recognized on the basis of the visual content alone, without the sound being heard. This leads to the hypothesis that there exists a visual language that is used to express mood or genre. In a further consequence it can be concluded that this visual information is music related and thus should be beneficial for the corresponding MIR tasks such as music genre classification or mood recognition. The validation of these hypotheses is approached analytically and experimentally. The an- alytical approach conducts literature search in the Musicology and Music Psychology research domain to identify studies on or documentations of production processes of music videos or visual branding in the music business. The history of the utilization of visual attribution is investigated beginning with illustrations on sheet music, album cover arts to music video pro- duction. This elaborates the importance of visual design and how the music industry harnesses it to promote new acts, increase direct sales or market values. In the pre-streaming era to attract more customers, album covers had to be as appealing and recognizable as possible to stand out in record shelves. Especially new artists whose style was yet unknown were visually branded and outfitted by music labels to be immediately identifiable in terms of style and music genre in magazines or on TV. The experimental approach conducts a series of comprehensive experiments and evaluations which are focused on the extraction of visual information and its application in different MIR tasks. Due to the absence of appropriate datasets, a custom set is created, suitable to develop and test visual features which are able to represent music related information. This dataset fa- cilitates the experiments presented in this thesis. The experiments include evaluations of visual features concerning their ability to describe music related information. This evaluation is per- formed bottom-up from low-level visual features to high-level concepts retrieved by means of Deep Convolutional Neural Networks. Additionally, new visual features are introduced cap- turing rhythmic visual patterns. In all of these experiments the audio-based results serve as benchmark for the visual and audio-visual approaches. For all experiments at least one audio- visual approach showed results improving over this benchmark. The experiments are conducted iii for three prominent MIR tasks Artist Identification, Music Genre Classification and Cross-Genre Classification. Subsequently, the results of the two approaches are compared with each other to establish relationships between the described production processes and the quantitative analysis. Thus, known and documented visual stereotypes such as the cowboy hat for American country mu- sic can be confirmed. Finally, it is shown that an audio-visual approach harnessing high-level semantic information gained from visual concept detection, leads to an improvement of up to 16.43% over the audio-only baseline. Kurzfassung Der Kontext dieser Arbeit liegt im interdisziplinaeren Forschungsgebiet Music Information Re- trieval (MIR) und insbesondere im Teilbereich, welcher Informationen aus dem Audiosignal mittels digitaler Signalanalyse extrahiert. Da Musik in sich multi-modal ist, nutzen viele Ansaet- ze mehrere Eingabemodalitaeten wie Audio, Liedtexte oder Musiknoten, um MIR-Forschungs- aufgaben zu loesen. Diese Dissertation untersucht den Informationsgehalt des visuellen Kanals von Musikvideos und wie dieser genutzt werden kann, um Aufgaben des Forschungsbereichs MIR zu erweitern und zu verbessern. Die grundsaetzliche Hypothese dieser Arbeit basiert auf der Beobachtung, dass bestimmte Ausdruckskategorien wie Stimmung oder Genre allein auf- grund des visuellen Inhalts erkannt werden koennen, ohne dass die dazugehoerige Tonspur ge- hoert wird. Davon leitet sich die Annahme der Existenz einer visuellen Sprache ab, die ver- wendet wird, um Emotionen oder Genre auszudruecken. In weiterer Konsequenz kann gefolgert werden, dass diese visuelle Information musikbezogen ist und daher fuer die entsprechenden MIR-Aufgaben wie die Klassifikation von Musik nach Genre oder Genre-uebergreifenden The- men wie Weihnachten oder Anti-Kriegs-Lied von Vorteil sein sollte. Die Validierung dieser Hypothesen gliedert sich in einen analytischen und einen experi- mentellen Teil. Der analytische Ansatz basiert auf einer Literaturrecherche in den Forschungs- bereichen Musikwissenschaft und Musikpsychologie, um Studien oder Dokumentationen von Produktionsprozessen von Musikvideos oder Visual Branding im Musikgeschaeft zu identifizie- ren. Dabei wird die Geschichte der Nutzung visueller Attributierung untersucht, beginnend mit Illustrationen von Noten bis zur Musikvideo-Produktion. Dies verdeutlicht die Bedeutung des visuellen Designs und dessen gezielte Nutzung durch die Musikindustrie, um neue Kuenstler zu foerdern und Direktverkaeufe oder Marktwerte zu erhoehen. Vor allem in der Zeit vor Online- Streaming-Diensten mussten Albumcover so ansprechend und erkennbar wie moeglich sein, um in den Regalen der Plattenlaeden aufzufallen. Besonders neue Kuenstler, deren Stil noch nicht bekannt war, wurden von Musiklabels optisch gebrandet und ausgestattet, um in Zeitschriften oder im Fernsehen sofort durch ihren Look bezueglich Stil und Musikrichtung eingeordnet wer- den zu koennen. Der experimentelle Ansatz fuehrt eine Reihe umfassender Experimente und Evaluierungen durch, die sich auf die Extraktion von visueller Information und deren Anwendung in verschie- denen MIR-Aufgaben konzentrieren. Aufgrund des Fehlens geeigneter Datensets wird zuerst ein Set erstellt, welches geeignet ist, visuelle Merkmalebeschreibungen zu entwickeln und diese daraufhin zu testen, ob sie in der Lage sind, musikbezogene Informationen darzustellen. Dieses Datenset dient als Basis fuer die Experimente. Diese beinhalten Auswertungen visueller Eigen- schaften hinsichtlich ihrer Faehigkeit, musikbezogene Informationen zu erfassen. Diese Evalu- v ierungen erstrecken sich von einfachen visuellen Features zu komplexen Konzepten, welche un- ter Verwendung von Deep Convolutional Neural Networks extrahiert werden. Darueber hinaus werden neue Features eingefuehrt, die rhythmische visuelle Muster erfassen. In all diesen Expe- rimenten dienen die audio-basierten Ergebnisse als Benchmark fuer die visuellen und audiovisu- ellen Ansaetze. In allen Experimenten zeigen die Ergebnisse der audio-visuellen Ansaetze Ver- besserungen gegenueber dieser Benchmark. Die Experimente werden fuer die MIR-Aufgaben Kuenstler-Identifikation, Musik Genren Klassifikation und Genre-uebergreifende Klassifikation durchgefuehrt. Anschliessend werden die Ergebnisse der beiden Ansaetze miteinander verglichen, um Zu- sammenhaenge zwischen den beschriebenen Produktionsprozessen und der quantitativen Ana- lyse herzustellen. So koennen bekannte und dokumentierte visuelle Stereotypen wie der Cow- boyhut fuer amerikanische Country-Musik bestaetigt werden. Schliesslich wird gezeigt, dass ein audio-visueller