Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis DISSERTATION zur Erlangung des akademischen Grades Doktor der technischen Wissenschaften eingereicht von Alexander Schindler Matrikelnummer 9926045 an der Fakultät für Informatik der Technischen Universität Wien Betreuung: Ao.univ.Prof. Dr. Andreas Rauber Diese Dissertation haben begutachtet: (Univ. Prof. Mag. Dipl.-Ing. Dr. (Univ. Prof. Dr. Allan Hanbury) Markus Schedl) Wien, 01.10.2019 (Alexander Schindler) Technische Universität Wien A-1040 Wien Karlsplatz 13 Tel. +43-1-58801-0 www.tuwien.ac.at Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis DISSERTATION submitted in partial fulfillment of the requirements for the degree of Doktor der technischen Wissenschaften by Alexander Schindler Registration Number 9926045 to the Faculty of Informatics at the Vienna University of Technology Advisor: Ao.univ.Prof. Dr. Andreas Rauber The dissertation has been reviewed by: (Univ. Prof. Mag. Dipl.-Ing. Dr. (Univ. Prof. Dr. Allan Hanbury) Markus Schedl) Wien, 01.10.2019 (Alexander Schindler) Technische Universität Wien A-1040 Wien Karlsplatz 13 Tel. +43-1-58801-0 www.tuwien.ac.at Erklärung zur Verfassung der Arbeit Alexander Schindler Beckmanngasse 4/12, 1140 Wien Hiermit erkläre ich, dass ich diese Arbeit selbständig verfasst habe, dass ich die verwende- ten Quellen und Hilfsmittel vollständig angegeben habe und dass ich die Stellen der Arbeit - einschließlich Tabellen, Karten und Abbildungen -, die anderen Werken oder dem Internet im Wortlaut oder dem Sinn nach entnommen sind, auf jeden Fall unter Angabe der Quelle als Ent- lehnung kenntlich gemacht habe. (Ort, Datum) (Unterschrift Verfasser) i Danksagung Mit Musik verbindet mich seit der Kindheit eine große Leidenschaft und auch wenn sich meine musikalische Karriere anders als erwartet entwickelte, hat sich mein Vorsatz “einmal mit Musik meinen Lebensunterhalt bestreiten zu können” bewahrheitet. In diesem Sinne möchte ich diese Danksagung mit meinem Gymnasial-Musiklehrer Rudolf Marik und meinem Schlagzeuglehrer Johannes “Jean Luc” Johanni beginnen. Beide haben mich die Freude an der Komplexität von Musik gelehrt. Für die Erfahrung und Freude Musik zu komponieren und vor Publikum aufzuführen danke ich Michael Klewan, Bernhard Fürlinger und Tibor Boco - meinen langjähri- gen Freunden und ehemaligen Mitglieder unserer Grunge Band mit dem Namen Dead End - in Retrospekt eine selbsterfüllende Prophezeiung. Ich danke auch meinem guten Freund Richard Prokesch. Er war während des Informatik Studiums an der TU-Wien ein treuer Weggefährte bei unzähligen Übgungen und Prüfungen, in mehreren Firmen ein guter Kollege, Begleiter auf Parties, Zeuge bei meiner Trauung, und vieles mehr. Für all das Danke ich dir! Ich danke auch meinen langen Wegbegleiter in der Music Information Retrieval Forschung und nun im Bereich Artificial Intelligence - Thomas Lidy. Wir haben uns auf so vielen Kon- ferenzen und Events ein Hotelzimmer geteilt, dass man de-facto sagen könnte, wir haben eine Zeit lang zusammen gewohnt. Ich danke ihm nicht nur dafür, dass er ein guter Freund geworden ist, sondern auch für die genialen fachlichen Diskussionen, die Teamarbeit bei unseren Beiträ- gen zu Evaluierungskampanien und Papers, sowie das Engagement beim Vienna Deep Learning Meetup, welches vor allem durch seine charismatische Persönlichkeit zu so einem großen Erfolg wurde und seit Jahren die Entwicklung im Bereich Artificial Intelligence in Österreich mitgestal- tet. Gleichfalls möchte ich mich bei den weiteren Organisatoren des Meetups, Jan Schlüter und Rene Donner, bedanken. Eure bleeding-edge Beiträge sind die Seele des Meetups und haben fachlich auch diese Dissertation beeinflusst. Vielen Dank auch an Ross King für die Möglichkeit in seine Forschungsgruppe Digital Insights Lab am Austrian Institute of Technology (AIT) wechseln zu können und an Musik und Audio-Projekten mitzuarbeiten. Dies hat meine Forschungsleistung erheblich beschleunigt und ich konnte wichtige Meilensteine setzen. Besonderen Dank möchte ich Andreas Rauber aussprechen - seinerseits assoziierter Profes- sor an der TU-Wien, renommierter MIR Forscher und Doktorvater dieser Dissertation. Er hat durch lange hingebungsvolle Diskussionen aus einem Software Ingenieur einen Wissenschaftler geformt und mich den Wert der Erkenntnis gelehrt. Ansätze müssen weder schneller noch genauer als andere sein. Das Verständnis über intrinsischen Eigenschaften und Einflüsse des Ansatzes - warum sind sie schnell oder genau - ist relevant. Eine Frage, mit der ich oft kon- frontiert wurde war “Wenn es so einfach ist, wieso hat es dann noch niemand anders gemacht?”. iii Diese Frage wurde für mich zu einem beinahe allgemeingültigen Leitsatz und Ansporn genau zu recherchieren, nicht der nächst-besten Lösung zu erliegen und nicht das Rad neu zu erfinden. Noch heute reflektiere ich damit jede gefundenen Lösung um zu relativieren und die richtigen Rückschlüsse zu ziehen. Ich möchte mich hiermit bei Andreas für das geduldige Mentoring, für die großzügige Unterstützung, die raschen und umfangreichen Kommentare und Vorschläge zu Forschungs-Artikel und die Unterstützung in meiner wissenschaftlichen Laufbahn bedanken. Vor allem danke ich aber meinen Eltern. Sie haben mich stets ermutigt meinen Inter- essen nachzugehen, auch wenn dass für sie schon mal bedeutete mehrere Stunden Lärm vom Schlagzeug-Üben hinzunehmen. Sie haben mir den Weg, in die Forschung zu gehen ermöglicht und alle meine Entscheidungen im Studium, Karriere und privat unterstützt. Dieser Rückhalt bedeutet mir sehr viel und ich bin euch dafür immer dankbar! Zu guter Letzt danke ich meiner Frau Claudia Kubista, die mit mir den ganzen Weg vom Studium bis zum Doktorrat geteilt hat. Ich danke ihr für ihr Verständnis, dass ich im Frühling wegen Paper-deadlines zu viel gearbeitet habe und im Herbst dann unterwegs auf Konferenzen war. Auch wenn ihr diese Arbeitsweise durch ihr eigenes Doktorrat bekannt war, ist es nicht selbstverständlich hier Verständnis und Unterstützung entgegen zu bringen. Es war auch schön, sie bei ihrer Forschung mit Fledermäusen zu begleiten und zu unterstützen. Sie zeigt mir jeden Tag auf’s neue, dass die reale Welt viel faszinierender ist, als meine virtuelle. Ich danke ihr für die Aufmunterung bei Misserfolgen und das Teilen der Freude an Erfolgen. Abstract The context of this thesis is embedded in the interdisciplinary research field of Music Infor- mation Retrieval (MIR) and in particular in the subsection which extracts information from the audio signal by means of digital signal analysis. Because music is in itself multi-modal, many approaches harness multiple input modalities such as audio, lyrics or music notes to solve MIR research tasks. This thesis focuses on the information provided by the visual layer of music videos and how it can be harnessed to augment and improve tasks of the MIR research domain. The main hypothesis of this work is based on the observation that certain expressive categories such as genre or theme can be recognized on the basis of the visual content alone, without the sound being heard. This leads to the hypothesis that there exists a visual language that is used to express mood or genre. In a further consequence it can be concluded that this visual information is music related and thus should be beneficial for the corresponding MIR tasks such as music genre classification or mood recognition. The validation of these hypotheses is approached analytically and experimentally. The an- alytical approach conducts literature search in the Musicology and Music Psychology research domain to identify studies on or documentations of production processes of music videos or visual branding in the music business. The history of the utilization of visual attribution is investigated beginning with illustrations on sheet music, album cover arts to music video pro- duction. This elaborates the importance of visual design and how the music industry harnesses it to promote new acts, increase direct sales or market values. In the pre-streaming era to attract more customers, album covers had to be as appealing and recognizable as possible to stand out in record shelves. Especially new artists whose style was yet unknown were visually branded and outfitted by music labels to be immediately identifiable in terms of style and music genre in magazines or on TV. The experimental approach conducts a series of comprehensive experiments and evaluations which are focused on the extraction of visual information and its application in different MIR tasks. Due to the absence of appropriate datasets, a custom set is created, suitable to develop and test visual features which are able to represent music related information. This dataset fa- cilitates the experiments presented in this thesis. The experiments include evaluations of visual features concerning their ability to describe music related information. This evaluation is per- formed bottom-up from low-level visual features to high-level concepts retrieved by means of Deep Convolutional Neural Networks. Additionally, new visual features are introduced cap- turing rhythmic visual patterns. In all of these experiments the audio-based results serve as benchmark for the visual and audio-visual approaches. For all experiments at least one audio- visual approach showed results improving over this benchmark. The experiments are conducted v for three prominent MIR tasks
Details
-
File Typepdf
-
Upload Time-
-
Content LanguagesEnglish
-
Upload UserAnonymous/Not logged-in
-
File Pages192 Page
-
File Size-