Adaptive Multimodale Exploration Von Musiksammlungen
Total Page:16
File Type:pdf, Size:1020Kb
Adaptive multimodale Exploration von Musiksammlungen Von der Fakultät für Mathematik, Informatik und Naturwissenschaften der RWTH Aachen University zur Erlangung des akademischen Grades eines Doktors der Naturwissenschaften genehmigte Dissertation vorgelegt von Diplom-Informatiker Dominik Lübbers aus Osnabrück Berichter: Universitätsprofessor Dr. rer. pol. Matthias Jarke Universitätsprofessor Dr. rer. nat. Thomas Seidl Tag der mündlichen Prüfung: 8. Dezember 2009 Diese Dissertation ist auf den Internetseiten der Hochschulbibliothek online verfügbar. Zusammenfassung Aktuelle Musikportale und Systeme zur Verwaltung privater Musiksammlungen konzentrieren sich auf die Unterstützung einer gezielten Suche nach Stücken (z.B. anhand von beschreiben- den Metadaten wie Titel, Künstler, etc.). Empirische Untersuchungen haben jedoch gezeigt, dass das typische Kundenverhalten in klassischen Musikläden viel stärker durch ein ungerich- tetes „Stöbern“ im Angebot ohne ein klar artikulierbares Informationsbedürfnis gekennzeich- net ist. Um dieses Zugriffsmuster besser zu bedienen, beschreibt diese Dissertation die Konzepti- on, Implementierung und Evaluation einer Computerspiel-artigen Explorationsumgebung für Musiksammlungen, die dem Benutzer die Freiheit zur selbständigen Erkundung einer nach- vollziehbar strukturierten Stück-Kollektion gibt. Grundlage einer solchen Strukturierung ist ein quantifizierbarer Ähnlichkeitsbegriff für Musik- titel. Im ersten Teil der Arbeit werden daher inhaltsbasierte, Experten-basierte, kollaborative und textbasierte Ansätze zur Distanzberechnung diskutiert und bewertend gegenübergestellt. Zur Modellierung des Facettenreichtums musikalischer Ähnlichkeit wird eine Auswahl die- ser Maße, die unterschiedliche musikalische Aspekte betrachten, zu einer zusammenfassenden Distanzfunktion kombiniert. Die Generierung selbstorganisierender Merkmalskarten erlaubt die Topologie-erhaltende An- ordnung von Stücken auf einer zweidimensionalen Landkarte, wobei zueinander ähnliche Titel in räumlicher Nähe positioniert werden. Ferner ermöglicht sie die Identifikation von Cluster- grenzen, die homogene Gruppen ähnlicher Stücke voneinander separieren. Diese Informationen lassen sich zum Aufbau einer dreidimensionalen virtuellen Landschaft verwenden, in der der Benutzer frei navigieren kann. Ein zentraler Beitrag dieser Arbeit besteht in der Ergänzung dieser visuellen Darstellung um die permanente direktionale Wiedergabe der positionierten Stücke, die eine Medienbruch-freie Kommunikation des eigentlichen Explorationsgegenstandes ermöglicht und so zu einer infor- mierteren Bewegung des Benutzers in der Landschaft führt. Zur Vermeidung einer akustischen Reizüberflutung wurden Konzepte zur Wahrnehmungs-Fokussierung und gezielten Wiederga- beauswahl erarbeitet. Ferner gestattet die entwickelte Umgebung nicht nur die Anpassung der Umgebung durch den Benutzer (z.B. durch die Verschiebung von Stücken oder Umformungen des Terrains), sondern realisiert ebenso eine Anpassung an den Benutzer: Auf der Grundlage der Interaktion des An- wenders mit dem System wird eine Neu-Gewichtung der Komponenten des Ähnlichkeitsmaßes gelernt, die die Strukturierungsvorgaben des Benutzers bestmöglich erklären. Die Entwicklung dieses adaptiven Distanzmaßes zur Modellierung eines personalisierten Ähnlichkeitsbegriffes stellt einen weiteren Kernbeitrag dieser Dissertation dar. In einer abschließenden Evaluation wurde die Bedeutung der multimodalen Darstellung für die Orientierung des Benutzers in der virtuellen Umgebung sowie die Leistungsfähigkeit der adaptiven Distanzfunktion nachgewiesen. Abstract Current online music portals and systems for the management of private music collections mainly concentrate on the support for directed search for music pieces (e.g. on the basis of describing metadata like title, artist, etc.). However, empirical studies have shown that the typical behaviour of customers in classic music retail stores is much more characterized by an undirected browsing in the offered catalogue without being able to articulate a clear information demand. To improve support for this access paradigm, this thesis describes the conceptualization, implementation and evaluation of a computer game-like exploration environment for music collections, which allows its users to freely and autonomously explore a comprehensibly struc- tured music library. Such a structure is based on a quantifiable notion of similarity between songs. Therefore, in the first part of this thesis content-based, expert-based, collaborative and text-based approaches for distance calculation are discussed and assessed. To model the multiple facets of music similarity, a subset of these measures, which cover different aspects of music, are combined into a summarizing distance function. The generation of self-organizing maps allows the topology-preserving arrangement of pieces on a two-dimensional map, on which similar songs are placed close to each other. Furthermore, it allows the detection of cluster boundaries, that separate homogeneous groups of similar pieces. This information can be used to build a three-dimensional virtual landscape, which the user can freely navigate in. A main contribution of this thesis is the supplementation of this visual presentation by per- manent spatialized acoustic playback of the placed pieces, which makes a media break-free communication of the actual exploration subject possible and thereby allows for a more in- formed navigation of the user in the landscape. To prevent users’ acoustic overstimulation we developed and implemented concepts for perception focussing and intelligent selection of songs for playback. Besides the development of possibilities to customize the environment (e.g. by moving songs or changing the height profile of the terrain), we also let the environment adapt to the user automatically: On the basis of his interaction with the system, a re-weighting of the individual similarity measure components is learned, which explains the structure provided by the user best. The development of this adaptive distance measure which allows to model a personalized similarity notion can be regarded as a further main contribution of this thesis. A concluding evaluation shows the importance of the developed multimodal presentation for the user’s orientation in the virtual environment and proves the performance of the adaptive distance function. Danksagung Die Anfertigung dieser Dissertation wäre ohne die vielfältige Unterstützung zahlreicher Per- sonen nicht möglich gewesen. Im Bewusstsein, nicht alle aufführen zu können, möchte ich insbesondere folgenden Menschen meinen Dank aussprechen: • meinem Doktorvater Herrn Prof. Jarke für die vertrauensvolle Freiheit, selbständig ein spannendes Themenfeld wählen zu können, seine konstruktive Unterstützung bei der Erstellung dieser Arbeit sowie seine fürsorgliche Betreuung, insbesondere seinen Ein- satz zur Ermöglichung eines in vieler Hinsicht aufregenden Auslandsaufenthaltes an der GUtech in Muscat, • Herrn Prof. Seidl für seine unkomplizierte Bereitschaft zur prompten Übernahme des Zweitgutachtens, • meinen Diplomanden und Master-Studenten Jan Neis, Torben Keller und Qian Yang für ihre konstruktiven und hilfreichen Beiträge, • meinen Kolleginnen und Kollegen vom i5 für fachlich anspruchsvolle Gespräche und entspanntes Beisammensein, • meinen Kolleginnen und Kollegen an der GUtech für die zahlreichen Diskussionen und Gespräche während der gemeinsamen Zeit in den anfänglichen Wirren der Gründungs- phase der Universität, • Dominik Schmitz, mit dem ich während eines Großteils meiner Zeit am i5 das Büro (die „Dominikanische Republik“) teilen durfte, für erhellende und inspirierende Gesprä- che, aufmunternde Worte in so einigen Motivationstiefen und ein offenes Ohr in allen Lebenslagen, • meiner Familie sowie meiner Freundin Nina Hilberink für ihre allgegenwärtige und viel- fältige Unterstützung. Danke. Inhaltsverzeichnis 1 Einleitung 1 1.1 Von der CD zum Download ............................ 1 1.1.1 Tonträger-Verkäufe und Tauschbörsen . ............... 1 1.1.2 Reaktion der Musikindustrie ....................... 2 1.1.3 Vorteile digitaler Musikdistribution .................... 4 1.2 Exploration von Musiksammlungen ........................ 8 1.2.1 Gezielte Suche vs. explorativer Zugriff .................. 8 1.2.2 Explorations-Unterstützung aktueller Musikportale ........... 8 1.2.3 Kritik aktueller Explorations-Unterstützung ............... 9 1.2.4 Nutzer-adaptive Exploration ....................... 10 1.2.5 Zielsetzung ................................. 10 1.3 Repräsentationsformen von Musik . ..................... 11 1.3.1 Musik als Noten . ........................... 11 1.3.2 Musik als Steuersignal ........................... 15 1.3.3 Musik als Wellenform ........................... 16 1.3.4 Wechsel des Abstraktionsniveaus ..................... 19 1.4 Prototyp soniXplorer ................................ 25 1.5AufbauderArbeit................................. 28 1.5.1 Struktur . ................................ 28 1.5.2 Kern-Beiträge der Arbeit ......................... 29 2 Ähnlichkeitsmaße 31 2.1 Inhaltsbasierte Ähnlichkeit ............................ 33 2.1.1 Klang-basierte Merkmale ......................... 33 2.1.2 Dynamik- und Rhythmus-basierte Merkmale .............. 41 2.2 Experten-basierte Ähnlichkeit ........................... 46 2.2.1 AMG: Annotierter Musikkatalog ..................... 47 2.2.2 Music Genome Project (Pandora) ..................... 48 2.3 Kollaborative Ähnlichkeit ............................