TUE Coding Rules
Total Page:16
File Type:pdf, Size:1020Kb
Ein Beitrag zur tonraumbasierten Analyse und Synthese musikalischer Audiosignale Dissertation zur Erlangung des akademischen Grades Doktoringenieur (Dr.-Ing.) vorgelegt der Fakultät für Elektrotechnik und Informationstechnik der Technischen Universität Ilmenau von Dipl.-Ing. Gabriel Gatzsche, geboren am 21.05.1979 in Bad Langensalza von Dipl.-Ing. Markus Mehnert, geboren am 23.01.1976 in Hünfeld Gutachter: Prof. Dr.-Ing. Dr. rer. nat. h.c. Karlheinz Brandenburg Prof. Dr.-Ing. Thomas Sporer Prof. Thomas Krämer vorgelegt am: 25.05.2009 Verteidigung am: 29.04.2011 Verf.-Nr.: EI 240 urn:nbn:de:gbv:ilm1-2011000164 ZUSAMMENFASSUNG Zusammenfassung Das Ziel dieser Arbeit besteht darin, Verbesserungen in der Analyse und Synthese von Audiosig- nalen durch Anwendung von Tonräumen zu erreichen. Im ersten Teil, der die Kapitel 2 bis 6 enthält und von Gabriel Gatzsche verfasst wurde, erfolgt die mathematisch-geometrische Beschreibung der Tonalität auf verschiedenen hierarchischen Ebenen angelehnt an Fred Lerdahls Tonal Pitch Space, David Gatzsches Kadenzkreis und Elaine Chew’s Spiral Array (Berechnung von geometrischen Schwerpunkten in Tonraummodellen). Mit Hilfe zweier Formeln, der Symmetriemodell-Generatorformel und dem SYM-Operator, wird es möglich, die Entstehung der wichtigsten Hauptebenen der abendländischen Tonalität aus einer Quintreihe zu beschreiben, verschiedene, auf eine Tonart bezogene Modelle zu erzeugen und auf den jeweili- gen Symmetrieton zu zentrieren. Damit gelingt es, eine Vielzahl bereits existierender Modelle zu verbinden und in ein einheitliches als Symmetriemodell bezeichnetes Framework zu integrieren. Um auch reale Musiksignale tonraumbasiert analysieren zu können, wird mit dem Summenvektor im kreisförmigen Tonraum ein Feature-Vektor vorgestellt, der wichtige tonale Eigenschaften eines Musiksignals niedrigdimensional repräsentiert. Dazu gehören z.B. funktionstheoretische Eigen- schaften, das Tongeschlecht, Spannungs- und Auflösungsbestreben oder auch harmonische Mehr- deutigkeiten. Weiterhin wird der Tonigkeits-Tonhöhenraum eingeführt, der den unterschiedlichen Oktavlagen von Tonigkeiten geometrische Positionen so zuordnet, dass durch Wahl eines Raum- auschnittes „gut klingende“ Akkorde erzeugt und durch Transformation des Raumausschnittes „günstig“ ineinander übergeblendet werden können. Dies führt zur Entwicklung eines neuartigen Musikinstrumentes, das als HarmonyPad bezeichnet wird. Dieses erlaubt einem Musiker, direkt mit geometrischen Tonräumen zu interagieren und damit Musiksignale zu erzeugen. Markus Mehnert untersucht im zweiten Teil der Arbeit in den Kapiteln 7 bis 12 die Anwend- barkeit des Symmetriemodells auf konkrete Probleme des Music Information Retrieval (MIR). Hier werden sowohl die Tonart- als auch die Akkorderkennung betrachtet. Im Bereich der Tonarterken- nung, die sich derzeit auf die Erkennung von Dur- und Molltonarten beschränkt, wird ein neuer Algorithmus vorgestellt, der auf dem Symmetriemodell basiert. Dieser verbessert den Stand der Technik erheblich. Darüber hinaus wird ein vollkommen neuer Ansatz vorgestellt, der die Tonart- erkennung auf die sechs gebräuchlichsten Kirchentonarten erweitert, da diese besser als die reine Erkennung von Dur und Moll geeignet sind, den Charakter eines Musikstückes widerzuspiegeln. Zusätzlich wird ein neues Bewertungsmaß eingeführt, das den Vergleich mit zukünftigen Verfah- ren ermöglicht. Es wird ein für das MIR neues maschinelles Lernverfahren (HMM/KNN) vorgestellt, das die beiden Verfahren Hidden Markov Models und k Nearest Neighbours verknüpft. Im Bereich der Akkorderkennung werden mit diesem neuen Verfahren bessere Ergebnisse als mit allen vorherge- henden Verfahren erzielt. Dabei zeigt sich auch, dass der Merkmalsvektor des Symmetriemodells in Verbindung mit Akkorderkennung signifikant besser ist als der Chromavektor, der den Stand der Technik repräsentiert. 3 ABSTRACT Abstract The goal of the present work is to improve the analysis and synthesis of musical audio signals by the application of tonal pitch spaces. The first part written by Gabriel Gatzsche consists of the Chapters 2 to 6. It discusses the mathematic-geometrical description of tonality on several hierarchical levels based on Fred Ler- dahl’s Tonal Pitch Space, David Gatzsche’s Cadence Circle and Elaine Chew’s Spiral Array (calcu- lation of geometric centroids within tonal pitch spaces). Using two formulas, the symmetry model generator formula and the SYM operator, it is possible 1.) to describe the emergence of the most important levels of western tonality out of an array of fifths and 2.) to generate several key related models which are centered to the corresponding symmetry tone. With that steps it becomes possi- ble to link several existing pitch spaces into a unified framework called symmetry model. To enable also the analysis of real music signals based on pitch spaces the centroid vector within the circular pitch space is introduced. This feature vector is a low dimensional representation of important tonal properties of musical audio signals. Such properties are functional relationships, the mode, tension and relaxation or harmonic ambiguities. Furthermore the pitch class - pitch height space is introduced. This space assigns geometric positions to different octaves of a given pitch class such that ”well sounding” chords can be created by choosing a simple shaped region of the space. By transforming (rotating, translating, scaling etc.) such a region also well sounding chord transitions are generated. This leads to the development of a new musical instrument, called HarmonyPad. The HarmonyPad allows a musician to create music by interacting with pitch spaces directly. Within the second part of the dissertation consisting of the Chapters 7 to 12 Markus Mehnert investigates the applicability of the symmetry model to concrete problems of music information retrieval (MIR) particularly chord and key recognition. The state of the art in the field of key recogni- tion focuses on the estimation of major and minor keys. Within that work a new symmetry model based algorithm is presented which exceeds the results of current algorithms clearly. Additionally a new approach is proposed which extends key recognition to the estimation of the most often used six church modes. The latter represent the character of a musical piece in a better way then the standard modes ”major” and ”minor” do. Furthermore a new benchmark is introduced which allows the comparison of the current approach with future algorithms. A new machine learning algorithm (HMM/KNN) is proposed. The new algorithm combines the approaches Hidden Markov Models and k Nearest Neighbours. In the field of chord recognition the new approach achieves better results then all of the previous algorithms. It is shown that the symmetry model feature vector leads to significant better chord recognition results then the chroma vector which represents the state of the art. 5 DANKSAGUNG Danksagung Als erstes möchten wir Herrn Prof. Karlheinz Brandenburg als unserem Doktorvater und Betreuer danken. Trotz vielfältiger Aufgaben in der Fraunhofer-Institutsleitung und der Universitätspro- fessur stand Prof. Brandenburg regelmäßig für Gespräche bereit und unterstützte uns mit Rat und Tat. Er gab uns die notwendigen Freiheiten und ein arbeitstechnisch exzellentes Umfeld, das zum Gelingen dieser Arbeit maßgeblich beitrug. Ein großer Dank gilt Herrn Prof. Thomas Krämer. Seine Harmonielehrebücher waren eine hervorragende Grundlage, uns tiefer in die klassische Harmonielehre einzuarbeiten und diese in das Symmetriemodell einzuordnen. Darüber hinaus gab er uns bei persönlichen Treffen wertvolle Hinweise und Anregungen, die wir in die vorlie- gende Arbeit einfließen lassen konnten. Ebenso möchten wir auch Dr. Thomas Sporer danken, der mit seiner Erfahrung und guten Ratschlägen auch dann weiter wusste, wenn der eine oder andere Hör- bzw. Usability-Test nicht ganz nach unseren Wünschen ausfiel. Seine positive Art lädt stets ein, Themen auch mal kontrovers zu diskutieren. Vielen Dank an die Metadaten-Abteilung des Fraunhofer IDMT. Die dort entwickelte Transkription- Toolbox, welche die Grundlage für die Musikverarbeitung (Frontend) beinhaltet, stand uns unein- geschränkt zur Verfügung. Besonders bei Holger Großmann, Christian Dittmar, Matthias Gruhne und Daniel Gärtner möchten wir uns für die gute Zusammenarbeit bedanken. Ein weiterer Dank gilt Herrn Prof. Dr. Eckard Lange von der Hochschule für Musik Franz Liszt, Weimar, dem wir unsere Ideen gerade in der so wichtigen Anfangszeit der Promotion vorstellen konnten. Durch ihn haben wir auch den Kontakt zu Prof. Krämer gefunden. Gemeinsamer Dank gilt allen Studenten, die in Form von Diplomarbeiten, Medienprojekten und Hauptseminaren diese Arbeit unterstützten. Dazu gehören Tina Meyer, Jakob Abeßer, Thomas Mayenfels, Tobias Oeckler, Michael Büttner, Sebastian Schneider, Florian Raschke, Kristin Müller, Antje Storbeck, Arne Taute, Haojin Yang, Christian Stöcklmeier, Sebastian Bube, Jacob Korn, Fabian van de Sand, Daniel Arndt, Ting Zhao, Yawei Wang, Jan Bolz, Benjamin Hudarew, Felix Hirzel, Johannes Post, Michael Stein, Benjamin Schubert und Sascha Grollmich. Persönlicher Dank Gabriel Gatzsche Persönlich großer Dank gebührt meiner direkten Vorgesetzten Frau Dr. Sandra Brix, welche nicht nur mentale Unterstützung durch ihre offene und ermutigende Art bot. Vielmehr ermöglichte und förderte sie durch Entlastung von der täglichen Projektarbeit, durch Finanzierung von wis- senschaftlichen Hilfskräften und Konferenzbesuchen und