Intrinsic Dimension Estimation Using Simplex Volumes
Total Page:16
File Type:pdf, Size:1020Kb
Intrinsic Dimension Estimation using Simplex Volumes Dissertation zur Erlangung des Doktorgrades (Dr. rer. nat.) der Mathematisch-Naturwissenschaftlichen Fakultät der Rheinischen Friedrich-Wilhelms-Universität Bonn vorgelegt von Daniel Rainer Wissel aus Aschaffenburg Bonn 2017 Angefertigt mit Genehmigung der Mathematisch-Naturwissenschaftlichen Fakultät der Rheinischen Friedrich-Wilhelms-Universität Bonn 1. Gutachter: Prof. Dr. Michael Griebel 2. Gutachter: Prof. Dr. Jochen Garcke Tag der Promotion: 24. 11. 2017 Erscheinungsjahr: 2018 Zusammenfassung In dieser Arbeit stellen wir eine neue Methode zur Schätzung der sogenannten intrin- sischen Dimension einer in der Regel endlichen Menge von Punkten vor. Derartige Verfahren sind wichtig etwa zur Durchführung der Dimensionsreduktion eines multi- variaten Datensatzes, ein häufig benötigter Verarbeitungsschritt im Data-Mining und maschinellen Lernen. Die zunehmende Zahl häufig automatisiert generierter, mehrdimensionaler Datensätze ernormer Größe erfordert spezielle Methoden zur Berechnung eines jeweils entsprechen- den reduzierten Datensatzes; im Idealfall werden dabei Redundanzen in den ursprüng- lichen Daten entfernt, aber gleichzeitig bleiben die für den Anwender oder die Weiter- verarbeitung entscheidenden Informationen erhalten. Verfahren der Dimensionsreduktion errechnen aus einer gegebenen Punktmenge eine neue Menge derselben Kardinalität, jedoch bestehend aus Punkten niedrigerer Dimen- sion. Die geringere Zieldimension ist dabei zumeist eine unbekannte Größe. Unter gewis- sen Modellannahmen, zum Beispiel für Punkte auf einer niederdimensionalen Mannig- faltigkeit, wird diese Größe, welche hier der Dimension der Mannigfaltigkeit entspricht, auch als intrinsische Dimension der Punktmenge bezeichnet. Zur Schätzung dieser intrinsischen Dimension existieren diverse Methoden. Viele dieser Verfahren basieren auf der Auswertung lokaler, niederdimensionaler Größen, ins- besondere Euklidischer Abstände oder Winkel, welche in Räumen verschiedener Dimen- sion entsprechend unterschiedliche Verteilungen aufweisen und somit Rückschlüsse auf den gesuchten Wert zulassen. Wir entwickeln einen neuen Ansatz, indem wir die Volumina von Simplexen beliebig hoher Dimension betrachten. Die Eckpunkte eines solchen Simplex werden dabei zufällig aus einer Menge benachbarter Datenpunkte gewählt. Der empirische Mittelwert vieler Volumina wird letztlich dazu genutzt, die zugrunde liegende intrinsische Dimension zu schätzen. Die Struktur dieser Arbeit lässt sich wie folgt zusammenfassen. Zunächst rekapi- tulieren und analysieren wir einige Zusammenhänge in hochdimensionalen Räumen, um unser intuitives Verständnis für diese zu schärfen; insbesondere betrachten wir die Entwicklung der Volumina einfacher geometrischer Objekte sowie allgemeine Konzen- trationseffekte bestimmter Größen für den Grenzfall einer gegen unendlich strebenden Raumdimension. Anschließend geben wir einen kurzen Einblick in das Thema der Dimen- sionsreduktion, welche einen Rahmen für das Hauptkapitel bildet. iii iv Im Hauptteil werden zunächst verschiedene Dimensionsbegriffe vorgestellt, des wei- teren die wichtigsten Methoden zur Schätzung der intrinsischen Dimension beschrieben und klassifiziert. Eine Auswahl von sechs dieser Methoden wird detaillierter erläutert und dient uns als Benchmark für spätere numerische Untersuchungen. Die konkrete Verfahrensweise unseres eigenen Ansatzes, welchen wir “Sample Simplex Volume” nen- nen, wird sowohl theoretisch motiviert und begründet als auch algorithmisch im Detail geschildert. Eine Kernkomponente ist dabei ein Algorithmus zur schnellen und sta- bilen Berechnung einer großen Zahl hochdimensionaler Simplex-Volumina. Aufgrund von Laufzeitüberlegungen und Tests mit verrauschten Eingabedaten entwickeln wir eine alternative Variante des ersten Ansatzes und verwenden dementsprechend die Bezeich- nungen SSV1 und SSV2. Wir führen eine Reihe numerischer Experimente sowohl mit zufällig generierten Daten als auch mit frei verfügbaren Datensätzen aus verschiedensten Anwendungen durch. Dabei liegt das Hauptaugenmerk im ersten Fall auf geometrischen Strukturen relativ hoher intrinsischer Dimension, wobei wir auch auf Problembereiche wie undersampling (eine im Verhältnis zur Dimension zu geringe Anzahl von Punkten) und verrauschte Daten eingehen. Bei Datensätzen aus konkreten Messungen ist das erwartete Ergebnis der Dimensionsschätzung nicht immer eindeutig. Wir diskutieren die damit verbunde- nen, teils anwendungsabhängigen Fragestellungen. Unsere eigenen Verfahren erweisen sich in den meisten Fällen als mindestens ebenbürtig zu den zum Vergleich herangezo- genen etablierten Techniken. Danksagungen Zunächst möchte ich Prof. Dr. Michael Griebel dafür danken, dass er diese Arbeit ermöglicht hat, sowie für viele hilfreiche Diskussionen, jegliche fach- liche Unterstützung und allgemein die angenehme Arbeitsatmosphäre am Institut für Numerische Simulation. Weiterhin gebührt mein Dank Prof. Dr. Jochen Garcke für wertvolle Anregungen aus dem Bereich des maschinellen Lernens sowie für die freundliche Übernahme des Zweitgutachtens. Ganz besonders möchte ich an dieser Stelle meine Kollegen des Instituts erwähnen, mit welchen ich zahlreiche mathematische Fragestellungen erörterte, die aber ebenso meinen Arbeitsalltag durch interessante Debatten zu vielfältigen Themen bereicherten. Alexander Rüttgers, Bastian Bohn und Jens Oettershagen sei hier für ihr aufmerksames Korrekturlesen dieser Arbeit gedankt. An die Zeit mit meiner Bürokollegin Jutta Neuen erinnere ich mich gerne zurück, schließlich stand mir bei vielen technischen Problemen Ralph Thesen jederzeit mit seiner Kompetenz und Hilfsbereitschaft zur Seite. Zu guter Letzt möchte ich meinen Freunden, insbesondere Roman, Yinan, Daniel und Roderich danken, und vor allem auch meinen Eltern, meinem Bruder Johannes, sowie Qiuqiu und Shiyin, die mich in allen Lebenslagen begleitet und unterstützt haben. Bonn, im August 2017 Daniel Wissel Contents 1 Introduction 1 2 High-dimensional Data Analysis and Dimensionality Reduction 7 2.1 Particularities of High-Dimensional Structures ............... 7 2.1.1 Some considerations on high-dimensional volumes ......... 7 2.1.2 Concentration of measure ...................... 11 2.2 Dimensionality Reduction .......................... 19 2.2.1 A compact introduction to dimensionality reduction ........ 19 2.2.2 An explanatory example: dimensionality reduction with ISOMAP 21 3 Intrinsic Dimension Estimation 27 3.1 Concepts of Dimension ............................ 27 3.1.1 Lebesgue covering dimension ..................... 28 3.1.2 Hausdorff dimension ......................... 29 3.1.3 The box-counting dimension ..................... 31 3.1.4 The correlation dimension ...................... 32 3.1.5 The q-dimension ........................... 33 3.1.6 Further notions of dimension ..................... 34 3.2 Estimation of the Intrinsic Dimension .................... 34 3.2.1 Classification and characteristics of IDE methods ......... 35 3.2.2 Selected approaches .......................... 50 3.3 Simplex Volume Computation ........................ 65 3.3.1 Theoretical preliminaries ....................... 65 3.3.2 Efficient numerical computation of simplex volumes ........ 69 v vi Contents 3.4 Intrinsic Dimension Estimation via Sample Simplex Volumes (SSV) ... 71 3.4.1 Why simplex volumes? ........................ 72 3.4.2 Model and theoretical background .................. 72 3.4.3 Concept of the SSV approach .................... 75 3.4.4 Influence of noise on simplex volumes ................ 82 3.4.5 Algorithmic description of the SSV1 and SSV2 method ...... 84 3.4.6 Complexity analysis of the SSV methods .............. 92 3.5 Numerical Results ............................... 94 3.5.1 Challenges of dimension estimation ................. 94 3.5.2 Configuration of the tested methods ................. 97 3.5.3 Technical prerequisites ........................ 99 3.5.4 Results from synthetic data ..................... 99 3.5.5 Results from real-world data ..................... 117 3.5.6 Further numerical evaluations .................... 125 3.5.7 Runtime evaluations ......................... 127 4 Application of the SSV Method in Dimensionality Reduction 133 5 Conclusion 139 Bibliography 141 Chapter 1 Introduction Apart from a small number of prototypes and high-priced, specialized machines, the first personal computers have been developed almost exclusively by American companies in the mid-seventies. Today, about fifty years later, computers have pervaded modern societies triggering changes in various domains, from global to local, e.g. from political, medical, and even ethical issues down to common work routines and habits of individuals. Probably no previous human invention has had a social impact of similar scale within such a short timespan. The workflow of a computer system can be divided into three basic steps: input, processing, output. While the growth in accumulated processing power of computer devices in their entirety over the last decades has been tremendous, the current quantity and diversity of input devices — and hence the amount of gathered input data — seems at least equally impressive. Due to decreasing hardware manufacturing costs, sensors and other kinds of automatic input devices have recently become omnipresent in modern industrial and consumer products. However, the collection and storage of the increasing amount of resulting data are essentially worthless without the existence of tools to process them in an appropriate way.