Similarity Processing in Multi-Observation Data
Total Page:16
File Type:pdf, Size:1020Kb
Similarity Processing in Multi-Observation Data Thomas Bernecker Munchen¨ 2012 Similarity Processing in Multi-Observation Data Thomas Bernecker Dissertation an der Fakult¨at fur¨ Mathematik, Informatik und Statistik der Ludwig{Maximilians{Universit¨at Munchen¨ vorgelegt von Thomas Bernecker aus Munchen¨ Munchen,¨ den 24.08.2012 Erstgutachter: Prof. Dr. Hans-Peter Kriegel, Ludwig-Maximilians-Universit¨at Munchen¨ Zweitgutachter: Prof. Mario Nascimento, University of Alberta Tag der mundlichen¨ Prufung:¨ 21.12.2012 v Abstract Many real-world application domains such as sensor-monitoring systems for environmental research or medical diagnostic systems are dealing with data that is represented by multiple observations. In contrast to single-observation data, where each object is assigned to exactly one occurrence, multi-observation data is based on several occurrences that are subject to two key properties: temporal variability and uncertainty. When defining similarity between data objects, these properties play a significant role. In general, methods designed for single- observation data hardly apply for multi-observation data, as they are either not supported by the data models or do not provide sufficiently efficient or effective solutions. Prominent directions incorporating the key properties are the fields of time series, where data is created by temporally successive observations, and uncertain data, where observations are mutually exclusive. This thesis provides research contributions for similarity processing { similarity search and data mining { on time series and uncertain data. The first part of this thesis focuses on similarity processing in time series databases. A variety of similarity measures have recently been proposed that support similarity pro- cessing w.r.t. various aspects. In particular, this part deals with time series that consist of periodic occurrences of patterns. Examining an application scenario from the medical domain, a solution for activity recognition is presented. Finally, the extraction of feature vectors allows the application of spatial index structures, which support the acceleration of search and mining tasks resulting in a significant efficiency gain. As feature vectors are potentially of high dimensionality, this part introduces indexing approaches for the high-dimensional space for the full-dimensional case as well as for arbitrary subspaces. The second part of this thesis focuses on similarity processing in probabilistic data- bases. The presence of uncertainty is inherent in many applications dealing with data collected by sensing devices. Often, the collected information is noisy or incomplete due to measurement or transmission errors. Furthermore, data may be rendered uncertain due to privacy-preserving issues with the presence of confidential information. This creates a num- ber of challenges in terms of effectively and efficiently querying and mining uncertain data. Existing work in this field either neglects the presence of dependencies or provides only approximate results while applying methods designed for certain data. Other approaches dealing with uncertain data are not able to provide efficient solutions. This part presents query processing approaches that outperform existing solutions of probabilistic similarity ranking. This part finally leads to the application of the introduced techniques to data mining tasks, such as the prominent problem of probabilistic frequent itemset mining. vi vii Zusammenfassung Viele Anwendungsgebiete, wie beispielsweise die Umweltforschung oder die medizinische Diagnostik, nutzen Systeme der Sensoruberwachung.¨ Solche Systeme mussen¨ oftmals in der Lage sein, mit Daten umzugehen, welche durch mehrere Beobachtungen repr¨asentiert werden. Im Gegensatz zu Daten mit nur einer Beobachtung (Single-Observation Data) basieren Daten aus mehreren Beobachtungen (Multi-Observation Data) auf einer Vielzahl von Beobachtungen, welche zwei Schlusseleigenschaften¨ unterliegen: Zeitliche Ver¨anderlich- keit und Datenunsicherheit. Im Bereich der Ahnlichkeitssuche¨ und im Data Mining spielen diese Eigenschaften eine wichtige Rolle. G¨angige L¨osungen in diesen Bereichen, die fur¨ Single-Observation Data entwickelt wurden, sind in der Regel fur¨ den Umgang mit mehre- ren Beobachtungen pro Objekt nicht anwendbar. Der Grund dafur¨ liegt darin, dass diese Ans¨atze entweder nicht mit den Datenmodellen vereinbar sind oder keine L¨osungen anbie- ten, die den aktuellen Anspruchen¨ an L¨osungsqualit¨at oder Effizienz genugen.¨ Bekannte Forschungsrichtungen, die sich mit Multi-Observation Data und deren Schlusseleigenschaf-¨ ten besch¨aftigen, sind die Analyse von Zeitreihen und die Ahnlichkeitssuche¨ in probabilisti- schen Datenbanken. W¨ahrend erstere Richtung eine zeitliche Ordnung der Beobachtungen eines Objekts voraussetzt, basieren unsichere Datenobjekte auf Beobachtungen, die sich gegenseitig bedingen oder ausschließen. Diese Dissertation umfasst aktuelle Forschungsbei- tr¨age aus den beiden genannten Bereichen, wobei Methoden zur Ahnlichkeitssuche¨ und zur Anwendung im Data Mining vorgestellt werden. Der erste Teil dieser Arbeit besch¨aftigt sich mit Ahnlichkeitssuche¨ und Data Mining in Zeitreihendatenbanken. Insbesondere werden Zeitreihen betrachtet, welche aus periodisch auftretenden Mustern bestehen. Im Kontext eines medizinischen Anwendungsszenarios wird ein Ansatz zur Aktivit¨atserkennung vorgestellt. Dieser erlaubt mittels Merkmalsex- traktion eine effiziente Speicherung und Analyse mit Hilfe von r¨aumlichen Indexstrukturen. Fur¨ den Fall hochdimensionaler Merkmalsvektoren stellt dieser Teil zwei Indexierungsme- thoden zur Beschleunigung von Ahnlichkeitsanfragen¨ vor. Die erste Methode berucksichtigt¨ alle Attribute der Merkmalsvektoren, w¨ahrend die zweite Methode eine Projektion der An- frage auf eine benutzerdefinierten Unterraum des Vektorraums erlaubt. Im zweiten Teil dieser Arbeit wird die Ahnlichkeitssuche¨ im Kontext probabilistischer Datenbanken behandelt. Daten aus Sensormessungen besitzen h¨aufig Eigenschaften, die einer gewissen Unsicherheit unterliegen. Aufgrund von Mess- oder Ubertragungsfehlern¨ sind gemessene Werte oftmals unvollst¨andig oder mit Rauschen behaftet. In diversen Sze- narien, wie beispielsweise mit pers¨onlichen oder medizinisch vertraulichen Daten, k¨onnen viii Daten auch nachtr¨aglich von Hand verrauscht werden, so dass eine genaue Rekonstruktion der ursprunglichen¨ Informationen nicht m¨oglich ist. Diese Gegebenheiten stellen Anfrage- techniken und Methoden des Data Mining vor einige Herausforderungen. In bestehenden Forschungsarbeiten aus dem Bereich der unsicheren Datenbanken werden diverse Proble- me oftmals nicht beachtet. Entweder wird die Pr¨asenz von Abh¨angigkeiten ignoriert, oder es werden lediglich approximative L¨osungen angeboten, welche die Anwendung von Me- thoden fur¨ sichere Daten erlaubt. Andere Ans¨atze berechnen genaue L¨osungen, liefern die Antworten aber nicht in annehmbarer Laufzeit zuruck.¨ Dieser Teil der Arbeit pr¨asentiert effiziente Methoden zur Beantwortung von Ahnlichkeitsanfragen,¨ welche die Ergebnisse absteigend nach ihrer Relevanz, also eine Rangliste der Ergebnisse, zuruckliefern.¨ Die an- gewandten Techniken werden schließlich auf Problemstellungen im probabilistischen Data Mining ubertragen,¨ um beispielsweise das Problem des Frequent Itemset Mining unter Berucksichtigung¨ des vollen Gehalts an Unsicherheitsinformation zu l¨osen. CONTENTS ix Contents Abstract v Zusammenfassung vii I Preliminaries 1 1 Introduction 3 1.1 Preliminaries . .3 1.2 Similarity Processing in Databases . .5 1.2.1 Similarity of Data Objects . .5 1.2.2 Similarity Queries: A Short Overview . .5 1.2.3 Efficient Processing of Similarity Queries . .7 1.2.4 From Single to Multiple Observations . .9 1.3 A Definition of Multi-Observation Data . .9 1.4 Temporal Variability: Time Series . 10 1.4.1 Motivation . 10 1.4.2 Challenges . 11 1.5 Uncertainty: Probabilistic Databases . 13 1.5.1 Motivation . 13 1.5.2 Challenges . 13 2 Outline 15 II Key Property of Temporal Variability: Time Series 17 3 Introduction 19 3.1 Preliminaries . 19 3.1.1 A Definition of Time Series . 19 3.1.2 Similarity-Based Time Series Analysis . 19 3.1.3 From Time Series Analysis to Activity Recognition . 20 3.1.4 Accelerating the Process via Indexing . 21 3.2 Indexing in High-Dimensional Feature Spaces . 22 x CONTENTS 3.3 Full-Dimensional Indexing . 22 3.4 Indexing Approaches for Subspace Queries . 22 4 Related Work 25 4.1 Similarity of Time Series . 25 4.1.1 Similarity Measures . 25 4.1.2 Applicative Time Series Analysis: Activity Recognition . 26 4.2 Indexing in High-Dimensional Feature Spaces . 29 4.2.1 Full-Dimensional Indexing . 29 4.2.2 Indexing Approaches for Subspace Queries . 29 5 Knowing: A Generic Time Series Analysis Framework 31 5.1 Motivation . 31 5.2 Architecture . 33 5.2.1 Modularity . 33 5.2.2 Data Storage . 33 5.2.3 Data Mining . 34 5.2.4 User Interface . 35 5.3 Application Scenario . 36 5.4 Summary . 38 6 Activity Recognition on Periodic Time Series 39 6.1 Introduction . 39 6.2 Preprocessing Steps . 40 6.2.1 Outlier Removal . 40 6.2.2 Peak Reconstruction . 41 6.3 Segmentation . 43 6.4 Feature Extraction . 46 6.5 Dimensionality Reduction . 49 6.5.1 Feature Selection . 49 6.5.2 Feature Transformation . 49 6.6 Reclassification . 50 6.7 Experimental Evaluation . 51 6.7.1 Datasets . 51 6.7.2 Experimental Setup . 52 6.7.3 Classification Results . 54 6.7.4 Effect of the Preprocessing Steps . 54 6.7.5 Effect of the Segmentation . 55 6.7.6 Effect of the Feature Transformation .