Similarity Processing in Multi-Observation Data

Similarity Processing in Multi-Observation Data Thomas Bernecker Munchen¨ 2012 Similarity Processing in Multi-Observation Data Thomas Bernecker Dissertation an der Fakultät fur¨ Mathematik, Informatik und Statistik der Ludwig{Maximilians{Universität Munchen¨ vorgelegt von Thomas Bernecker aus Munchen¨ Munchen,¨ den 24.08.2012 Erstgutachter: Prof. Dr. Hans-Peter Kriegel, Ludwig-Maximilians-Universität Munchen¨ Zweitgutachter: Prof. Mario Nascimento, University of Alberta Tag der mundlichen¨ Prufung:¨ 21.12.2012 v Abstract Many real-world application domains such as sensor-monitoring systems for environmental research or medical diagnostic systems are dealing with data that is represented by multiple observations. In contrast to single-observation data, where each object is assigned to exactly one occurrence, multi-observation data is based on several occurrences that are subject to two key properties: temporal variability and uncertainty. When defining similarity between data objects, these properties play a significant role. In general, methods designed for single- observation data hardly apply for multi-observation data, as they are either not supported by the data models or do not provide sufficiently efficient or effective solutions. Prominent directions incorporating the key properties are the fields of time series, where data is created by temporally successive observations, and uncertain data, where observations are mutually exclusive. This thesis provides research contributions for similarity processing { similarity search and data mining { on time series and uncertain data. The first part of this thesis focuses on similarity processing in time series databases. A variety of similarity measures have recently been proposed that support similarity processing w.r.t. various aspects. In particular, this part deals with time series that consist of periodic occurrences of patterns. Examining an application scenario from the medical domain, a solution for activity recognition is presented. Finally, the extraction of feature vectors allows the application of spatial index structures, which support the acceleration of search and mining tasks resulting in a significant efficiency gain. As feature vectors are potentially of high dimensionality, this part introduces indexing approaches for the high-dimensional space for the full-dimensional case as well as for arbitrary subspaces. The second part of this thesis focuses on similarity processing in probabilistic databases. The presence of uncertainty is inherent in many applications dealing with data collected by sensing devices. Often, the collected information is noisy or incomplete due to measurement or transmission errors. Furthermore, data may be rendered uncertain due to privacy-preserving issues with the presence of confidential information. This creates a num- ber of challenges in terms of effectively and efficiently querying and mining uncertain data. Existing work in this field either neglects the presence of dependencies or provides only approximate results while applying methods designed for certain data. Other approaches dealing with uncertain data are not able to provide efficient solutions. This part presents query processing approaches that outperform existing solutions of probabilistic similarity ranking. This part finally leads to the application of the introduced techniques to data mining tasks, such as the prominent problem of probabilistic frequent itemset mining. vi vii Zusammenfassung Viele Anwendungsgebiete, wie beispielsweise die Umweltforschung oder die medizinische Diagnostik, nutzen Systeme der Sensoruberwachung.¨ Solche Systeme mussen¨ oftmals in der Lage sein, mit Daten umzugehen, welche durch mehrere Beobachtungen repräsentiert werden. Im Gegensatz zu Daten mit nur einer Beobachtung (Single-Observation Data) basieren Daten aus mehreren Beobachtungen (Multi-Observation Data) auf einer Vielzahl von Beobachtungen, welche zwei Schlusseleigenschaften¨ unterliegen: Zeitliche Veränderlich- keit und Datenunsicherheit. Im Bereich der Ahnlichkeitssuche¨ und im Data Mining spielen diese Eigenschaften eine wichtige Rolle. Gängige Lösungen in diesen Bereichen, die fur¨ Single-Observation Data entwickelt wurden, sind in der Regel fur¨ den Umgang mit mehreren Beobachtungen pro Objekt nicht anwendbar. Der Grund dafur¨ liegt darin, dass diese Ansätze entweder nicht mit den Datenmodellen vereinbar sind oder keine Lösungen anbie- ten, die den aktuellen Anspruchen¨ an Lösungsqualität oder Effizienz genugen.¨ Bekannte Forschungsrichtungen, die sich mit Multi-Observation Data und deren Schlusseleigenschaf-¨ ten beschäftigen, sind die Analyse von Zeitreihen und die Ahnlichkeitssuche¨ in probabilistischen Datenbanken. Während erstere Richtung eine zeitliche Ordnung der Beobachtungen eines Objekts voraussetzt, basieren unsichere Datenobjekte auf Beobachtungen, die sich gegenseitig bedingen oder ausschließen. Diese Dissertation umfasst aktuelle Forschungsbei- träge aus den beiden genannten Bereichen, wobei Methoden zur Ahnlichkeitssuche¨ und zur Anwendung im Data Mining vorgestellt werden. Der erste Teil dieser Arbeit beschäftigt sich mit Ahnlichkeitssuche¨ und Data Mining in Zeitreihendatenbanken. Insbesondere werden Zeitreihen betrachtet, welche aus periodisch auftretenden Mustern bestehen. Im Kontext eines medizinischen Anwendungsszenarios wird ein Ansatz zur Aktivitätserkennung vorgestellt. Dieser erlaubt mittels Merkmalsex- traktion eine effiziente Speicherung und Analyse mit Hilfe von räumlichen Indexstrukturen. Fur¨ den Fall hochdimensionaler Merkmalsvektoren stellt dieser Teil zwei Indexierungsme- thoden zur Beschleunigung von Ahnlichkeitsanfragen¨ vor. Die erste Methode berucksichtigt¨ alle Attribute der Merkmalsvektoren, während die zweite Methode eine Projektion der An- frage auf eine benutzerdefinierten Unterraum des Vektorraums erlaubt. Im zweiten Teil dieser Arbeit wird die Ahnlichkeitssuche¨ im Kontext probabilistischer Datenbanken behandelt. Daten aus Sensormessungen besitzen häufig Eigenschaften, die einer gewissen Unsicherheit unterliegen. Aufgrund von Mess- oder Ubertragungsfehlern¨ sind gemessene Werte oftmals unvollständig oder mit Rauschen behaftet. In diversen Sze- narien, wie beispielsweise mit persönlichen oder medizinisch vertraulichen Daten, können viii Daten auch nachträglich von Hand verrauscht werden, so dass eine genaue Rekonstruktion der ursprunglichen¨ Informationen nicht möglich ist. Diese Gegebenheiten stellen Anfrage- techniken und Methoden des Data Mining vor einige Herausforderungen. In bestehenden Forschungsarbeiten aus dem Bereich der unsicheren Datenbanken werden diverse Proble- me oftmals nicht beachtet. Entweder wird die Präsenz von Abhängigkeiten ignoriert, oder es werden lediglich approximative Lösungen angeboten, welche die Anwendung von Me- thoden fur¨ sichere Daten erlaubt. Andere Ansätze berechnen genaue Lösungen, liefern die Antworten aber nicht in annehmbarer Laufzeit zuruck.¨ Dieser Teil der Arbeit präsentiert effiziente Methoden zur Beantwortung von Ahnlichkeitsanfragen,¨ welche die Ergebnisse absteigend nach ihrer Relevanz, also eine Rangliste der Ergebnisse, zuruckliefern.¨ Die an- gewandten Techniken werden schließlich auf Problemstellungen im probabilistischen Data Mining ubertragen,¨ um beispielsweise das Problem des Frequent Itemset Mining unter Berucksichtigung¨ des vollen Gehalts an Unsicherheitsinformation zu lösen. CONTENTS ix Contents Abstract v Zusammenfassung vii I Preliminaries 1 1 Introduction 3 1.1 Preliminaries . .3 1.2 Similarity Processing in Databases . .5 1.2.1 Similarity of Data Objects . .5 1.2.2 Similarity Queries: A Short Overview . .5 1.2.3 Efficient Processing of Similarity Queries . .7 1.2.4 From Single to Multiple Observations . .9 1.3 A Definition of Multi-Observation Data . .9 1.4 Temporal Variability: Time Series . 10 1.4.1 Motivation . 10 1.4.2 Challenges . 11 1.5 Uncertainty: Probabilistic Databases . 13 1.5.1 Motivation . 13 1.5.2 Challenges . 13 2 Outline 15 II Key Property of Temporal Variability: Time Series 17 3 Introduction 19 3.1 Preliminaries . 19 3.1.1 A Definition of Time Series . 19 3.1.2 Similarity-Based Time Series Analysis . 19 3.1.3 From Time Series Analysis to Activity Recognition . 20 3.1.4 Accelerating the Process via Indexing . 21 3.2 Indexing in High-Dimensional Feature Spaces . 22 x CONTENTS 3.3 Full-Dimensional Indexing . 22 3.4 Indexing Approaches for Subspace Queries . 22 4 Related Work 25 4.1 Similarity of Time Series . 25 4.1.1 Similarity Measures . 25 4.1.2 Applicative Time Series Analysis: Activity Recognition . 26 4.2 Indexing in High-Dimensional Feature Spaces . 29 4.2.1 Full-Dimensional Indexing . 29 4.2.2 Indexing Approaches for Subspace Queries . 29 5 Knowing: A Generic Time Series Analysis Framework 31 5.1 Motivation . 31 5.2 Architecture . 33 5.2.1 Modularity . 33 5.2.2 Data Storage . 33 5.2.3 Data Mining . 34 5.2.4 User Interface . 35 5.3 Application Scenario . 36 5.4 Summary . 38 6 Activity Recognition on Periodic Time Series 39 6.1 Introduction . 39 6.2 Preprocessing Steps . 40 6.2.1 Outlier Removal . 40 6.2.2 Peak Reconstruction . 41 6.3 Segmentation . 43 6.4 Feature Extraction . 46 6.5 Dimensionality Reduction . 49 6.5.1 Feature Selection . 49 6.5.2 Feature Transformation . 49 6.6 Reclassification . 50 6.7 Experimental Evaluation . 51 6.7.1 Datasets . 51 6.7.2 Experimental Setup . 52 6.7.3 Classification Results . 54 6.7.4 Effect of the Preprocessing Steps . 54 6.7.5 Effect of the Segmentation . 55 6.7.6 Effect of the Feature Transformation .

Similarity Processing in Multi-Observation Data

Logmine: Fast Pattern Recognition for Log Analytics

Role of Similarity Measures in Time Series Analysis

Clustering Human Behaviors with Dynamic Time Warping and Hidden Markov Models for a Video Surveillance System

Diffeomorphic Temporal Alignment Nets

Eventdtw: an Improved Dynamic Time Warping Algorithm for Aligning Biomedical Signals of Nonuniform Sampling Frequencies

Shape Dynamic Time Warping

Making Time-Series Classification More Accurate Using Learned

Mining and Similarity Search in Temporal Databases

Comparison of HMM and DTW for Isolated Word Recognition System of Punjabi Language

Needleman–Wunsch Algorithm

Neural Time Warping for Multiple Sequence Alignment

Shapedtw: Shape Dynamic Time Warping