"Change Detection in Streaming Data"
Total Page:16
File Type:pdf, Size:1020Kb
CHANGE DETECTION IN STREAMING DATA DISSERTATION ZUR ERLANGUNG DES AKADEMISCHEN GRADES DOKTOR-INGENIEUR (DR.-ING.) VORGELEGT DER FAKULTÄT FÜR INFORMATIK UND AUTOMATISIERUNG DER TECHNISCHEN UNIVERSITÄT ILMENAU VON M.SC.DANG HOAN TRAN VORGELEGT AM 30. MAI 2013 TAG DER WISSENSCHAFTLICHEN AUSSPRACHE: AM 08. OKTOBER 2013 GUTACHTER 1.P ROF.DR.-ING. HABIL.KAI-UWE SATTLER 2.D R.MOHAMED MEDHAT GABER 3.P ROF.DR.PETER FISCHER URN:NBN:DE:GBV:ILM1-2013000513 CHANGE DETECTION IN STREAMING DATA A DISSERTATION SUBMITTED IN PARTIAL FULFILLMENT OF THE REQUIREMENTS FOR THE DEGREE OF DOKTOR-INGENIEUR (DR.-ING.) FACULTY OF COMPUTER SCIENCE AND AUTOMATION ILMENAU UNIVERSITY OF TECHNOLOGY FROM M.SC.DANG HOAN TRAN READING COMMITTEE 1.P ROF.DR.-ING. HABIL.KAI-UWE SATTLER 2.D R.MOHAMED MEDHAT GABER 3.P ROF.DR.PETER FISCHER URN:NBN:DE:GBV:ILM1-2013000513 i Abstract Change detection is the process of identifying differences in the state of an object or phenomenon by observing it at different times or different locations in space. In the streaming context, it is the process of segmenting a data stream into different seg- ments by identifying the points where the stream dynamics changes. Decentralized change detection can be used in many interesting, and important applications such environmental observing systems, medicare monitoring systems. Although there is great deal of work on distributed detection and data fusion, most of work focuses on the one-time change detection solutions. One-time change detection method re- quires to proceed data once in response to the change occurring. The trade-off of a continuous distributed detection of changes include detection accuracy, space- efficiency, detection delay, and communication-efficiency. To achieve these goals, the wildfire warning system is used as a motivating sce- nario. From the challenges and requirements of the wildfire warning system, the change detection algorithms for streaming data are proposed a part of the solution to the wildfire warning system. By selecting various models of local change de- tection, different schemes for distributed change detections, and the data exchange protocols, different designs can be achieved. Based on this approach, the contributions of this dissertation are as follows. A general two-window framework for detecting changes in a single data stream is presented. A general synopsis-based change detection framework is proposed. The- oretical and empirical analysis shows that the detection performance of synopsis- based detector is similar to that of non-synopsis change detector if a distance func- tion quantifying the changes is preserved under the process of constructing synop- sis. A clustering-based change detection and clustering maintenance method over sliding window is presented. Clustering-based detector can automatically detect the changes in the multivariate streaming data. A framework for decentralized change detection in wireless sensor networks is proposed. A distributed framework for clustering streaming data is proposed by extending the two-phased stream cluster- ing approach which is widely used to cluster a single data stream. iii Zusammenfassung Unter Änderungserkennung wird der Prozess der Erkennung von Unterschieden im Zustand eines Objekts oder Phänomens verstanden, wenn dieses zu verschiedenen Zeitpunkten oder an verschiedenen Orten beobachtet wird. Im Kontext der Daten- stromverarbeitung stellt dieser Prozess die Segmentierung eines Datenstroms an- hand der identifizierten Punkte, an denen sich die Stromdynamiken ändern, dar. Die Fähigkeit, Änderungen in den Stromdaten zu erkennen, darauf zu reagieren und sich daran anzupassen, spielt in vielen Anwendungsbereichen, wie z.B. dem Aktivitätsüberwachung, dem Datenstrom-Mining und Maschinenlernen sowie dem Datenmanagement hinsichtlich Datenmenge und Datenqualität, eine wichtige Rolle. Dezentralisierte Änderungserkennung kann in vielen interessanten und wichtigen Anwendungsbereichen, wie z.B. in Umgebungsüberwachungssystemen oder medizinischen Überwachungssystemen, eingesetzt werden. Obgleich es eine Vielzahl von Arbeiten im Bereich der verteilten Änderungserkennung und Daten- fusion gibt, liegt der Fokus dieser Arbeiten meist lediglich auf der Erkennung von einmaligen Änderungen. Die einmalige Änderungserkennungsmethode erfordert die einmalige Verarbeitung der Daten als Antwort auf die auftretende Änderung. Der Kompromiss einer kontinuierlichen, verteilten Erkennung von Änderun- gen umfasst die Erkennungsgenauigkeit, die Speichereffizienz sowie die Berech- nungseffizienz. Um dieses Ziel zu erreichen, wird das Flächenbrandwarnsystem als motivierendes Szenario genutzt. Basierend auf den Herausforderungen und An- forderungen dieses Warnsystems wird ein Algorithmus zur Erkennung von Än- derungen in Stromdaten als Teil einer Gesamtlösung für das Flächenbrandwarnsys- tem vorgestellt. Durch die Auswahl verschiedener Modelle zur lokalen und verteil- ten Änderungserkennung sowie verschiedener Datenaustauschprotokolle können verschiedene Systemdesigns entwickelt werden. Basierend auf diesem Ansatz leis- tet diese Dissertation nachfolgend aufgeführte Beiträge. Es wird ein allgemeines 2-Fenster Framework zur Erkennung von Änderungen in einem einzelnen Daten- strom vorgestellt. Weiterhin wird ein allgemeines synopsenbasiertes Framework zur Änderungserkennung beschrieben. Mittels theoretischer und empirischer Anal- ysen wird gezeigt, dass die Erkennungs-Performance des synopsenbasierten Än- derungsdetektors ähnlich der eines nicht-synopsenbasierten ist, solange eine Dis- tanzfunktion, welche die Änderungen quantifiziert, während der Erstellung der Synopse eingehalten wird. Es wird Cluster-basierte Änderungserkennung und Cluster-Pflege über gleitenden Fenstern vorgestellt. Weiterhin wird ein Framework zur verteilten Änderungserkennung in drahtlosen Sensornetzwerken beschrieben. Basierend auf dem 2-Phasen Stromdaten-Cluster-Ansatz, welcher weitestgehend zur Clusterung eines einzelnen Datenstroms eingesetzt wird, wird ein verteiltes Framework zur Clusterung von Stromdaten vorgestellt. For Minh Duc, Quoc Bao vii Acknowledgments I am fortunate to have opportunity in living and studying in Germany, a nation is the origin of the modern higher education with the famous Humboldt model which promotes and advocates the free spirit of research university. In particular, I am fortunate to have Professor. Dr.-Ing.habil. Kai-Uwe Sattler as my supervisor, or Doktorvater in German. I like this word because it has more meanings than super- visor, and advisor. I am profoundly grateful to him for offering me this difficult but interesting research topic and for his insightful advices, patience, and kindness over the years. I thank Dr Mohamed Gaber at the Data Science Research Group of School of Computing University of Portsmouth for reading and giving insightful suggestions that have improved this dissertation. I thank Professor. Dr. Peter Fischer at the Web Science group of Institut für Informatik, Albert-Ludwigs-Universität Freiburg for spending time on reading my thesis and giving me many detailed and insightful comments that make thesis more clearly. I would like to thank all the members of Ph.D. committee: Professor. Dr. Martin Dietzfelbinger, Professor. Dr.-Ing.habil. Armin Zimmermann, and Professor. Dr. sc.techn. Beat Brüderlin. I thank all my coauthors Professor Kai-Uwe Sattler, and Yang Jin. I thank Dr. rer. nat. Rita Schindler, Dr.-Ing. Christine Krause, Dr.-Ing. Daniel Klan, Stephan Baumann, Francis Gropengiesser, Felix Beier, and Liz Ribe Baumann, who support me very much during the time working in the group. I thank Mr. Peter Henkel, and Mr. Sauerbrey Martin for their technical support. I thank Ms. Hoang Hanh at School of Languages and Comparative Cultural Studies of the University of Queensland, for proofreading this dissertation. I thank all the officemates who support me when working in the same office: Anja Poelck, Felix Beier, Yang Jin, Heiko Betz, and Omran Saleh. I thank Ms.Katja Wolf, Ms.Marion Koch, Ms. Cordula Giewald, and Ms. Silvia Benz for their office supports. This thesis would have been impossible without you. I gratefully acknowledge the financial supports of the Vietnam Ministry of Ed- ucation and Training, TU Ilmenau, and the DAAD. Finally, I am deeply indebted to my parent, my wife, and sisters for their love and support. Contents I Introduction and Background1 1 Introduction3 1.1 Thesis Statement..........................3 1.1.1 Motivating Scenario....................5 1.1.2 Challenges and Solutions..................7 1.2 Contributions of the Dissertation.................. 12 1.3 Related Work............................ 14 1.3.1 Change Detection in A Single Data Stream........ 14 1.3.2 Reactive Monitoring.................... 15 1.3.3 Distributed Detection of Changes in Streaming Data... 15 1.4 Summary.............................. 16 2 Background 17 2.1 Introduction............................. 17 2.2 Change Detection in Streaming Data................ 18 2.2.1 Change Detection: Definitions and Notation........ 18 2.2.2 Change Detection Methods in Streaming Data....... 22 2.2.3 Design Methodology.................... 27 2.3 Distributed Change Detection in Streaming Data......... 27 2.3.1 Distributed Detection: One-time versus. Continuous... 28 2.3.2 Locality in Distributed Computing............. 29 2.4 Efficiency Metrics.......................... 31 2.4.1 Efficiency Metrics from Detection Theory......... 31 2.4.2 Efficiency Metrics from Information Retrieval....... 33 2.4.3 ROC and PR Curves.................... 34 2.5