Visualization-Driven Data Aggregation
Total Page:16
File Type:pdf, Size:1020Kb
Computer Science Dissertation - Technische Universität Berlin VLDB BEST PAPER inside Uwe Jugel Visualization-Driven Data Aggregation Rethinking data acquisition for data visualizations 1010 10 00 0101001 001 10101 00 10 01001 01100 000 111 00 1001 001 101011010 10 00 010 010111 010 010100 000 111 00 10 10 0011 1011010 10 00 010 100 000 111 0010111 001 0010 10111 001 001010111 001 0010 1010 10 00 01000 10 01001 01 00 10 01001 01100 000 111 00 1001 001 101011010 10 00 010 010111 010 010100 000 111 00 10 10 0011 1011001 001 10101 100 000 111 001001 001 10101 10111 001 00101010 10 00 010 Visualization-Driven Data Aggregation Rethinking data acquisition for data visualizations vorgelegt von Dipl.-Inf. Uwe Jugel geb. in Dresden von der Fakultät IV – Elektrotechnik und Informatik der Technischen Universität Berlin zur Erlangung des akademischen Grades Doktor der Ingenieurwissenschaften – Dr.-Ing. – genehmigte Dissertation Promotionsausschuss: Vorsitzender Prof. Dr. Ziawasch Abedjan Gutachter Prof. Dr. rer. nat. Volker Markl Gutachter Prof. Dr.-Ing. Wolfgang Lehner Gutachter Prof. Dr.-Ing. Stefan Tai Tag der wissenschaftlichen Aussprache: 13. April 2017 Berlin 2017 Dissertation Visualization-Driven Data Aggregation Rethinking data acquisition for data visualizations Uwe Jugel Abstract Visual analysis of high-volume numerical data is traditionally required for un- derstanding sensor data in manufacturing and engineering scenarios. Today, the visual analysis of any kind of big data has become ubiquitous and is a most-wanted feature for data analysis tools. It is vital for commerce, finance, sales, and an ever-growing number of industries, whose data are traditionally stored in relational database management systems (RDBMS). Unfortunately, contemporary RDBMS-based data visualization and data analysis systems have difficulty to cope with the hard latency requirements and high ingestion rates required for interactive visualizations of big data. Disregarding the spatial properties of the visualization, they are incapable of effectively sampling or aggregating the big data for subsequent data visu- alization. The resulting big data visualizations suffer from measurable and perceivable visualization errors. Moreover, existing visualization-related tech- niques for data reduction are domain-specific and focus on a few custom types of visualizations. The underlying problems have neither been analyzed com- prehensively and in general, nor in the context of RDBMS-based systems in particular. A general-purpose solution for visualization-related data reduction has been missing. To facilitate truly interactive visualizations of the growing volume and vari- ety of big data, computer systems need to change the way they acquire data for the purpose of data visualization. Therefore, the present work introduces the Visualization-Driven Data Aggregation (VDDA) that facilitates high-quality to error-free visualizations of high-volume datasets at high data reduction rates. Built on an in-depth analysis of the underlying problem of visual aggregation, VDDA defines specific data reduction operators for the most common chart types and for chart matrices. For RDBMS-based systems in particular, these operators can be used at the query level in a transparent query rewriting sys- tem, making VDDA applicable to any visualization system that consumes data stored in relational databases. Using real-world datasets from high-tech manufacturing, stock markets, and sports analytics domains, this work demonstrates the applicability of VDDA, reducing data volumes and query answer times by up to two orders of magni- tude, while preserving pixel-perfect visualizations of the raw data. Zusammenfassung Eine visuelle Analyse großer numerischer Datenmengen ist herkömmlich not- wendig, um Sensordaten aus Konstruktions- und Fertigungsprozessen auszuwer- ten und zu verstehen. Heute ist die visuelle Analyse jeglicher Art von großen Datenmengen (Big Data) allgegenwärtig und eine meistgesuchte Funktion von Softwareprodukten zur Datenanalyse. Sie ist unverzichtbar für den Handelsver- kehr, das Finanzwesen, den Einzelhandel und einer ständig wachsenden Anzahl an Branchen, deren Daten herkömmlich in relationalen Datenbankmanagement- systemen (RDBMS) gespeichert werden. Leider haben gegenwärtige RDBMS-basierte Datenvisualisierungs- und Da- tenanalysesysteme Schwierigkeiten mit den hohen Anforderungen an Latenz- zeiten und den hohen Dateneingangsraten fertig zu werden. Sie missachten die räumlichen Eigenschaften der Visualisierungen und sind dadurch nicht imstande, die für die Datenvisualisierung benötigten Stichproben und Aggregationswerte der großen Datenmengen effektiv zu erzeugen. Die resultierenden Datenvisua- lisierungen haben mess- und sichtbare Visualisierungsfehler. Bestehende Me- thoden zur visualisierungsbezogenen Datenreduktion sind anwendungsspezifisch und werden nur auf einige wenige, individuelle Visualisierungstypen angewandt. Die zugrunde liegenden Probleme wurden weder umfassend und allgemein, noch mit speziellem Bezug zu RDBMS-basierten Systemen analysiert. Es existiert keine universelle Methode zur visualisierungsbezogenen Datenreduktion. Um zukünftig interaktive Visualisierungen der vielfältigen und wachsenden Datenmengen zu ermöglichen, müssen Computersysteme die Art der visualisie- rungsbezogenen Datenerfassung anpassen. Die vorliegende Arbeit entwirft da- für eine visualisierungsgesteuerte Datenaggregation (VDDA, engl. Visualization- Driven Data Aggregation), die einerseits hohe Datenreduktionsraten und ande- rerseits Visualisierungen von sehr hoher Qualität ermöglicht. Aufbauend auf ei- ner detaillierten Analyse des Problems der visuellen Aggregation, bietet VDDA spezifische Datenreduktionsoperatoren für alle gängigen Typen von Diagram- men und für Diagramm-Matrizen. In RDBMS-basierten Systemen können diese Operatoren dann für eine Datenreduktion auf Anfrage-Ebene angewandt wer- den, und sie ermöglichen dadurch eine transparente Anpassung der ursprüngli- chen visualisierungsbezogenen Anfrage. Die entwickelte Methode ist allgemein anwendbar und bietet eine verbesserte Datenerfassung für jegliche Art von Da- tenvisualisierungssystemen, die Daten aus relationalen Datenbanken beziehen. Die Arbeit demonstriert die Anwendbarkeit von VDDA anhand realer Da- ten aus den Bereichen der Hochtechnologie-Fertigung, Aktienmärkte und Sport- Datenanalyse. Die übertragenen Datenvolumen und Antwortzeiten werden dabei um bis zu zwei Größenordnungen reduziert, während die Datenvisualisierungen pixelgenau erhalten bleiben. Disclaimer I declare that the content of the present dissertation is based on my own thoughts and research. To the best of my knowledge, I listed and referenced in this document all sources and tools used to develop the dissertation. Acknowledgments The idea for this work arose during my first year as Ph.D. candidate at SAP Research Dresden and the Database Systems and Information Management Group at TU Berlin. I would like to thank Prof. Dr. rer. nat. Volker Markl for supervising this dissertation, for the many suggestions and discussions, and for relentlessly pushing for quality rather than quantity. Furthermore, I would like to thank Prof. Dr.-Ing. Wolfgang Lehner and Prof. Dr.-Ing. Stefan Tai for their helpful advice and for acting as second and third reviewer for this dissertation. During my studies, I got a lot of support from my colleagues at SAP. In par- ticular, I would like to thank Dr. Zbigniew Jerzak and Dr. habil. Gregor Hack- enbroich. They significantly contributed to the progress of my work through many discussions, professional, scientific, and methodological advice, and their co-authorship in my publications. Special thanks also go to Dr. Anja Jugel for validating and improving the formal and orthographic quality of the thesis. She helped a lot in improving the figures and making complicated paragraphs more understandable. I cordially thank my family, my friends, and especially and again my beloved wife Anja, who provided me the freedom and time required to conduct the endeavor of a dissertation. Her contribution to the progress of this work cannot be underestimated, since she took a lot of work off my hands, caring for our two children, who were both born during the course of the dissertation. Uwe Jugel, September 2016 Contents Publicationsv Notation vii List of Abbreviations . vii Mathematical Symbols . ix Relational Algebra Notation . .x Essential SQL Statements . xi 1. Introduction1 1.1. Background and Motivation . .1 1.2. Goal of this work . .5 1.3. Solution Overview . .7 1.3.1. Considered Big Data Visualization System . .8 1.3.2. Visual Aggregation for Basic Charts . .9 1.3.3. Advanced Visual Aggregation Techniques . 10 1.4. Structure of the work . 11 2. Elements and Principles of Data Visualization Systems 13 2.1. System Components . 13 2.2. SQL Databases . 17 2.3. Pixels on the Canvas . 18 2.4. The Visualization Pipeline . 22 2.5. Visualization System Architectures . 25 2.6. Existing Data Visualization Systems . 28 2.6.1. Visual Analytics Tools . 28 2.6.2. Big Data Visualization Systems . 28 2.6.3. Common Web Applications . 29 2.6.4. Additional Systems . 31 2.7. Data Reduction . 33 2.7.1. Piecewise Data Reduction Techniques . 33 2.7.2. Geometric Data Reduction Techniques . 34 2.7.3. Additional Data Reduction Techniques . 36 i Contents 2.8. Data Visualization . 39 2.8.1. Data Visualization Terminology . 40 2.8.2. Considered Chart Types . 42 2.8.3. Scalability of Visualizations . 45 2.8.4. Data Visualization in Interactive Systems . 46 Summary