Frameworks for Distributed Big Data Processing: a Comparison in the Domain of Predictive Maintenance

Die approbierte Originalversion dieser Diplom-/ Masterarbeit ist in der Hauptbibliothek der Tech- nischen Universität Wien aufgestellt und zugänglich. http://www.ub.tuwien.ac.at The approved original version of this diploma or master thesis is available at the main library of the Vienna University of Technology. http://www.ub.tuwien.ac.at/eng Frameworks for Distributed Big Data Processing: A Comparison in the Domain of Predictive Maintenance DIPLOMARBEIT zur Erlangung des akademischen Grades Diplom-Ingenieur/in im Rahmen des Studiums Business Informatics eingereicht von Rudolf Plettenberg Matrikelnummer 01229086 an der Fakultät für Informatik der Technischen Universität Wien Betreuung Betreuer: Assistant Prof. Mag.rer.soc.oec. Dr.rer.soc.oec. Manuel Wimmer Mitwirkung: Projektass. Dipl.-Ing. Mag.rer.soc.oec. Dr.techn. Alexandra Mazak Wien, 16.04.2018 (Unterschrift Verfasser/in) (Unterschrift Betreuer/in) Technische Universität Wien A-1040 Wien ▪ Karlsplatz 13 ▪ Tel. +43-1-58801-0 ▪ www.tuwien.ac.at Erklärung zur Verfassung der Arbeit Rudolf Plettenberg, Stubenring 2, 1010 Wien „Hiermit erkläre ich, dass ich diese Arbeit selbständig verfasst habe, dass ich die verwendeten Quellen und Hilfsmittel vollständig angegeben habe und dass ich die Stellen der Arbeit – einschließlich Tabellen, Karten und Abbildungen –, die anderen Werken oder dem Internet im Wortlaut oder dem Sinn nach entnommen sind, auf jeden Fall unter Angabe der Quelle als Entlehnung kenntlich gemacht habe.“ ____________________________ ____________________________ Ort, Datum Unterschrift i Abstract Predictive maintenance is a novel approach for making maintenance decisions, lowering maintenance costs, increasing a plants capacity and production volume, and positively affecting environmental and employee safety. In predictive maintenance, condition data of machines is constantly collected and analysed to predict future machine failures. Due to the high volume, velocity, and variety of gathered data, Big Data analytic frameworks are necessary to provide the desired results. The performance of these frameworks highly influences the overall performance of a predictive maintenance system, raising the need for tools to measure it. Benchmarks present such tools by defining general workloads for a system to measure its performance. Due to the wide popularity of Big Data analytics across industries, benchmarks for Big Data analytic frameworks are defined specifically for each domain. While there are currently many benchmarks available for other domains such as retail, social network, or search engines, there are none available for Big Data analytic frameworks in the application area of predictive maintenance. This thesis introduces the predictive maintenance benchmark (PMB). The PMB is a benchmark aimed at measuring the performance of Big Data analytic frameworks in the field of predictive maintenance. The data model and workload of the PMB represent typical tasks encountered by a predictive maintenance system. The PMB is implemented in the two most popular Big Data analytic ecosystems Hadoop and Spark and show Spark outperforming Hadoop in almost every task. For evaluation, findings gathered during implementation and execution of the PMB are analysed. Furthermore, the PMB results are validated against other studies comparing Hadoop and Spark. ii Kurzfassung Predictive Maintenance (vorausschauende Wartung) ist ein neuer Ansatz für das Fällen von Wartungsentscheidungen und ermöglicht eine Senkung von Wartungskosten, eine Steigerung der Produktion, sowie eine Erhöhung der Sicherheit und des Umweltbewusstseins. Bei Predictive Maintenance werden permanent daten über den Zustand einer Maschine gesammelt und verwendet, um Vorhersagen über künftige Ausfälle zu treffen. Auf Grund des Volumens, der Geschwindigkeit, und der Vielfalt der gesammelten Daten werden für deren Analyse spezielle Software Frameworks aus dem Bereich der Big Data Analyse benötigt. Die Leistung dieser Frameworks ist maßgeblich für die Leistung des gesamten Predictive Maintenance Systems. Benchmarks erlauben es die Leistung von Frameworks zu messen und dienen daher gleichzeitig als Basis dafür, diese zu vergleichen. Durch den branchenweiten Einsatz von Big Data Analyse, und die daraus resultierenden unterschiedlichen Einsatzgebiete, ist es wichtig die Frameworks innerhalb eines bestimmten Aufgabengebietes zu vergleichen. Zurzeit existieren solche Big Data Benchmarks für die Bereiche des Handels, der Sozialen Netzwerke, der Web Suche, sowie der Bioinformatik. Es gibt allerdings derzeit keinen Benchmark, der den Tätigkeitsumfeld von Predictive Maintenance abdeckt. Die vorliegende Diplomarbeit stellt daher den Predictive Maintenance Benchmark (PMB) vor. Der PMB setzt sich zum Ziel, die Leistung von Big Data Analyse Frameworks an Hand von Aufgaben aus dem Bereich Predictive Maintenance zu testen. Das Datenmodell und das Arbeitsvolumen von PMB repräsentieren hierbei typische Aufgaben eines Predictive Maintenance Systems. Nach der Entwicklung des PMBs, wird er auf den zwei populären Big Data Frameworks Hadoop und Spark implementiert. Die Resultate der jeweiligen Implementationen dienen als Basis für den Leistungsvergleich zwischen Hadoop und Spark. Schlussendlich wird der PMB durch Erkenntnisse, die während der Planung, Implementierung und Analyse der Resultate gewonnen wurden evaluiert. Zusätzlich werden die Resultate des PMBs noch mit anderen Studien, die die Leistung von Hadoop und Spark vergleichen, validiert. iii Table of Content 1 Introduction ............................................................................................................................... 1 1.1 Motivation ....................................................................................................................................... 1 1.2 Problem Statement ....................................................................................................................... 2 1.3 Aim of the Work ............................................................................................................................. 2 1.4 Methodological Approach .......................................................................................................... 3 1.4.1 Literature Research ................................................................................................................................ 3 1.4.2 Benchmark Development ..................................................................................................................... 3 1.4.3 Benchmark Implementation ............................................................................................................... 4 1.5 Structure of the Work .................................................................................................................. 5 2 Related Work ............................................................................................................................. 6 2.1 Technology-bound Benchmarks ............................................................................................. 6 2.2 Technology-agnostic Benchmarks .......................................................................................... 8 3 Big Data Analytics ................................................................................................................. 10 3.1 Big Data .......................................................................................................................................... 10 3.2 Technology Drivers for Big Data Analytics ....................................................................... 11 3.2.1 Distributed Computing ....................................................................................................................... 12 3.2.2 In-Memory ............................................................................................................................................... 13 3.3 Classification of Big Data Analytic Frameworks ............................................................. 15 3.3.1 Storage Pillar .......................................................................................................................................... 15 3.3.2 Processing Pillar .................................................................................................................................... 18 3.3.3 Orchestration Pillar ............................................................................................................................. 22 3.3.4 Interface Pillar........................................................................................................................................ 23 3.3.5 Assistance Pillar .................................................................................................................................... 26 3.3.6 Deployment Pillar ................................................................................................................................. 27 3.4 Architecture of a Big Data Ecosystem ................................................................................. 28 4 Predictive Maintenance ...................................................................................................... 31 4.1 Overview of Maintenance Techniques ............................................................................... 31 4.1.1 Breakdown Maintenance ................................................................................................................... 32 4.1.2 Time

Load more