Diplomová Práce

Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Komparace distribucí frameworku Apache Hadoop DIPLOMOVÁ PRÁCE Studijní program: Aplikovaná informatika Studijní obor: Podniková informatika Autor: Mgr. Petr Todorov Vedoucí diplomové práce: doc. Ing. Ota Novotný, Ph.D. Praha, duben 2020 Prohlášení Prohlašuji, že jsem diplomovou práci Komparace distribucí frameworku Apache Hadoop vypracoval samostatně za použití v práci uvedených pramenů a literatury. V Praze dne 27. dubna 2020 ........................................................ Petr Todorov Poděkování Na tomto místě bych rád poděkoval především doc. Ing. Otovi Novotnému, Ph.D., za cenné rady, konzultace a metodické vedení při tvorbě této diplomové práce. Současně bych chtěl poděkovat své rodině za podporu nejen při tvorbě této práce, ale po celou dobu studia na Vysoké škole ekonomické. Abstrakt Práce se zaměřuje na komparaci distribucí frameworku pro zpracování big data Apache Hadoop. Teoretická část přináší stručný vhled do oblasti big data, detailní popis frameworku a ekosystému Apache Hadoop. Práce rovněž poskytuje přehled o situaci na trhu distribucí frameworku pro zpracování big data Apache Hadoop. Praktická část práce představuje možnosti zpracování big data v reálném čase v rámci vybraných distribucí frameworku Apache Hadoop formou realizace typové úlohy příjmu a zpracování příspěvků ze sociální sítě Twitter. Na základě zjištěných informací a výsledků provedení příjmu a zpracování big data je následně provedena komparace vybraných distribucí frameworku Apache Hadoop. Informace, které práce přináší, lze využít pro rychlou orientaci na trhu distribucí frameworku Apache Hadoop a výběr distribuce frameworku Apache Hadoop vhodné pro zpracování big data v reálném čase. Klíčová slova Big data, Apache Hadoop, Cloudera, Hortonworks, MapR, zpracování big data v reálném čase. JEL klasifikace C88 Other Computer Software, L86 Information and Internet Services • Computer Software, M15 IT Management. Abstract This thesis focuses on comparison of the Apache Hadoop big data processing framework distributions. The theoretical part brings a brief insight into the big data area, a detailed description of the Apache Hadoop framework and ecosystem. The thesis also provides an overview of the Apache Hadoop big data processing framework distributions market situation. The practical part of the thesis introduces the possibilities of real-time big data processing within selected Apache Hadoop framework distributions in the form of performing a type Twitter social network data ingestion and processing task. Based on information found and data ingestion and processing results the comparison of selected Apache Hadoop framework distributions is accomplished. The information introduced in this thesis can be used in order to get oriented in the Apache Hadoop framework distributions market situation quickly and also for the selection of the distribution suitable for real-time big data processing. Keywords Big data, Apache Hadoop, Cloudera, Hortonworks, MapR, real-time big data processing. JEL Classification C88 Other Computer Software, L86 Information and Internet Services • Computer Software, M15 IT Management. Obsah Úvod .................................................................................................................................... 22 Motivace práce ................................................................................................................. 22 Cíle práce ......................................................................................................................... 23 Výstupy a přínosy práce ................................................................................................... 23 Struktura práce ................................................................................................................ 23 Teoretická část práce .................................................................................................... 24 Praktická část práce ..................................................................................................... 24 Předpoklady a omezení práce .......................................................................................... 25 Metodologie práce ........................................................................................................... 27 1 Rešerše literatury ......................................................................................................... 28 1.1 Odborné publikace ................................................................................................ 28 1.2 Akademické práce ................................................................................................. 36 1.3 Analýzy trhu .......................................................................................................... 37 1.4 Internetové zdroje ................................................................................................. 38 1.5 Shrnutí .................................................................................................................. 39 2 Big data ......................................................................................................................... 40 2.1 Vymezení pojmu big data ..................................................................................... 40 2.1.1 Data, informace, znalosti ............................................................................... 40 2.1.2 Metadata ........................................................................................................ 40 2.1.3 Big data ...........................................................................................................41 2.2 Charakteristiky big data ........................................................................................ 42 2.2.1 První vymezení charakteristik big data – 3V ................................................ 42 2.2.2 Standardní množina charakteristik big data – 4V ........................................ 42 2.2.3 Další vývoj definice charakteristik big data – xV .......................................... 43 2.3 Analýza big data .................................................................................................... 45 2.3.1 Vymezení pojmu analýza big data ................................................................. 45 2.3.2 Vztah analýzy big data k ostatním oblastem analýzy dat .............................. 46 2.3.3 Proces analýzy big data .................................................................................. 49 2.4 Koncepty a technologie pro analýzu big data ........................................................ 51 2.4.1 Distribuované uložení dat .............................................................................. 51 2.4.2 Distribuované zpracování dat ........................................................................ 56 2.4.3 Machine learning ........................................................................................... 62 2.4.4 Cloud computing ........................................................................................... 63 2.5 Praktické aplikace analýzy big data ...................................................................... 64 2.5.1 Zdroje big data ............................................................................................... 64 2.5.2 Praktické aplikace analýzy big data ............................................................... 65 2.6 Shrnutí .................................................................................................................. 66 3 Framework Apache Hadoop ........................................................................................ 68 3.1 Vznik a řešení potřeb efektivního uložení a zpracování big data ......................... 68 3.1.1 Vznik a řešení potřeby efektivního uložení big data ..................................... 68 3.1.2 Vznik a řešení potřeby efektivního zpracování big data ................................ 70 3.2 Vznik a rozvoj frameworku Apache Hadoop ......................................................... 71 3.2.1 Vznik projektu Hadoop .................................................................................. 71 3.2.2 Rozvoj projektu Hadoop ................................................................................ 74 3.2.3 Současný stav projektu Hadoop .................................................................... 76 3.3 Architektura a funkcionalita frameworku Hadoop .............................................. 78 3.3.1 Projekt Hadoop ............................................................................................. 80 3.3.2 Ekosystém Hadoop ........................................................................................ 93 3.4 Praktické aplikace frameworku Apache Hadoop ................................................. 111 3.4.1 Twitter .......................................................................................................... 111 3.4.2 Spotify ........................................................................................................... 113 3.4.3 LinkedIn ....................................................................................................... 114 3.5 Shrnutí ................................................................................................................. 116 4 Distribuce frameworku Apache Hadoop .................................................................... 120 4.1 Přehled dostupných distribucí

Diplomová Práce

Modern Technologies of Bigdata Analytics: Case Study on Hadoop Platform Dharminder Yadav1, Umesh Chandra2

Provisioning Guide Version 2.3.0 Table of Contents

IBM Big SQL (With Hbase), Splice Major Contributor to the Apache Be a Major Determinant“ Machine (Which Incorporates Hbase Madlib Project

Esgyndb 版本说明2.4.2

Stored Procedures in Java (Spjs) Guide Version 2.1.0 Table of Contents

Provisioning Guide Version 2.0.0 Table of Contents

Load and Transform Guide Version 2.2.0 Table of Contents

Client Installation Guide Version 1.3.0 Table of Contents

ASF FY2021 Annual Report

Provisioning Guide Version 2.1.0 Table of Contents

Esgyndb版本说明2.4.1 (中文版)

Client Installation Guide Version 2.2.0 Table of Contents