UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA
Dipartimento di Scienze Fisiche, Informatiche e Matematiche
Corso di Laurea in
Informatica
Titolo Tesi
Progettazione e sviluppo di un’applicazione Big Data per l’analisi e l’elaborazione di tweet in real-time
RELATORE CANDIDATO Chiar.mo Professore Alessandro Pillo Riccardo Martoglia MATR. 111759
Anno Accademico 2018/2019 Indice
Introduzione ………………………………….………………………………… pag. 1
Parte I Studio delle tecnologie utili per l’analisi, l’elaborazione e l’interrogazione di Big Data
Capitolo I - “Ecosistema Hadoop” 1.1 Big Data ….………………………………….……………….………… pag. 3
1.2 Analisi derivate dalla figura ………………….…………….…….…… pag. 5 1.3 Processing layer …………………….……………………….………….. pag. 6
1.4 Distributed data processing & programming .…………….….…………. pag. 7 1.5 Sistemi analizzati in tabella .…………….……………..…….……..…… pag. 11
1.5.1 Apache Hadoop ……….….……………..………………………. pag. 11
1.5.2 Apache Apex ……….……….…………..………..……….….….. pag. 17 1.5.3 Apache Beam ……….…………………..…………………….…. pag. 20
1.5.4 Apache Flink……….…………………………………………..… pag. 24 1.5.5 Apache Samza …….……………..……………..……………….. pag. 30 1.5.6 Apache Spark .…….……………..……………………………… pag. 34
1.5.7 Apache Storm…….……………..……………………………….. pag. 38
1.5.8 Apache Tez .………….……………..……………………….…… pag. 40
1.5.9 Google MillWheel….……………..…………………………….. pag. 41
1.5.10 Google Cloud Dataflow…………..……………………………… pag. 41
1.5.11 IBM InfoSphere Streams ..………..………………………..…… pag. 43
1.5.12 Twitter Heron ………..………………..………………………… pag. 44