Massive Scale Streaming Graphs: Evolving Network Analysis and Mining
Total Page:16
File Type:pdf, Size:1020Kb
D 2020 MASSIVE SCALE STREAMING GRAPHS: EVOLVING NETWORK ANALYSIS AND MINING SHAZIA TABASSUM TESE DE DOUTORAMENTO APRESENTADA À FACULDADE DE ENGENHARIA DA UNIVERSIDADE DO PORTO EM ENGENHARIA INFORMÁTICA c Shazia Tabassum: May, 2020 Abstract Social Network Analysis has become a core aspect of analyzing networks today. As statis- tics blended with computer science gave rise to data mining in machine learning, so is the social network analysis, which finds its roots from sociology and graphs in mathemat- ics. In the past decades, researchers in sociology and social sciences used the data from surveys and employed graph theoretical concepts to study the patterns in the underlying networks. Nowadays, with the growth of technology following Moore’s Law, we have an incredible amount of information generating per day. Most of which is a result of an interplay between individuals, entities, sensors, genes, neurons, documents, etc., or their combinations. With the emerging line of networks such as IoT, Web 2.0, Industry 4.0, smart cities and so on, the data growth is expected to be more aggressive. Analyzing and mining such rapidly generating evolving forms of networks is a real challenge. There are quite a number of research works concentrating on analytics for static and aggregated net- works. Nevertheless, as the data is growing faster than computational power, those meth- ods suffer from a number of shortcomings including constraints of space, computation and stale results. While focusing on the above challenges, this dissertation encapsulates contributions in three major perspectives: Analysis, Sampling, and Mining of streaming networks. Stream processing is an exemplary way of treating continuously emerging temporal data. Therefore, in this dissertation, we propose algorithms that comply with single-pass and limited memory for processing. Additionally, to deal with the situations where data generation speed is higher than the processing speed, we present dynamic sampling on evolving networks. Dynamic sampling in streaming scenarios is capable of efficiently managing in-memory data for high-speed networks; This makes it a powerful means to serve many problems such as performing analytics, maintaining sufficient statistics, quantifying changes, real-time learning or running queries and applications on evolving data. However, the samples need to be representative of the structural and topological properties, changing behaviors, distributions, and patterns in the networks. Here, we present some fast and effective memoryless sampling techniques biased to recency and the strength of changing relationships in an evolving network. They are also empirically proved to be closely preserving some important properties and distributions in various evolving networks. We also exploit them with the application perspective. Additionally, in this work, we introduce, analyze and recognize the significance of recurring links and develop a fast and scalable predictive model for recurring links in temporal network streams. Another contemporary application of network analytics is i ii fraud detection. Exploring the social interaction patterns of users in a network promotes the identification of different anomalous behaviors. Therefore, we exploit those patterns to identify and learn features that differentiate legitimate users from fraudsters. Eventu- ally, we propose some novel network analysis metrics which facilitate us in quantifying and characterizing links in the above tasks. Keywords: Graph streams. Evolving networks. Social network analysis. Socio- metrics. Sampling. Forgetting. Recurring links. Link prediction. Anomaly detection. Fraud detection. Resumo Análise de redes sociais é um aspecto central da análise de redes. Do mesmo modo que as estatísticas combinadas com a ciência da computação deram origem ao Data Mining, o mesmo ocorre com a análise de redes sociais, que encontra suas raízes na sociologia e nos grafos. Nas últimas décadas, investigadores da àrea de sociologia e ciências soci- ais utilizaram dados dessa investigação e aplicaram conceitos teóricos sobre grafos para estudar os padrões nas redes subjacentes. Atualmente, com o crescimento da tecnologia e seguindo a Lei de Moore, temos uma quantidade massiva de informações geradas por dia. A maior parte é resultado de uma interação entre indivíduos, entidades, sensores, genes, neurónios, documentos, ou outras combinações. Espera-se que o crescimento de dados seja mais agressivo com a ascensão de redes como IoT, web 2.0, Indústria 4.0, cidades inteligentes etc. Analisar e extrair conhecimento destas formas de redes é um verdadeiro desafio na medida em que estão em rápida evolução. Existem vários trabal- hos de investigação com foco em análises para redes estáticas e agregadas. No entanto, como os dados estão crescendo mais rápido do que o poder computacional, esses méto- dos sofrem de várias deficiências, incluindo restrições de espaço, computação e resultados obsoletos. Esta dissertação está centrada nos desafios acima mencionados, apresentando contribuições em três perspectivas principais: Análise, Amostragem e Extração de con- hecimento de redes em streaming. O processamento de fluxo de dados é um modo exemplar de tratar continuamente dados temporais emergentes. Nesta dissertação, apresentamos algoritmos de streaming que satisfazem as propriedades mais importantes desta área, ao manterem uma passagem única sobre os dados e utilizarem memória limitada durante o processamento. Além disso, para lidar com situações em que a velocidade de geração de dados é superior à velocidade de processamento, propomos amostragem dinâmica em redes em evolução. A amostragem dinâmica em cenários de streaming é capaz de gerir com eficiência dados em memória para análises de grafos, manter estatísticas suficientes, quantificar alterações, aprender em tempo real ou executar consultas e aplicativos, etc. No entanto, as amostras precisam de ser representativas das propriedades estruturais e topológicas, comportamen- tos dinâmicos, distribuições e padrões nas redes. Apresentamos algumas técnicas de amostragem rápidas, eficazes e memoryless, influenciadas pela nova informação e pela força da mudança de relacionamentos em uma rede em evolução. Estas técnicas foram comprovadas empiricamente, preservando algumas propriedades e distribuições impor- tantes em várias redes em evolução, que também são exploradas com a perspectiva de aplicação. iii iv Adicionalmente, neste trabalho, apresentamos, analisamos e reconhecemos a importân- cia dos links recorrentes. Neste caso desenvolvemos um modelo preditivo rápido e es- calável para links recorrentes em fluxos de redes temporais. Uma outra aplicação con- temporânea da análise de rede é a detecção de fraudes. Explorar e aprender os padrões de interação social dos utilizadores em uma rede, promove a identificação de diferentes comportamentos anómalos. Portanto, exploramos essas características para descobrir, in- terpretar e diferenciar os padrões estruturais de utilizadores legítimos de fraudulentos. Por fim, propusemos novas métricas de análise de rede que nos facilitaram a quantificação e caracterização de links nas tarefas anteriormente mencionadas. Keywords: fluxo de grafos. redes dinâmicas. análise de redes sociais. amostragem. esquecimento. links recurrentes. predição de link. deteção de anómalias. Deteção de fraudes Funding Acknowledgements The initial works and experiments referenced in the proposal are financed by the European Commission through MAESTRA (ICT-2013-612944) from May 2015 to Jan 2017. Later works are carried out for the Project TEC4Growth-RL SMILES-Smart, Mobile, Intelli- gent and Large scale Sensing and analytics NORTE-01-0145-FEDER-000020 which is financed by the North Portugal Regional Operational Programme (NORTE 2020), under the PORTUGAL 2020 Partnership Agreement and ERDF – European Regional Develop- ment Fund through the Operational Programme for Competitiveness and International- isation - COMPETE 2020 Programme within project (POCI-01-0145-FEDER-006961). During this research, I was also part of Indo-Portugal Bilateral Scientific and Technolog- ical Cooperation project INT/PORTUGAL/P-15/2017. v vi Acknowledgements All these years of my PhD have a significant impact on my life. I have had new experi- ences, new friends, a different work environment and visited many places. It helped me grow as a researcher and as a human being. I want to thank everyone whom I met in this journey, as everything would not have been so pleasant without the people around me. Most importantly, I would like to express my wholehearted gratitude to Prof. João Gama, who laid the foundation for this Ph.D. thesis and provided me with valuable op- portunities. I always admired his optimistic attitude, social skills and expertise, which made me learn a lot from him. His approach to complex things in a simple and effortless way is absolutely commendable and I also tried to follow it in this thesis. He always gave me constant encouragement with his words, "go ahead" for all the potential ideas I came up with. He often referred to a Portuguese saying, "the only way you can learn to do things is by doing," which I found very inspiring in learning things during this work. I would also like to extend my sincere gratitude to Prof. Augusto Sousa and Prof. Eu- genio Oliveira, who generously welcomed and introduced me to research. I want to thank the exceptional faculty Prof. Joao Moreira, Prof. Carlos Soares, Prof. Rui Camacho, for being my teachers, sharing their knowledge and their availability to