Behavioral Pattern Detection Using Compact and Fast Methods
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDADE TÉCNICA DE LISBOA INSTITUTO SUPERIOR TÉCNICO Behavioral Pattern Detection using Compact and Fast Methods Nuno Filipe Lopes Homem Supervisor: Doctor João Paulo Baptista de Carvalho Thesis approved in public session to obtain the PhD Degree in Electrical and Computer Engineering Jury final classification: Pass with Merit Jury Chairperson: Chairman of the IST Scientific Board Members of the Committee: Doctor THOMAS ALFRED RUNKLER, Honorary Professor, Technical University of Munich, Germany Doctor PEDRO MANUEL URBANO DE ALMEIDA LIMA, Professor Associado (Com Agregação), Insituto Superior Técnico, Universidade Técnica de Lisboa Doctor JOÃO MIGUEL DA COSTA SOUSA, Professor Associado (Com Agregação), Insituto Superior Técnico, Universidade Técnica de Lisboa Doctor PEDRO ALEXANDRE MOGADOURO DO COUTO, Professor Auxiliar, Escola de Ciência e Tecnologia, Universidade de Trás-os-Montes e Alto Douro Doctor NUNO CAVACO GOMES HORTA, Professor Auxiliar, Insituto Superior Técnico, Universidade Técnica de Lisboa Doctor JOÃO PAULO BAPTISTA DE CARVALHO, Professor Auxiliar, Instituto Superior Técnico, Universidade Técnica de Lisboa November 2011 Behavioral Pattern Detection using Compact and Fast Methods Abstract This work proposes algorithms and methods for individual behavior detection within very large populations. One will consider domains where individual behavior presents some stable characteristics over time, and where the individual actions can be observed through events in a data stream. Event patterns will be characterized and used as a proxy to individual behavior and actions. As in many domains, behavior does not remain static but evolves over time; one will therefore consider the sliding window model, making the assumption that behavior is stable during the considered time window. This work will cover the detection of the specific characteristics of the individual and what distinguishes his behavior from that of all other individuals. Algorithms must have minimal memory footprint and scalability to cope with huge number of individuals. Providing and keeping results up to date in near real time is also a goal, as information is only useful for limited periods in many situations. Fortunately, approximate answers are usually adequate for most problems. Some fast and compact methods for diversity analysis will be introduced both for unlimited time and for the sliding window model. Innovative algorithms will be proposed to describe and characterize the individual event patterns. Those algorithms will then be used to create an individual event fingerprint. Using that fingerprint one will be able to identify the individual even when the identification information is not available. Distinct uses of the fuzzy fingerprint concept will be presented for individual identification that might also be extended to specific behavior identification, classification, profiling, etc., with examples in several domains such as internet traffic analysis, telecommunications fraud detection and text authorship analysis. Key-words : approximate algorithms, distinct counts, frequent elements, top-k elements, behavior patterns, fuzzy fingerprints, similarity, behavior identification iii Detecção de Padrões de Comportamento com Métodos Rápidos e Compactos Resumo Este trabalho propõe métodos e algoritmos para detecção de comportamentos individuais em populações de grande dimensão. São considerados domínios em que o comportamento individual apresenta características relativamente estáveis ao longo do tempo e onde as acções de cada indivíduo podem ser observadas como eventos sucessivos. O padrão individual de eventos será utilizado como uma aproximação ao comportamento e acções do indivíduo. Dado que em diversos domínios o comportamento não se mantém inalterado ao longo do tempo, será considerado o modelo de janela temporal, assumindo que durante essa janela o comportamento se mantém estável. As características específicas do padrão de eventos de cada indivíduo serão aqui determinantes, dado que são essas diferenças e não os aspectos em comum que o distinguem dos demais indivíduos. Os algoritmos propostos apresentam uma utilização mínima de espaço e a escalabilidade necessária a lidar com populações de grandes dimensões. Os resultados são calculados e mantidos actualizados, tanto quanto possível, quase em tempo real. São consideradas respostas aproximadas dado que estas são suficientes na generalidade das situações. Apresentam-se alguns métodos rápidos e compactos de análise de diversidade para tempo ilimitado e para janelas temporais. São introduzidos novos algoritmos para descrever e caracterizar os padrões individuais de eventos e proposto um método de criação de impressões digitais difusas. Utilizando esta impressão digital será possível identificar o indivíduo pelo seu comportamento mesmo quando a sua identificação não está disponível. São apresentadas diversas utilizações destas impressões digitais para identificação de indivíduos que poderão depois ser estendidas à identificação de comportamentos específicos, classificação, caracterização de perfis, etc, em diversos domínios tais como; análise de tráfego Internet, detecção de fraude em telecomunicações e análise de autoria de textos. Palavras-chave : algoritmos aproximados, contagem de elementos distintos, elementos frequentes, elementos top-k, padrões de comportamento, impressões digitais difusas, semelhança, identificação comportamental v Agradecimentos Aos meus pais pela educação que me proporcionaram, à Susana pelo suporte, animo e paciência que sempre me deu e ao João Paulo por me ter lançado e ajudado neste desafio. vii Contents 1 Introduction ..................................................................................................................................... 1 1.1 Motivation ............................................................................................................................... 6 1.1.1 Approximate and fuzzy answers ..................................................................................... 7 1.1.2 Large scale individual behavior challenge ....................................................................... 8 1.1.3 The behavior pattern model ......................................................................................... 11 1.2 Areas of Interest .................................................................................................................... 12 1.3 Structure of the Thesis .......................................................................................................... 13 1.4 Contributions of this work ..................................................................................................... 15 2 State of the Art .............................................................................................................................. 17 2.1 Feature extraction using approximate algorithms ................................................................ 19 2.2 Behavioral pattern identification .......................................................................................... 21 2.3 Nearest Neighbor and Fingerprints ....................................................................................... 24 2.4 Summary ............................................................................................................................... 27 3 Optimizing a Detection Process .................................................................................................... 29 3.1 Concrete case ........................................................................................................................ 30 3.2 Detection system representation .......................................................................................... 33 3.3 The full system representation ............................................................................................. 36 3.4 Solving this problem .............................................................................................................. 38 3.5 Examples ................................................................................................................................ 41 3.5.1 Single decision problem ................................................................................................ 41 3.5.2 Multiple decision problem ............................................................................................ 42 3.6 Conclusions ............................................................................................................................ 42 4 Dispersion Analysis with Compact Algorithms .............................................................................. 45 4.1 Introduction ........................................................................................................................... 45 ix 4.2 Typical behavior of mobile phone users ............................................................................... 48 4.3 Using a Probabilistic Counter (PC) for a fixed time window dispersion indicator ................ 51 4.4 Bloom Counters ..................................................................................................................... 52 4.5 Evaluating Distinct Count Estimators .................................................................................... 55 4.6 The need for sliding window indicators ................................................................................ 56 4.7 Decaying Probabilistic Counter (PD) ....................................................................................