Iptv Log Events Profiling
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE INFORMÁTICA IPTV LOG EVENTS PROFILING Francisco José Lopes Lameira Mestrado em Segurança Informática Dezembro 2010 UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE INFORMÁTICA IPTV LOG EVENTS PROFILING Francisco José Lopes Lameira Tese orientada pelo Prof. Doutor Hyong Kim e co-orientada pelo Prof. Doutor António Casimiro Mestrado em Segurança Informática Dezembro 2010 Resumo O objectivo central da análise de logs é adquirir novos conhecimentos que ajudem os administradores de sistemas a compreender melhor o modo como os seus sistemas estão sendo usados. As redes de telecomunicações constituem uma das áreas onde a quantidade de dados de log registados é enorme e onde, na maioria das vezes, apenas uma ínfima parte desses dados é analisada. Isso coloca importantes perguntas a um gestor de rede: Devem continuam a registar esses dados? Existe alguma informação relevante que possa ser extraída a partir desses dados? Os métodos para a extrair já existem? Poderemos melhorar a operação e a gestão, se essa informação estivesse disponível? Só após responder a estas perguntas é que um gestor pode decidir o que fazer com um log de dados que consuma imensos recursos. A finalidade principal do nosso trabalho é analisar o tipo de informações adicionais que possam ser extraídas dos arquivos de log dos servidores de uma plataforma de IPTV. O nosso foco específico é tentar compreender se é possível determinar quais as sequências de eventos que são despoletadas na plataforma quando um cliente executa uma determinada acção. Essas sequências são desconhecidas para nós e não são documentadas pelo fornecedor de software. Para este trabalho escolhemos a sequência de “arranque" que o utilizador despoleta quando inicializa a sua set‐top‐box (STB). Caracterizamos totalmente essa sequência de pedidos web services que uma STB realiza durante a fase de arranque e autenticação na plataforma IPTV. De seguida, desenvolvemos um método que pode ser aplicado automaticamente para isolar essas sequências nos logs de dados em bruto. Esse método começa por definir o evento de início e depois tenta identificar o evento final da sequência aplicando um conjunto de regras empíricas definidas por nós. Todos os eventos entre aqueles dois constituem a sequência e, embora a maioria deles sejam mandatórios, existem alguns eventos que ocorrem apenas em certos casos, devido às características particulares de cada STB. Finalmente, e depois de isolar as sequências, realizamos uma análise estatística a fim de validar a exactidão do nosso método de identificação/isolamento. A metodologia é desenvolvida e avaliada utilizando um conjunto de dados reais de uma plataforma de IPTV pertencente a uma empresa de telecomunicações. Os resultados confirmam que o método escolhido pode produzir um resultado com um alto nível de precisão, tendo em conta as características específicas dos dados de entrada. Com o conhecimento adicional que este método pode extrair dos logs de dados, os gestores e os engenheiros de rede podem caracterizar melhor os vários utilizadores que estão usando a plataforma, estabelecendo perfis típicos para as sequências de eventos e isolando as sequências anormais para que as mesmas possam ser alvo de análise adicional em termos técnicos ou de segurança. Palavras‐chave: Análise de logs IPTV, correlação de logs de servidores, sequenciação de eventos, eventos periódicos e únicos, sequência de arranque de STB I Abstract The central goal of log analysis is to acquire new knowledge which will help systems administrators to better understand how their systems are being used. Telecommunications networks are one of those areas where the amount of logged data is huge and, most of the times, only parts of it are analyzed. That presents big questions to a network manager: Should they continue to log the data? Is there any relevant information that can be extracted from that data? The methods to extract it already exist? Could operations and management be improved if that information was available? Only by answering these questions can a manager decide what to do with the logging of data that consumes lots of resources. The main objective of our work is to analyze what type of additional information can be extracted from the server log files of an IPTV platform. Our specific focus is in trying to understand if it is possible to determine what sequences of events are triggered at the platform when a client executes a certain action. These sequences are unknown to us and are not documented by the software provider. For this work, we choose the “boot‐up action” that the user performs when he powers‐on his set‐top‐box (STB). We fully characterize that sequence of web service requests that an STB performs while booting up and logging into the IPTV platform. Then, we develop a method that can be automatically applied to isolate those sequences in the logs raw data. This method starts by defining the start event and then tries to identify the sequence’s end event by applying a set of empirical rules defined by us. The events in between constitute the sequence and while most of them are mandatory there are some events that only occur in certain cases due to the characteristics of a particular STB. Finally, after isolating the sequences, we perform a statistical analysis in order to validate the accuracy of our identification/isolation method. The methodology is developed and evaluated using a real dataset from a telecommunications company’s IPTV platform. The results confirm that the chosen method can produce an output with a high level of accuracy, taking into account the specific characteristics of the input logs data. With the additional knowledge that this method can extract from the logs data, network managers and engineers can better characterize the many users that are using the platform, establishing the typical sequence of events profiles and isolating the anomalous ones for further inspection focused both on technical and security concerns. Keywords: IPTV logs analysis, server logs correlation, events sequencing, periodic and one‐time events, STB boot‐up sequence II Acknowledgments I would like to thank Professor Hyong Kim for his guidance and advice. His experience in ensuring a focus was essential to guarantee that the thesis was doable in the available timeframe. I would also like to thank Professor António Casimiro for helping in making this document a better reading experience. To my colleagues from MSIT‐IS class of 2009/2010, for all the friendship and mutual motivation, with a special note to the ones who adventured with me to Pittsburgh. To João Ferreira for all the long Internet chat discussions and advice. To my family and friends who provided encouragement. I hope you did not forget me by now. A very special thanks to Ana’s parents for all their support and patience. III IV Dedicated to Ana and our girls V VI Contents 1 Introduction ....................................................................................................................................1 1.1 Motivation .............................................................................................................................1 1.2 Contributions.........................................................................................................................1 1.3 Report structure ....................................................................................................................2 2 Background .....................................................................................................................................3 2.1 IPTV platform.........................................................................................................................3 2.1.1 High‐Level Architecture.....................................................................................................3 2.1.2 Servers...............................................................................................................................4 2.1.3 Service Groups ..................................................................................................................4 2.1.4 Definitions .........................................................................................................................5 2.2 Summary................................................................................................................................5 3 Related work ...................................................................................................................................7 3.1 Transactional log analysis......................................................................................................7 3.2 Other researched techniques................................................................................................7 3.3 Our approach.........................................................................................................................8 4 Dataset..........................................................................................................................................11 4.1 Dataset characteristics ........................................................................................................11 4.1.1 Limitations.......................................................................................................................13 4.1.2 Pre‐processing.................................................................................................................13