Msc Thesis TCP Empirical Analysis
Total Page:16
File Type:pdf, Size:1020Kb
Master of Science Thesis Empirical analysis of traffic to establish a flow termination time-out Leipzig, November 2012 presented by Juan Molina Rodríguez Electronic Engineering Student directed by Ralf Hoffman Ipoque GmbH supervised by Josep Solé Pareta and Valentín Carela Español Abstract The inspection of contents of packets flowing on the Internet, also called Deep Packet Inspection (DPI), is the main technology used for traffic classification and anomaly searching due to its reliability and accuracy. During the last years, the evolution on the Internet has led to a deep incursion in many scenarios of DPI and several applications based on it. The exponential increase in bandwidth on the Internet has made the DPI on-line mode a highly exigent task. This technology has the responsibility of facing large amounts of data in real time, which supposes a big challenge. To achieve this task, it is a must to optimize the process involved on it. This implies not only an efficient software usage but also to exploit the hardware elements. For that reason both the scientific and private community have become interested in recent years in optimizing this technology in several aspects (e.g. searching of patterns or specific hardware architectures). Delving into that topic, it is important to consider the memory usage since it is not an unlimited resource. To properly carry out an analysis of the traffic, DPI uses several parameters which have to be stored while the connections or flows are alive. Thus, in order to improve this process, it is necessary to know what is the expected time-out for a flow to finish and therefore delete its related information from memory. Hence, to achieve this purpose, this MSc Thesis is aimed to perform an empirical analysis of real Internet traffic. In order to obtain representative results two completely different traces have been analysed, one captured in the core of a big ISP network and the other in a mobile operator scenario, near the edge. It brings not only more reliability to the results, but also serves to characterize these two very different scenarios. From that samples, a broad set of parameters have been found out. Although many of them are not directly related with the final target, they provide a comprehensive characterization of real traffic behaviour. Results like the proportion of traffic classified by groups, the RTT, the time between packets or the finalization statistics are exposed and briefly analysed, obtaining some interesting results from them. Although there are some studies covering specific issues exposed here, this work is, to the knowledge of the author, unique in the field of profiling the traffic by protocol groups. Based on these results, and as a main purpose of this work, it has been exhaustively elaborated a time-out study considering the transport protocol (i.e. TCP and UDP) by protocol group and globally for all the traffic. From that results it has been proven over a commercial DPI tool (the Ipoque’s PACE engine) that their standard global time-out can be reduced up to three times (initially was set up at 600 seconds) without almost affecting the detection rate and effort, but reducing the memory requirements by 60%. This time-out can be even lower depending on the network characteristics. Moreover, it has also been evaluated the time- out for the subscriber information. It is not as critical as the flow one, but it is also worthy and coherent to optimize this value in order to achieve a better memory saving. Altogether, it has the benefits of allowing more flows and subscribers to be studied, or requiring less memory blocks, which would imply power and cost saving. In addition, with the results obtained from this MSc Thesis further work could be developed in several fields, like network security or protocol design, for instance. III Resumen del Proyecto La inspección de contenidos que circulan por Internet, también conocida Deep Packet Inspection (DPI), es la principal tecnología utilizada para la clasificación de tráfico y búsqueda de anomalías, debido a su fiabilidad y precisión. Durante los últimos años, la evolución en Internet ha dado lugar a una profunda incursión de DPI y varias aplicaciones basadas en éste en muchos escenarios. El aumento exponencial de ancho de banda en Internet ha hecho del análisis on-line una tarea muy exigente. Esta tecnología tiene la función de hacer frente a grandes cantidades de datos en tiempo real, lo cual supone un gran reto. Para lograr esta tarea, es necesario optimizar el proceso involucrado, lo cual implica no sólo un uso eficiente de software sino también aprovechar los elementos hardware. Por esta razón, tanto la comunidad científica como la privada, se han interesado en los últimos años en la optimización de éste campo en varios aspectos (e.g. búsqueda de patrones o arquitecturas de hardware específicas). Indagando en este asunto, es importante tener en cuenta el uso de memoria, ya que no es un recurso ilimitado. Para llevar a cabo un correcto análisis del tráfico, DPI utiliza varios parámetros que deben ser almacenados mientras que las conexiones o flujos están activos. Por lo tanto, con el fin de mejorar este proceso, es necesario saber cuál es el tiempo esperado para que un flujo finalice y por lo tanto eliminar su información en memoria. Por ello, este proyecto tiene como objetivo realizar un análisis empírico sobre tráfico real de Internet. A fin de obtener resultados representativos, han sido analizadas dos trazas completamente diferentes, una capturada en el núcleo de un gran ISP y la otra en el ámbito de un operador de móvil, cerca del borde de la red. Esto aporta más fiabilidad a los resultados y sirve para caracterizar estos dos escenarios. Se han estudiado un amplio conjunto de parámetros. Aunque muchos de ellos no están directamente relacionados con el objetivo final, proporcionan una caracterización del comportamiento del tráfico. Resultados como la proporción de tráfico por grupos, los RTT, el tiempo entre paquetes o las estadísticas del modo de finalización se exponen y se analizan brevemente, obteniendo algunos resultados interesantes. Aunque hay algunos trabajos que abarcan temas específicos expuestos aquí, este trabajo es, para el conocimiento del autor, único en el campo de clasificar el tráfico por grupos de protocolos. Con base en estos resultados, y como objetivo principal de este trabajo, se ha elaborado un exhaustivo estudio de time-outs, teniendo en cuenta el protocolo de transporte (e.g. TCP o UDP), por grupos de protocolo y global para todo el tráfico. Los resultados se han evaluado con una herramienta DPI comercial (PACE de Ipoque). Su time-out global se puede reducir hasta tres veces (inicialamente establecido en 600 segundos) sin verse casi alterada la detección, pero reduciendo los requisitos de memoria en un 60%. Este tiempo de espera puede ser incluso menor en función de las características de la red. Por otra parte, también se ha evaluado el time-out para la información de abonado. Éste no es un factor tan crítico como time-out de flujos, pero también es útil y coherente optimizarlo con el fin de lograr un mayor ahorro de memoria. Con todo, se consigue permitir el estudio de más flujos y abonados, o que se requieran menos bloques de memoria, lo que implicaría un ahorro de potencia y costes. Además, con los resultados obtenidos en este trabajo podrían ahondarse otros aspectos, como la seguridad de la red o el diseño del protocolos, por ejemplo. IV Resum del Projecte La inspecció de continguts que circulen per Internet, també coneguda com Deep Packet Inspection (DPI), és la principal tecnologia utilitzada per a la classificació de trànsit i recerca d’anomalies, per la seva fiabilitat i precisió. Durant els últims anys, l’evolució a Internet ha donat lloc a una profunda incursió de DPI i diverses aplicacions basades en aquest en molts escenaris. L’augment exponencial d’ample de banda a Internet ha fet l’anàlisi on-line una tasca molt exigent. Aquesta tecnologia té la funció de fer front a grans quantitats de dades en temps real, la qual cosa suposa un gran repte. Per aconseguir aquesta tasca, cal optimitzar el procés involucrat, la qual cosa implica no només un ús eficient de software sinó també aprofitar els elements hardware. Per això, tant la comunitat científica com la privada, s’han interessat en els últims anys en l’optimització d’aquest camp en diversos aspectes (e.g. recerca de patrons o arquitectures hardware específiques). Indagant en aquest assumpte, és important tenir en compte l’ús de memòria, ja que no és un recurs il˚ulimitat. Per dur a terme una correcte anàlisi del trànsit, DPI utilitza diversos paràmetres que han de ser emmagatzemats mentre que les connexions o fluxos estan actius. Per tant, per tal de millorar aquest procés, cal saber quin és el temps esperat perquè un flux finalitzi i per tant eliminar la seva informació en memòria. Per això, aquest projecte té com a objectiu realitzar un anàlisi empíric sobre trànsit real d’Internet. Per tal d’obtenir resultats representatius, han estat analitzades dues traces completament diferents, una capturada en el nucli d’un gran ISP i l’altra en l’àmbit d’un operador de mòbil, prop de la vora de la xarxa. Això aporta més fiabilitat als resultats i serveix per caracteritzar aquests dos escenaris. S’han estudiat un ampli conjunt de paràmetres. Encara que molts d’ells no estan directament relacionats amb l’objectiu final, proporcionen una caracterització del comportament del trànsit. Resultats com la proporció de trànsit per grups, els acrshort rtt, el temps entre paquets o les estadístiques de la manera de finalització s’exposen i s’analitzen breument, obtenint alguns resultats interessants.