Visual Analysis of Network Traffic – Interactive Monitoring, Detection
Total Page:16
File Type:pdf, Size:1020Kb
Visual Analysis of Network Traffic – Interactive Monitoring, Detection, and Interpretation of Security Threats Dissertation zur Erlangung des akademischen Grades des Doktors der Naturwissenschaften an der Universitat¨ Konstanz im Fachbereich Informatik und Informationswissenschaft Universität Konstanz Universität Konstanz vorgelegt von Florian Mansmann Universität Konstanz Abstract The Internet has become a dangerous place: malicious code gets spread on personal comput- ers across the world, creating botnets ready to attack the network infrastructure at any time. Monitoring network traffic and keeping track of the vast number of security incidents or other anomalies in the network are challenging tasks. While monitoring and intrusion detection systems are widely used to collect operational data in real-time, attempts to manually analyze their output at a fine-granular level are often tedious, require exhaustive human resources, or completely fail to provide the necessary insight due to the complexity and the volume of the underlying data. This dissertation represents an effort to complement automatic monitoring and intrusion detection systems with visual exploration interfaces that empower human analysts to gain deeper insight into large, complex, and dynamically changing data sets. In this context, one key aspect of visual analysis is the refinement of existing visualization methods to improve their scalability with respect to a) data volume, b) visual limitations of computer screens, and c) human perception capacities. In addition to that, developmet of innovative visualization metaphors for viewing network data is a further key aspect of this thesis. In particular, this dissertation deals with scalable visualization techniques for detailed anal- ysis of large network time series. By grouping time series according to their logical intervals in pixel visualizations and by coloring them for better discrimination, our methods enable accurate comparisons of temporal aspects in network security data sets. In order to reveal the peculiarities of network traffic and distributed attacks with regard to the distribution of the participating hosts, a hierarchical map of the IP address space, which takes both geographical and topological aspects of the Internet into account, is proposed. Since visual clutter becomes an issue when naively connecting the major communication partners on top of this map, hierarchical edge bundles are used for grouping traffic links based on the map’s hierarchy, thereby facilitating a more scalable analysis of communication partners. Furthermore, the map is complemented by multivariate analysis techniques for visually studying the multidimensional nature of network traffic and security event data. Especially the interaction of the implemented prototypes reveals the ability of the proposed visualization methods to provide an overview, to relate communication partners, to zoom into regions of interest, and to retrieve detailed information. For an even more detailed analysis of hosts in the network, we introduce a graph-based approach to tracking behavioral changes of hosts and higher-level network entities. This in- formation is particularly useful for detecting misbehaving computers within the local network infrastructure, which can otherwise substantially compromise the security of the network. To complete the comprehensive view on network traffic, a Self-Organizing Map was used to demonstrate the usefulness of visualization methods for analyzing not only structured network protocol data, but also unstructured information, e.g., textual context of email messages. By ii extracting features from the emails, the neuronal network algorithm clusters similar emails and is capable of distinguishing between spam and legitimate emails up to a certain extent. In the scope of this dissertation, the presented prototypes demonstrate the applicability of the proposed visualization methods in numerous case studies and reveal the exhaustless po- tential of their usage in combination with automatic detection methods. We are therefore con- fident that in the fields of network monitoring and security visual analytics applications will quickly find their way from research into practice by combining human background knowl- edge and intelligence with the speed and accuracy of computers. Zusammenfassung Das Internet ist ein gefahrlicher¨ Ort geworden: Schadcode breitet sich auf Personal Computern auf der ganzen Welt aus und schafft damit sogenannte Botnets, welche jederzeit bereit sind, die Netzwerkinfrastruktur anzugreifen. Netzwerkverkehr zu uberwachen¨ und den Uberblick¨ uber¨ die gewaltige Anzahl von sicherheitsrelevanten Vorfallen¨ oder Anomalien im Netzwerk zu behalten sind schwierige Aufgaben. Wahrend¨ Monitoring- und Intrusion-Detection-Systeme weit verbreitet sind, um operationale Daten in Echtzeit zu erheben, sind Bemuhungen,¨ ih- ren Output auf detaillierter Ebene manuell zu analysieren, oftmals ermudend,¨ benotigen¨ viel Personal, oder schlagen vollstandig¨ fehl, die notwendigen Einsichten zu liefern aufgrund der Komplexitat¨ und des Volumens der zugrunde liegenden Daten. Diese Dissertation stellt ein Bestreben dar, automatische Uberwachungs-¨ und Intrusion- Detection-Systeme durch visuelle Explorationsschnittstellen zu erganzen,¨ welche menschliche Analysten befahigen,¨ tiefere Einsichten in riesige, komplexe und sich dynamisch verandernde¨ Datensatze¨ zu gewinnen. In diesem Zusammenhang ist ein Hauptanliegen von visueller Ana- lyse, bestehende Visualisierungsmethoden zu verfeinern, um ihre Skalierbarkeit in Bezug auf a) die Datenmenge, b) visuelle Beschrankungen¨ von Computerbildschirmen und c) die Auf- nahmefahigkeit¨ der menschlichen Wahrnehmung zu verbessern. Daruber¨ hinaus ist die Ent- wicklung von innovativen Visualisierungsmetaphern ein weiteres Hauptanliegen dieser Dok- torarbeit. Insbesondere beschaftigt¨ sich diese Dissertation mit skalierbaren Visualisierungstechniken fur¨ detaillierte Analyse von riesigen Netzwerk-Zeitreihen. Indem Zeitreihen einerseits in Pi- xelvisualisierungen anhand ihrer logischen Intervalle gruppiert werden und andererseits zur verbesserten Abgrenzung eingefarbt¨ werden, erlauben unsere Methoden genaue Vergleiche von temporaren¨ Aspekten in Netzwerk-Sicherheits-Datensatzen.¨ Um die Eigenheiten von Netzwerkverkehr und verteilten Attacken in Bezug auf die Vertei- lung der beteiligten Rechner aufzudecken, wird eine hierarchische Karte des IP Adressraums vorgeschlagen, welche sowohl geographische als auch topologische Aspekte des Internets be- rucksichtigt.¨ Da naives Verbinden der wichtigsten Kommunikationspartner auf der Karte zu storenden¨ visuellen Artefakten fuhren¨ wurde,¨ konnen¨ Hierarchical Edge Bundles dazu ver- wendet werden, die Verkehrsverbindungen anhand der Hierarchie der Karte zu gruppieren, um dadurch eine skalierbarere Analyse der Kommunikationspartner zu ermoglichen.¨ Ferner wird die Karte durch eine multivariate Analysetechnik erganzt,¨ um auf visuelle Art und Weise die multidimensionale Natur des Netzwerkverkehrs und der Daten von sicherheits- relevanten Vorfallen¨ zu studieren. Insbesondere deckt die Interkation der implementierten Pro- totypen die Fahigkeit¨ der vorgeschlagenen Visualisierungsmethoden auf, einen Uberblick¨ zu verschaffen, Kommunikationspartner zuzuordnen, in interessante Regionen hineinzuzoomen, und detaillierte Informationen abzufragen. Fur¨ eine noch detailliertere Analyse der Rechner im Netzwerk, fuhren¨ wir einen graphen- iv basierten Ansatz ein, um Veranderungen¨ im Verhalten von Rechnern und abstrakteren Ein- heiten im Netzwerk zu beobachten. Diese Art von Information ist insbesondere nutzlich,¨ um Fehlverhalten der Rechner innerhalb der lokalen Netzwerkinfrastruktur aufzudecken, welche andernfalls die Sicherheit des Netzwerks betrachtlich¨ gefahrden¨ konnen.¨ Um die umfassende Sicht auf Netzwerkverkehr abzurunden, wurde eine Self-Organizing Map dazu verwendet, die Eignung der Visualisierungsmethoden zur Analyse nicht nur von strukturierten Daten der Netzwerkprotokolle, sondern auch von unstrukturierten Informatio- nen, wie beispielsweise dem textuellen Kontext von Email Nachrichten, zu demonstrieren. Mittels der Extraktion der charakteristischen Eigenschaften aus den Emails, gruppiert der Neuronale-Netzwerk-Algorithmus ahnliche¨ Emails und ist imstande, bis zu einem gewissen Grad zwischen Spam und legitimen Emails zu unterscheiden. Im Rahmen dieser Dissertation demonstrieren die prasentierten¨ Prototypen die breite An- wendbarkeit der vorgeschlagenen Visualisierungsmethoden in zahlreichen Fallstudien und le- gen ihr unerschopfliches¨ Potential dar, in Kombination mit automatischen Intrusion-Detection- Methoden verwendet zu werden. Deswegen sind wir zuversichtlich, dass Visual-Analytics- Anwendungen in den Bereichen Netzwerkuberwachung¨ und -sicherheit schnell ihren Weg aus der Forschung in die Praxis finden werden, indem sie menschliches Hintergrundwissen und Intelligenz mit der Geschwindigkeit und Genauigkeit von Computern kombinieren. Parts of this thesis were published in: [1] Daniel A. Keim, Florian Mansmann, Jorn¨ Schneidewind, and Tobias Schreck. Monitoring network traffic with radial traffic analyzer. In Proceedings of IEEE Symposium on Visual Analytics Science and Technology, pages 123–128, 2006. [2] Daniel A. Keim, Florian Mansmann, Jorn¨ Schneidewind, Jim Thomas, and Hartmut Ziegler. Visual Data Mining: Theory, Techniques and Tools for Visual Analytics, chapter Visual Analytics: Scope and Challenges. Springer, 2008. Lecture Notes in Computer