Engineering Graph Clustering Algorithms

Engineering Graph Clustering Algorithms zur Erlangung des akademischen Grades eines Doktors der Naturwissenschaften der Fakultät für Informatik des Karlsruher Instituts für Technologie (KIT) genehmigte Dissertation von Andrea Kappes aus Schwäbisch Hall Tag der mündlichen Prüfung: 28. April 2015 Erster Gutachter: Prof. Dr. Dorothea Wagner Zweiter Gutachter: Prof. Dr. Ulrik Brandes Acknowledgments First of all, I would like to thank my advisor Dorothea Wagner for giving me the possibil- ity to work in her group. Among many things, I am especially grateful for her patience, encouragement, and support during the last year, making it possible for me to finish my dissertation after my son was born. My work as a PhD student would have been much more cumbersome and boring without all of my former and current colleagues. In particular, I would like to thank all coauthors of my publications for the good discussions and fruitful cooperation. Special thanks go to Robert Görke for introducing me to the concepts behind graph clustering and teaching me how to write scientific texts. A big thank-you goes to Tanja Hartmann, Andreas Gemsa, and Markus Völker for proof-reading parts of this thesis and giving valuable feedback. Furthermore, I would like to thank Lilian Beckert, Elke Sauer, Bernd Giesinger and Rolf Kölmel for their friendly help with administrative tasks and technical issues, Ulrik Brandes for willingly taking over the task to review this thesis, and David Bader for giving me the opportunity to visit his group at Georgia Tech. Finally, I would like to thank everyone that supported and encouraged me outside the office, especially my parents and my husband André. It is still a mystery to me how Andrémanaged to find time to proof-read parts of this thesis somewhere in between changing diapers and cooking delicious meals to keep me well-nourished in the last phase of the write-up. Last but not least, thanks are due to my son Johann who always managed to brighten me up with his smiles and who reminded me from time to time what life is all about. iii Deutsche Zusammenfassung Netzwerke im Sinne von Objekten, die in Beziehung zueinander stehen, sind allge- genwärtig. Paradebeispiele sind soziale Netzwerke, die Beziehungen zwischen Individuen modellieren, seien es Freundschaftsbeziehungen in Online-Communities wie Facebook oder Google+ oder persönliche Netzwerke, die Freunde, Arbeitskollegen oder Familien- angehörige verbinden. Aber auch in vielen anderen Zusammenhängen treten Netzwerke auf: Produkte können miteinander gekauft werden, Proteine miteinander interagieren oder wissenschaftliche Publikationen andere Artikel zitieren, um nur einige Beispiele zu nennen. In vielen Bereichen kommt dabei dem Begriff einer dicht vernetzten Gruppe eine semantisch beachtenswerte Bedeutung zu. In den oben genannten Netzwerken können solche Gruppen Freundeskreisen, Gruppen ähnlicher Produkte, funktionellen Gruppen von Proteinen oder Wissenschaftsbereichen entsprechen. Auf einer abstrakten Ebene werden Netzwerke als Graphen modelliert und dicht vernetz- te Gruppen Cluster genannt. Grob gesprochen liegt dem Begriff Cluster zugrunde, dass der damit verbundene Teilgraph viele Kanten enthält und es gleichzeitig wenige Kanten gibt, die Knoten im Cluster mit dem restlichen Graphen verbinden. Da dieses Paradig- ma vergleichsweise vage ist, existieren verschiedene Formalisierungen, die versuchen, die Gute¨ einer Clusterung zu quantifizieren. In der vorliegenden Arbeit werden im Wesentlichen zwei verschiedene Ansätze betrachtet. Der erste bemisst Clusterungen anhand der der Dunne¨ der durch die Cluster in- duzierten Schnitte, während der zweite Ansatz sich mit der Optimierung des Maßes Surprise [5] beschäftigt. Schnittbasiertes Clustern. Eines der grundlegenden Probleme der Algorithmik ist die Bestimmung eines minimales Schnittes in einem Graphen, das heißt, einer Zerlegung des Graphen in zwei Teile, die mit einer minimalen Anzahl Kanten verbunden sind. Ein naiver Algorithmus zum Clustern von Graphen könnte dies benutzen, um den Graphen iterativ anhand von minimalen Schnitten zu zerlegen, so dass möglichst wenige Kanten getrennt werden. In der Praxis erweisen sich minimale Schnitte jedoch als problematisch, da diese oftmals nur einen oder weniger Knoten vom Rest des Graphen trennen. Des- halb empfehlen sich fur¨ Algorithmen zum Clustern von Graphen Maße, die die Größe der einzelnen Teile miteinbeziehen, wie die conductance, expansion oder density eines Schnittes. Aufbauend auf diesen Schnittmaßen können konkrete Separiertheitsmaße de- finiert werden, die bemessen, wie gut die einzelnen Cluster voneinander getrennt sind; dies bringt allerdings mehrere Freiheitsgrade mit sich. Im ersten Teil der Arbeit werden systematisch alle möglichen Kombinationen dieser Freiheitsgrade untersucht, was zu einer Familie von Maßen fur¨ die Separiertheit von v vi Clustern fuhrt.¨ Wir betrachten das generische Problem, die Separiertheit der Cluster zu optimieren und gleichzeitig eine Gutegarantie¨ an die Dichte der einzelnen Cluster nicht zu unterschreiten. Dazu wird eine agglomerative Heuristik fur¨ distanzbasiertes Clustern betrachtet [204], die in jedem Schritt zwei Cluster mit minimaler Distanz vereinigt und untersucht, inwieweit sich effiziente Algorithmen fur¨ diese Heuristik auf das Clustern von Graphen ubertragen¨ lassen. Um diese Frage zu beantworten, werden Eigenschaften identifiziert, die das dabei verwendete Gutemaß¨ erfullen¨ muss und die betrachteten Maße im Hinblick auf diese Eigenschaften klassifiziert. Die Intuition hinter dem betrachteten Optimierungsproblem ist, dass die schnittbasier- ten Maße große Cluster bevorzugen, die nur durch wenige Kanten verbunden sind, wo- hingegen Garantien an die Dichte leichter durch die Erzeugung vieler kleiner Cluster zu erfullen¨ sind. Fur¨ alle vorgeschlagenen Maße wird untersucht, ob diese Intuition zu- treffend ist, indem uberpr¨ uft¨ wird, ob bei der Verwendung agglomerativer Heuristiken lokale Optima auftreten können. Diese theoretischen Betrachtungen werden durch eine umfassende, empirische Studie ergänzt. Ein Vergleich der erwähnten Heuristik mit einer zweiten Heuristik, die im We- sentlichen auf dem Verschieben von Knoten und Teilmengen von Knoten zwischen Clus- tern basiert, zeigt, dass die letztere oft zu besserer Qualität fuhrt.¨ Im zweiten Teil der Experimente wird untersucht, wie sich die Wahl der verwendeten Maße fur¨ die Sepa- riertheit von Clustern und die Dichte der einzelnen Cluster auf die Anzahl der Cluster, die Clustergrößenverteilung und das Verhalten in Hinblick auf synthetische Daten mit einer eingepflanzten Clusterstruktur auswirkt. Surprise. Einen anderen Ansatz zum Clustern von Graphen liefern Clustermaße, die auf einem Nullmodell basieren. Die Idee ist hierbei, zu einem gegebenen Graphen und einer gegebenen Clusterung einen Zufallsgraphen auf derselben Knotenmenge zu betrachten, der einige Eigenschaften des Ausgangsgraphen beibehält. Nun wird die tatsächliche Anzahl der Kanten innerhalb von Clustern mit demselben Wert auf dem Zufallsgraphen verglichen. Ist dieser Wert wesentlich höher, als zu erwarten wäre, ist die Clusterung gut an den Graphen angepasst. Ein Clustermaß, das auf diesem Prinzip basiert und das von einer Reihe oft benutzter Algorithmen optimiert wird, ist die Modularity einer Cluste- rung [173]. Ein verwandtes, relativ neues Maß ist Surprise, das die Wahrscheinlichkeit minimiert, dass mindestens so viele Kanten zufällig innerhalb von Clustern erzeugt werden wie tatsächlich beobachtet werden. Experimentelle Studien [5, 7, 8] liefern Indizien dafur,¨ dass dieses Maß einige der in letzter Zeit aufgekommenen Kritikpunkte an Mo- dularity wie den Hang zu uberm¨ äßig großen Clustern in großen Graphen nicht zu teilen scheint. Der zweite Teil der Arbeit widmet sich sowohl der Komplexität des Problems, eine Clus- terung mit optimaler Surprise zu finden als auch praktischen Algorithmen, um dieses Problem zu lösen. Aufbauend auf der Beobachtung, dass Optimallösungen bezuglich¨ Sur- prise immer Pareto-optimal bezuglich¨ der Maximierung der Anzahl der Kanten und der Minimierung der Anzahl der Knotenpaare innerhalb von Clustern ist, wird gezeigt, dass das assoziierte Entscheidungsproblem -vollständig ist, Optimallösungen in Graphen NP mit konstanter Baumbreite jedoch mit polynomieller Laufzeit gefunden werden können. Aus praktischer Sicht werden Methoden vorgeschlagen, die eine optimale Lösung auf kleinen Instanzen mit Hilfe von ganzzahligen linearen Programmen berechnen, sowie Algorithmen betrachtet, die heuristisch gute Lösungen fur¨ große Graphen finden. Beide vii Ansätze werden experimentell evaluiert und mit einer bereits bestehenden Metaheuris- tik [9] verglichen. Zusätzlich wird ein neues Clustermaß abgeleitet und diskutiert, das Eigenschaften von Modularity und Surprise miteinander kombiniert. Generierung von Testinstanzen. Wie bei allen algorithmischen Fragestellungen stellt sich bei der Evaluierung von Algorithmen zum Clustern von Graphen die Frage nach geeigneten Testinstanzen. Um die praktische Anwendbarkeit eines Algorithmus zu belegen, eignen sich hierzu in erster Linie Echtweltdaten aus verschiedenen Anwendungs- bereichen. Es gibt jedoch auch eine Reihe von Grunden,¨ die fur¨ die (zusätzliche) Verwen- dung von synthetischen Graphen sprechen. Synthetische Graphen können ublicherweise¨ in jeder beliebigen Größe generiert werden, was hilfreich in Verbindung mit Skalier- barkeitsstudien ist. Weiterhin ermöglichen es Graphgeneratoren, einen Algorithmus

Engineering Graph Clustering Algorithms

Strong Triadic Closure in Cographs and Graphs of Low Maximum Degree

Complexity of the Cluster Deletion Problem on Subclasses of Chordal Graphs∗

Graph-Based Data Clustering with Overlaps

Subgraph Complementation Fedor V

Cluster Deletion on Interval Graphs and Split Related Graphs Athanasios L

Extremal Questions in Graph Theory

On the Relation of Strong Triadic Closure and Cluster Deletion

Survey on Graph Algorithms Parameterized by Edge Edit Distances?

Cluster Deletion on Interval Graphs and Split Related Graphs

A Graph Modification Approach for Finding Core–Periphery Structures in Protein Interaction Networks Sharon Bruckner1, Falk Hüffner2 and Christian Komusiewicz2*

Complexity and Approximation of Some Graph Modi Cation Problems

Graph Modification Problems and Their Applications to Genomic Research