Simulation in Metabolic Networks

Die approbierte Originalversion dieser Dissertation ist in der Hauptbibliothek der Technischen Universität Wien aufgestellt und zugänglich. http://www.ub.tuwien.ac.at The approved original version of this thesis is available at the main library of the Vienna University of Technology. http://www.ub.tuwien.ac.at/eng Simulation in Metabolic Networks DISSERTATION zur Erlangung des akademischen Grades Doktor der technischen Wissenschaften eingereicht von Christian Siehs Matrikelnummer 9203648 an der Fakultät für Informatik der Technischen Universität Wien Betreuung: Ao. Univ.-Prof. Dr. Rudolf Freund Diese Dissertation haben begutachtet:: _______________________ ________________________ (Ao. Univ.-Prof. Dr. Rudolf Freund) (Univ.Doz. Dr. Bernd Mayer) _______________________ Wien, 28.09.2015 (Christian Siehs) Technische Universität Wien A-1040 ▪ Karlsplatz 13 ▪ Tel. +43-1-58801-01 ▪ www.tuwien.ac.at Simulation in Metabolic Networks DISSERTATION submitted in partial fulfillment of the requirements for the degree of Doktor der technischen Wissenschaften by Christian Siehs Registration Number 9203648 to the Faculty of Informatics at the Vienna University of Technology Advisor: Ao. Univ.-Prof. Dr. Rudolf Freund The dissertation has been reviewed by: _______________________ ________________________ (Ao. Univ.-Prof. Dr. Rudolf Freund) (Univ.Doz. Dr. Bernd Mayer) _______________________ Wien, 28.09.2015 (Christian Siehs) Technische Universität Wien A-1040 ▪ Karlsplatz 13 ▪ Tel. +43-1-58801-01 ▪ www.tuwien.ac.at Erklärung zur Verfassung der Arbeit Christian Siehs Keinergasse 20/1/12, 1030 Wien Hiermit erkläre ich, dass ich diese Arbeit selbständig verfasst habe, dass ich die verwendeten Quellen und Hilfsmittel vollständig angegeben habe und dass ich die Stellen der Arbeit - einschließlich Tabellen, Karten und Abbildungen -, die anderen Werken oder dem Internet im Wortlaut oder dem Sinn nach entnommen sind, auf jeden Fall unter Angabe der Quelle als Entlehnung kenntlich gemacht habe. __________________________ ___________________________ Wien, 28.09.2015 Christian Siehs i “The way to success has no short cuts“ Masahiko Tanaka ii Acknowledgements I would like to express my deep gratitude to Dr. Rudolf Freund and Dr. Bernd Mayer, my research supervisors, for their patient guidance, enthusiastic encouragement and useful critiques of this dissertation work. I would also like to thank all my scientific colleaques who have contributed to the parts of this work during the last years. Finally, I wish to thank my parents for their support and encouragement throughout my studies. iii Abstract Molecular networks pose a challenge to biomedical research due to the complex interaction patterns and the comparably slow progress in identifying and characterizing the biological entities involved. Advances in high-throughput technologies for identifying and quantifying biological entities relevant for describing clinical phenotypes have narrowed the data gap over the last years, resulting in a large amount of heterogeneous biological data. Analysis of this data landscape in a molecular mechanistic context, supported by data management and knowledge discovery technologies, has in the meantime provided network based approaches for discovery of novel diagnostics and therapeutics for addressing unmet clinical needs. This work presents and discusses extensively the advances in molecular network analysis specifically in the realm of Systems Medicine over the last years and gives an overview on network principles, data sources and representation standards and analytical methodologies. Scientific contributions presented in this thesis address specifically (i) modeling of protein- protein interaction networks, (ii) tackling the false negative discovery rate of explorative omics experiments by proposing concepts of predicting relevant biological entities based on graph expansion algorithms and (iii) the practical analysis of omics data utilizing network-based methodologies. The proposed prediction concepts for biological entities take into account our current knowledge of the topology of molecular networks, and are based on vertex neighborhood as well as minimum spanning trees. As a result, a novel algorithm was developed for efficiently calculating a connecting spanning tree over a subset of selected vertices of a graph with low but not necessarily minimal overall edge weight. These prediction concepts as well as other network based methodologies were then applied to the analysis of omics data characterizing ovarian cancer, mesothelial cells stress response, and angiogenesis in brain metastasis, providing additional insight regarding their underlying molecular mechanisms. The complexity of network analysis remains challenging, nurturing research in life sciences as well as computer science. While the analysis of omics data with network methodologies sheds light on molecular mechanisms, the insights gained on natural network topologies and mechanisms further the design and analysis of networks in general. Analysis concepts and algorithms presented in this work serve as general approaches for omics data integration and analysis in the biomedical research area. iv Kurzfassung Molekulare Netzwerke stellen seit jeher aufgrund ihrer komplexen Interaktionsmuster und des vergleichbar langsamen Fortschritts bei der Identifizierung und der Charakterisierung von biologischen Entitäten für die biomedizinische Forschung eine Herausforderung dar. Fortschritte im Bereich der Hochdurchsatzverfahren zur Identifizierung und Quantifizierung von biologischen Entitäten mit Relevanz für die Beschreibung von klinischen Phenotypen haben die Datenkluft über die letzten Jahre verkleinert. Daraus resultieren große Mengen an heterogenen biologischen Daten. Die Analyse dieser Datenlandschaft in einem molekularen mechanistischen Kontext, unterstützt durch Technologien des Datenmangements und der Wissensgewinnung, hat in der Zwischenzeit netzwerkbasierte Methoden für die Entdeckung von neuen Diagnostika und Therapeutika für den klinischen Bedarf hervorgebracht. In dieser Arbeit werden die Fortschritte der letzten Jahre im Bereich molekularer Netzwerke im Detail und speziell für die Systemmedizin präsentiert. Des weiteren gibt sie einen Überblick über Netzwerkprinzipien, Datenquellen sowie Datenstandards und analytische Methoden. Die in dieser Arbeit vorgestellten wissenschaftlichen Beiträge addressieren spezifisch (i) Modellierung von Protein-Protein Interaktionsnetzwerken, (ii) Strategien für die falsch- negative Entdeckungsrate von explorativen Omics-Experimenten unter Vorstellung von Konzepten zur Vorhersage weiterer relevanter biologischer Entitäten, basierend auf Graphenexpansionsalgorithmen und (iii) die angewandte Analyse von Omics-Daten mittels netzwerkbasierten Methoden. Die vorgestellten Konzepte zur Vorhersage von biologischen Entitäten berücksichtigen unser derzeitiges Wissen über die Topologie von molekularen Netzwerken und basieren auf Nachbarschaft von Knoten, sowie minimalen Spannbäumen. Daraus resultiert ein neuer Algorithmus zur effizienten Berechnung eines verbindenden Spannbaums über ein Subset von Knoten eines Graphen mit geringem, aber nicht notwendigerweise minimalem Kantengewicht. Diese Vorhersagekonzepte wurden gemeinsam mit weiteren netzwerkbasierten Methoden für die Analyse von Omics-Daten zur Charakterisierung von Ovarialkarzinom, Stressantwort in Mesothelzellen und Angiogenese in Hirnmetastasen angewandt, welche zusätzliche Erkenntnis zu deren zugrundeliegenden Mechanismen hervorbrachte. Die Komplexität von Netzwerkanalysen ist nach wie vor eine Herausforderung und bietet ausgiebige Forschungsmöglichkeiten sowohl für die Lebenswissenschaften als auch die v Computerwissenschaften. Während die Analyse von Omics-Daten mittels Netzwerkmethoden Licht auf die molekularen Mechanismen wirft, erweitern die Erkenntnisse über Topologien und Mechanismen natürlicher Netzwerke das Design und die Analyse von Netzwerken im Allgemeinen. Die hier angewandten Analysekonzepte und Algorithmen stellen eine allgemeine Basis für die Omics-Datenintegration und die Analyse in der biomedizinischen Forschung dar. vi Table of Contents Introduction ........................................................................................................................ 1 CHAPTER 1 On networks ................................................................................................. 3 Introduction .......................................................................................................................................... 3 Molecular biological network types ...................................................................................................... 6 Protein interaction networks ............................................................................................................. 7 Methods for detecting protein-protein interactions ....................................................................... 8 Metabolic networks ........................................................................................................................... 9 Genetic/Transcription regulatory networks ...................................................................................... 10 Methods for constructing genetic regulatory networks ................................................................ 10 miRNA regulatory networks ............................................................................................................. 10 Methods for constructing miRNA

Simulation in Metabolic Networks

Practical Parallel Hypergraph Algorithms

Practical Parallel Hypergraph Algorithms

Adjacency Matrix

Introduction to Graphs

9 the Graph Data Model

List Representation: Adjacency List – N Rows of the Adjacency Matrix Are

Package 'Igraph'

Review Article Empirical Comparison of Visualization Tools for Larger-Scale Network Analysis

An XML-Based Description of Structured Networks

Note: Nonlinear Data Structures Do Not Have Their Elements in a Sequence

Chapter 12 Graphs and Their Representation

Data Structure for Representing a Graph: Combination of Linked List and Hash Table