Omics Profile Interpretation on Molecular Interaction
Total Page:16
File Type:pdf, Size:1020Kb
Die approbierte Originalversion dieser Dissertation ist an der Hauptbibliothek der Technischen Universität Wien aufgestellt (http://www.ub.tuwien.ac.at). The approved original version of this thesis is available at the main library of the Vienna University of Technology (http://www.ub.tuwien.ac.at/englweb/). Omics profile interpretation on molecular interaction graphs DISSERTATION zur Erlangung des akademischen Grades Doktor der technischen Wissenschaften eingereicht von Raul Fechete Matrikelnummer 0225871 an der Fakultät für Informatik der Technischen Universität Wien Betreuung: Univ.-Prof. Dr. Rudolf Freund Univ.-Doz. Dr. Bernd Mayer Diese Dissertation haben begutachtet: (Univ.-Prof. Dr. Rudolf Freund) (Univ.-Doz. Dr. Bernd Mayer) Wien, 01.10.2012 (Raul Fechete) Technische Universität Wien A-1040 Wien Karlsplatz 13 Tel. +43-1-58801-0 www.tuwien.ac.at Omics profile interpretation on molecular interaction graphs DISSERTATION submitted in partial fulfillment of the requirements for the degree of Doktor der technischen Wissenschaften by Raul Fechete Registration Number 0225871 to the Faculty of Informatics at the Vienna University of Technology Advisors: Univ.-Prof. Dr. Rudolf Freund Univ.-Doz. Dr. Bernd Mayer The dissertation has been reviewed by: (Univ.-Prof. Dr. Rudolf Freund) (Univ.-Doz. Dr. Bernd Mayer) Wien, 01.10.2012 (Raul Fechete) Technische Universität Wien A-1040 Wien Karlsplatz 13 Tel. +43-1-58801-0 www.tuwien.ac.at Erklärung zur Verfassung der Arbeit Raul Fechete Pilgerimgasse 25/13, 1150 Wien Hiermit erkläre ich, dass ich diese Arbeit selbständig verfasst habe, dass ich die verwende- ten Quellen und Hilfsmittel vollständig angegeben habe und dass ich die Stellen der Arbeit - einschließlich Tabellen, Karten und Abbildungen -, die anderen Werken oder dem Internet im Wortlaut oder dem Sinn nach entnommen sind, auf jeden Fall unter Angabe der Quelle als Ent- lehnung kenntlich gemacht habe. (Ort, Datum) (Unterschrift Verfasser) i Acknowledgements I would like to thank my mentors Bernd Mayer and Rudolf Freund for their guidance and expert advice, as well as all my colleagues from emergentec for the great working environment of the past five years. Thank you. iii Abstract Molecular interaction networks are a core concept in Life Sciences - a field of study with the specific focus on integrative information analysis - and an ideal tool for modeling cellular pro- cesses. On the molecular level, cellular processes are the direct cause of phenotype, whether healthy or diseased, and all observable properties of a cell can be traced back to one or more processes. One of today’s main challenges in research is the variability of disease on the process level, meaning similar phenotypes often have different causes. With the advent of the Omics revo- lution, an enormous amount of data relevant in this context has become available, much of it, however, still pending meaningful interpretation. Here we demonstrate two approaches to tackle heterogeneity on the process level, based on Omics data integration on molecular interaction graphs. The first one uses a synthetic lethality network to address heterogeneity in cancer, while the second one uses an extended protein- protein interaction network for overcoming variance towards patient stratification. Our first method demonstrates both in neuroblastoma cell-lines and in human tissue how to find synthetic lethal hubs the knock-down of which would lead to the death of malignant cells. We generalize this method for three additional tumor types and identify relevant hubs including drugs for targeting them. In our second method we propose a novel interaction network holding validated protein- protein interactions and edges additionally inferred from high quality pathway, ontology and domain data. We use this network to investigate diabetic nephropathy from a clinical perspective based on literature, drug, clinical trial and patent information. Subsequently, we introduce the concept of units towards identifying multi-biomarker panels for patient stratification. Our results demonstrate that it is possible through information integration to address biolog- ical variability issues while at the same improving causative interpretability. We assert that the methods presented in this thesis expand the set of available treatment approaches and will prove in the midterm to be a valuable stepping stone towards Systems Medicine. v Kurzfassung Molekulare Interaktionsetzwerke stellen ein Kernkonzept in Life Sciences - ein Forschungs- gebiet dessen Hauptaugenmerk auf der integrativen Informationsanalyse liegt - dar und sind gleichzeitig ein optimales Werkzeug für die Modellierung von zellulären Prozessen. Auf mole- kularer Ebene stellen solche Abläufe die Ursache für den Phänotyp dar und alle Merkmale eines Organismus lassen sich zu einem oder mehreren solchen Prozessen zurückverfolgen. Eine der größten Herausforderungen der heutigen Forschung ist die Variabilität der Erkran- kung auf Prozessebene, dh ähnliche Phänotypen haben oft verschiedene Ursachen. Mit dem Advent der Omics Revolution, ist eine Lawine an relevanten Daten verfügbar geworden, denen jedoch zum Großteil noch eine sinnvolle Interpretation fehlt. In dieser Arbeit werden zwei Ansätze zur Bekämpfung von Heterogenität auf Prozessebene präsentiert, welche auf Omics Datenintegration auf molekularen Interaktionsgraphen basieren. Der erste Ansatz benutzt ein Netzwerk von synthetischen letalen Interaktionen um die Hete- rogenität in der Krebstherapie in den Griff zu bekommen, während der zweite ein erweitertes Protein-Protein Interaktionsnetzwerk verwendet um biologischer Varianz hinsichtlich Patienten- stratifizierung entgegen zu wirken. Die Ergebnisse der ersten Methode zeigen, dass es möglich ist sowohl in Neuroblastom Zell- linien als auch im menschlichen Gewebe synthetisch letale Hubs zu identifizieren, der Knock- down welcher den Tod maligner Zellen herbeiführen würde. Diese Methode wird anschließend für drei weitere Tumorarten verallgemeinert und relevante Hubs und Medikamente werden iden- tifiziert. In der zweiten Methode wird ein neues Interaktionsnetzwerk präsentiert, das einerseits vali- dierte Protein-Protein Interaktionen und andererseits aus hochqualitativen Pathway-, Ontologie- und Domänendaten abgeleitete Kanten enthält. Das Netzwerk wird benutzt um die diabetische Nephropathie aus klinischer Sicht zu durchleuchten. Ein Units-Konzept zur Identifikation von Biomarker Kombinationen zwecks Patientenstratifizierung wird abschließend exemplifiziert. Die Ergebnisse zeigen, dass es durch Informationsintegration möglich ist die biologische Variabilität bei gleichzeitiger Verbesserung der Interpretierbarkeit in den Griff zu bekommen. Wir behaupten, dass die Methoden, die in dieser Arbeit präsentiert wurden, die derzeit verfüg- baren Behandlungsansätze erweitern und sich mittelfristig als wertvoller Schritt in Richtung Systemmedizin erweisen werden. vii Contents 1 Introduction 1 1.1 The Omics revolution: from association to causality . 1 1.2 Biological networks: a step towards causality . 2 General network concepts . 3 Genetic interaction networks . 4 Protein interaction networks . 4 Molecular pathways . 5 Omics integration approaches . 5 1.3 Systems Medicine: are we there yet? . 6 1.4 Thesis scope and goals . 7 2 Genetic interaction networks: synthetic lethality 9 2.1 Why synthetic lethality? . 9 2.2 A synlet-based approach to tackling vincristine resistant neuroblastoma . 12 Concept outline and goals . 12 Materials and methods . 14 Results . 17 Discussion and conclusion . 29 2.3 A generic synlet-based approach to tackling chemoresistance in tumor . 33 Concept outline and goals . 33 Materials and methods . 35 Results and discussion . 39 2.4 Summary of genetic interaction networks . 42 3 Protein interaction networks 43 3.1 A new model for protein interaction networks: omicsNET . 43 Concept outline and goals . 43 Materials and methods . 45 Results . 47 Discussion and conclusion . 54 3.2 A new platform for visualizing molecular information: BIO . 57 Concept outline and goals . 57 Architecture and implementation . 57 ix Summary and outlook . 66 3.3 A network-based in-silico analysis of diabetic nephropathy . 66 Concept outline and goals . 67 Materials and methods . 69 Results . 72 Discussion and conclusion . 78 3.4 A units-based in-silico approach exemplified for diabetic nephropathy . 83 Concept outline and goals . 84 Materials and methods . 86 Results and discussion . 92 3.5 Summary of protein interaction networks . 94 4 Discussion and conclusion 97 Bibliography 99 A Curriculum vitae 121 B Publication list 123 x CHAPTER 1 Introduction 1.1 The Omics revolution: from association to causality The discovery of the deoxyribonucleic acid (DNA) 1953 by Watson and Crick [1] proved to be a major milestone that would revolutionize biology for the years to come. In time, our under- standing of genetics deepened as more became known of the cell. Ribonucleic acids (RNA) and proteins were discovered and the transcription / translation principle of the protein formation was brought to paper. The initial hypothesis of the DNA being a phenotype (the composite of an organism’s ob- servable characteristics) blueprint was validated and with increasing knowledge it became evi- dent that the phenotype was a result of both intrinsic factors such as complex interactions be- tween DNA, RNA, proteins and other compounds in the cell as well as extrinsic, i.e. environ- mental factors. The discovery of the link between cellular processes and phenotype opened new avenues in biological