Bioinformatic Analyses for T Helper Cell Subtypes Discrimination and Gene Regulatory Network Reconstruction
Total Page:16
File Type:pdf, Size:1020Kb
Bioinformatic analyses for T helper cell subtypes discrimination and gene regulatory network reconstruction DISSERTATION zur Erlangung des akademischen Grades Dr. rer. nat. im Fach Informatik eingereicht an der Mathematisch-Naturwissenschaftlichen Fakultät Humboldt-Universität zu Berlin von Dipl.-Inf. Stefan Kröger Präsident der Humboldt-Universität zu Berlin: Prof. Dr.-Ing. habil. Dr. Sabine Kunst Dekan der Mathematisch-Naturwissenschaftlichen Fakultät: Prof. Dr. Elmar Kulke Gutachter: 1. Prof. Dr. Ulf Leser 2. Prof. Dr. Joachim Selbig 3. Prof. Dr. Nils Blüthgen eingereicht am: 28.02.2017 Tag der mündlichen Prüfung: 07.07.2017 Abstract Within the last two decades high-throughput gene expression screening technolo- gies have led to a rapid accumulation of experimental data. The amounts of infor- mation available have enabled researchers to contrast and combine multiple exper- iments by synthesis, one of such approaches is called meta-analysis. In this thesis, we build a large gene expression data set based on publicly available studies for further research on T cell subtype discrimination and the reconstruction of T cell specifc gene regulatory events. T cells are immune cells which have the ability to diferentiate into subtypes with distinct functions, initiating and contributing to a variety of immune processes. To date, an unsolved problem in understanding the immune system is how T cells obtain a specifc subtype diferentiation program, which relates to subtype-specifc gene regulatory mechanisms. We present an assembled expression data set which describes a specifc T cell subset, regulatory T (Treg) cells, which can be further categorized into natural Treg (nTreg) and induced Treg (iTreg) cells. In our analysis we have addressed specifc challenges in regulatory T cell research: (i) discriminating between diferent Treg cell subtypes for characterization and functional analysis, and (ii) reconstructing T cell subtype specifc gene regulatory mechanisms which determine the diferences in subtype-specifc roles for the immune system. Our meta-analysis strategy combines more than one hundred microarray experiments. This data set is applied to a ma- chine learning based strategy of extracting surface protein markers to enable Treg cell subtype discrimination. We identifed a set of 41 genes which distinguish between nTregs and iTregs based on gene expression profle only. Evaluation of six of these genes confrmed their discriminative power which indicates that our approach is suitable to extract candidates for robust discrimination between experiment classes. Next, we identify gene regulatory interactions using existing reconstruction algo- rithms aiming to extend the number of known gene-gene interactions for Treg cells. We applied eleven GRN reconstruction tools based on expression data only and compared their performance. Taken together, our results suggest that the available methods are not yet sufcient to extend the current knowledge by inferring so far unreported Treg specifc interactions. Finally, we present an approach of integrating multiple data sets based on diferent high-throughput technologies to reconstruct a subtype-specifc GRN. We constructed a Th2 cell specifc gene regulatory network of 100 genes. While 89 of these are known to be related to Th2 cell diferentiation, we were able to attribute 11 new candidate genes with a function in Th2 cell difer- entiation. We show that our approach to data integration does, in principle, allow for the reconstruction of a complex network. Future availability of more and more consistent data may enable the use of the concept of GRN reconstruction to improve understanding causes and mechanisms of cellular diferentiation in the immune system and beyond and, ultimately, their dysfunctions and diseases. ii Zusammenfassung Die Etablierung von Hochdurchsatz-Technologien zur Durchführung von Gen- expressionsmessungen führte in den letzten 20 Jahren zu einer stetig wachsende Menge an verfügbaren Daten. Sie ermöglichen durch Kombination einzelner Experi- mente neue Vergleichsstudien zu kombinieren oder Experimente aus verschiedenen Studien zu großen Datensätzen zu vereinen. Dieses Vorgehen wird als Meta-Analyse bezeichnet und in dieser Arbeit verwendet, um einen großen Genexpressionsdaten- satz aus öfentlich zugänglichen T-Zell Experimenten zu erstellen. T-Zellen sind Im- munzellen, die eine Vielzahl von unterschiedlichen Funktionen des Immunsystems inititiieren und steuern. Sie können in verschiedene Subtypen mit unterschiedlichen Funktionen diferenzieren. Der mittels Meta-Analyse erstellte Datensatz beinhaltet nur Experimente zu ei- nem T-Zell-Subtyp, den regulatorischen T-Zellen (Treg) bzw. der beiden Unter- gruppen, natürliche Treg (nTreg) und induzierte Treg (iTreg) Zellen. Eine bisher unbeantwortete Frage lautet, welche subtyp-spezifschen gen-regulatorische Mecha- nismen die T-Zell Diferenzierung steuern. Dazu werden in dieser Arbeit zwei spe- zifsche Herausforderungen der Treg Forschung behandelt: (i) die Identifkation von Zelloberfächenmarkern zur Unterscheidung und Charakterisierung der Subtypen, sowie (ii) die Rekonstruktion von Treg-Zell-spezifschen gen-regulatorischen Netz- werken (GRN), die die Diferenzierungsmechanismen beschreiben. Die implemen- tierte Meta-Analyse kombiniert mehr als 150 Microarray-Experimente aus über 30 Studien in einem Datensatz. Dieser wird benutzt, um mittels Machine Learning Zell-spezifsche Oberfächenmarker an Hand ihres Expressionsprofls zu identifzie- ren. Mit der in dieser Arbeit entwickelten Methode wurden 41 Genen extrahiert, von denen sechs Oberfächenmarker sind. Zusätzliche Validierungsexperimente zeigten, dass diese sechs Gene die Experimenten beider T-Zell Subtypen sicher unterscheiden können. Zur Rekonstruktion von GRNs vergleichen wir unter Verwendung des erstellten Datensatzes 11 verschiedene Algorithmen und evaluieren die Ergebnisse mit Infor- mationen aus Interaktionsdatenbanken. Die Evaluierung zeigt, dass die derzeit ver- fügbaren Methoden nicht in der Lage sind den Wissensstand Treg-spezifscher, re- gulatorsicher Mechanismen zu erweitern. Abschließend präsentieren wir eine Daten- integrationstrategie zur Rekonstruktion von GRN am Beispiel von Th2 Zellen. Aus Hochdurchsatzexperimenten wird ein Th2-spezifsches GRN bestehend aus 100 Ge- nen rekonstruiert. Während 89 dieser Gene im Kontext der Th2-Zelldiferenzierung bekannt sind, wurden 11 neue Kandidatengene ohne bisherige Assoziation zur Th2- Diferenzierung ermittelt. Die Ergebnisse zeigen, dass Datenintegration prinzipiell die GRN Rekonstruktion ermöglicht. Mit der Verfügbarkeit von mehr Daten mit besserer Qualität ist zu erwarten, dass Methoden zur Rekonstruktion maßgeblich zum besseren Verstehen der zellulä- ren Diferenzierung im Immunsystem und darüber hinaus beitragen können und so letztlich die Ursachenforschung von Dysfunktionen und Krankheiten des Immunsys- tems ermöglichen werden. iii Acknowledgement Finishing this PhD was a crucial milestone in my life – with periods of euphoria and despair I am very thankful and happy to have reached this goal. My sincere gratitude goes to my supervisor Prof. Ulf Leser for his constant support, for his thought-provoking impulse and for encouraging me to overcome all scientifc challenges. I gratefully thank Ria Baumgraß for ofering me the entry position into the feld of bioinformatics and immunology as well as for supporting me for so long. My since- re gratitude goes to Prof. Joachim Selbig and Prof. Nils Blüthgen for reviewing my thesis. I am very thankful to my fantastic colleagues at the Humboldt-Universität zu Ber- lin and at the Deutsche Rheuma-Forschungszentrum Berlin for many helpful scientifc discussions, and for their constant support and expertise. My special thanks goes to Samira Jaeger, Karin Zimmermann, Astrid Rheinländer and Philippe Thomas from the HU-Berlin and René Riedel, Melanie Venzke, Manja Jargosch and Martin Karl from the DRFZ. I am so proud to have worked with you all and it is now an honor for me to call you friends. My indescribable thanks go to Katja Grabowski for her support, her help, her pati- ence and her trust in me and in our life together. I could have never made it without her. And last but not least, I would like to sincerely thank my parents, my friends all the people that encouraged me to study, to start this PhD project and to keep going until today. v Contents 1. Introduction1 1.1. Goals and Contributions............................2 1.2. Outline of this Thesis.............................3 1.3. Own prior work.................................4 2. From gene expression to regulation in the immune system7 2.1. The mammalian immune system and immune cells.............7 2.2. T cells and T cell diversity...........................8 2.2.1. Fate determination and diferentiation in T helper cells......9 2.2.2. T helper cell subtypes.........................9 2.3. Gene regulation................................. 12 2.3.1. Gene expression............................ 13 2.3.2. Transcription factors and gene regulation.............. 14 2.4. Technologies and tools for sensing gene expression............. 14 2.4.1. Microarray technology......................... 14 2.4.2. Next generation sequencing...................... 16 3. Meta-analysis of large gene expression experiments from public data reposi- tories 21 3.1. Motivation................................... 22 3.1.1. Key issues for meta-analysis...................... 22 3.2. Data source for building meta expression experiments........... 23 3.2.1. Online data