Evolutionary Epigenomics – Identifying Functional Genome Elements by Epigenetic Footprints in the Dna
Total Page:16
File Type:pdf, Size:1020Kb
EVOLUTIONARY EPIGENOMICS – IDENTIFYING FUNCTIONAL GENOME ELEMENTS BY EPIGENETIC FOOTPRINTS IN THE DNA DISSERTATION ZUR ERLANGUNG DES GRADES DES DOKTORS DER NATURWISSENSCHAFTEN DER NATURWISSENSCHAFTLICHEN -TECHNISCHEN FAKULTÄTEN DER UNIVERSITÄT DES SAARLANDES EINGEREICHT VON LARS FEUERBACH SAARBRÜCKEN , 2014 Tag des Kolloquiums: 16.1.2014 Dekan der Fakultät: Prof. Dr. Mark Groves Vorsitzender des Prüfungsausschusses: Prof. Dr. Gerhard Weikum Gutachter: Prof. Dr. Dr. Thomas Lengauer Prof. Dr. Jotun Hein Beisitzer: Dr. Glenn Lawyer ii Abstract Over the last decade, advances in genome sequencing have substantially increased the amount of genomic DNA sequences available. While these rich resources have improved our understanding of genome function, research of the epigenome as a transient but heritable memory system of the cell has only profited from this development indirectly. Although epigenetic information in the form of DNA methylation is not directly encoded in the genomic nucleotide sequence, it increases the mutation rate of cytosine-guanine dinucleotides by the CpG decay effect, and thus leaves epigenetic footprints in the DNA. This thesis proposes four approaches to facilitate this information for research. For largely uncharacterized genomes, CgiHunter presents an exhaustive algorithm for an unbiased DNA sequence-based annotation of CpG islands as regions that are protected from CpG decay . For species with well characterized point mutation frequencies, EqiScore identifies regions that evolve under distinct DNA methylation levels. Furthermore, the derived equilibrium distributions for methylated and unmethylated genome regions predict the evolutionary robustness of transcription factor binding site motifs against the CpG decay effect. The AluJudge annotation and underlying L-score provide a method to identify putative active copies of CpG-rich transposable elements within genomes. Additionally, epigenetic footprints in these sequences are applied to predict the germline epigenome of their loci. Moreover, AluJudge provides support for the targeted removal of epigenetically silenced repeat copies from CpG island annotations, which are subjected to a methylation-induced erosion process. Finally, the FFK approach enables the prediction of the germline methylome for homologous genome loci. In a number of case studies on the human genome, I demonstrate how this evolutionary epigenomics toolkit can be applied to enhance the epigenomic characterization of the large quantity of currently sequenced vertebrate genomes. Furthermore, these studies show how to improve the identification of novel epigenetic functional genome regions in already well characterized species. Finally, the toolkit opens new avenues for computer- based research of the evolution of genome-wide DNA methylation. iii Kurzfassung In den letzten Jahrzehnten haben Fortschritte in der Genom-Sequenzierung zu einem substanziellen Zuwachs an verfügbaren DNS-Sequenzen geführt. Während diese Ressourcen zu einem verbesserten Verständnis der Funktionsweise von Genomen führten, konnte die Erforschung des Epigenoms als veränderlichem und doch vererbbarem zellulärem Informationsspeicher nur indirekt von dieser Entwicklung profitieren. Obwohl epigenetische Information nicht direkt in Form von genomischen Nukleotid-Sequenzen kodiert wird, sind beide Systeme derart miteinander verflochten, dass gemeinsame evolutionäre Abhängigkeiten einen epigenetischen Fußabdruck in der genomischen DNS erzeugen. In dieser Arbeit werden vier Ansätze vorgestellt, um diese bisher weitgehend unerforschte Informationsquelle zu erschließen. Gleichsam einem Werkzeugkasten für Probleme der Evolutionären Epigenomik , bieten sie für eine Vielzahl verschiedener Szenarien eine Auswahl von einsetzbaren Methoden an. Für weitgehend uncharakterisierte Genome ermöglicht CgiHunter , als kombinatorisch präziser Algorithmus, die auf der DNS-Sequenz basierende Identifikation von CpG Inseln, welche als Zentren von epigenetischer Regulation in Wirbeltier-Genomen bekannt sind. Für Spezies in denen bereits Modelle der Punktmutationshäufigkeit existieren, können Dinukleotid-Gleichgewichtsverteilungen eingesetzt werden. Sie bieten über den EqiScore -Ansatz die Möglichkeit, Genomregionen zu identifizieren, die unter einem erhöhten DNS methylierungs Nieveau evolvieren. Des Weiteren ermöglichen sie eine Vorhersage der evolutionären Robustheit von Transkriptionsfaktor-Bindestellen gegenüber dieser epigenetischen Einflüsse. Komplementär dazu bietet die AluJudge Annotation und der ihr zugrundeliegende L- Score für Genome mit CpG-reichen transponierenden Elementen einen Weg, unter ihnen potentiell aktive Kopien zu identifizieren. Darüber hinaus können diese Sequenzen als positions-spezifische Sonden des Keimbahn-Epigenoms eingesetzt werden. Auch unterstützt der L-Score die gezielte Entfernung von jenen mehrheitlich epigenetisch inaktiven Regionen aus CpG-Insel-Annotationen, welche einem methylierungs- induziertem Erosions-Prozess unterworfen sind. Zuletzt wird der FFK-Algorithmus, als ein phylogenetischer Ansatz beschrieben, der für nahe verwandte Spezies, wie jene des Primaten-Stammbaums, eine Vorhersage des Keimbahnmethyloms für beliebige Genomregionen ermöglicht. In einer Reihe von Fallstudien an Hand des menschlichen Genoms, demonstriere ich im Anschluss, die Funktionalität dieser bioinformatischen Werkzeuge. Zum Einen ermöglichen sie die Identifizierung von neuen epigenetisch kontrollierten Regionen im menschlichen Genom. Zum Anderen dienen sie als Beispiel für die epigenomische in- silico Charakterisierung der Vielzahl von bald verfügbaren Vertebraten-Genomen. Zuletzt wird das Potential dieser neuen Ansätze für die computerbasierte Erforschung der evolutionären Entwicklung von genomeweiter DNS-Methylierung thematisiert. iv Acknowledgments First, I would like to thank my supervisor Thomas Lengauer for his advice and support during all stages of my PhD studies. I also want to thank Jotun Hein for accompanying me on one of the most important parts of this endeavor as well as for his readiness to act as a reviewer for this thesis. Furthermore, I would like to thank Alice McHardy for her comments on the manuscript. A special word of thanks goes to my office mates Konstantin Halachev and Yassen Assenov for the countless discussions on epigenetics, bioinformatics and this thesis. Also, I want to thank Christoph Bock for our work together during the development of the CgiHunter algorithm. Furthermore, Rune Lyngsø and Glenn Lawyer shared their knowledge of phylogenies and statistics with me, which enabled the solution of some central questions regarding the evolution of the CpG dinucleotide. Moreover, I want to thank Sandra Koser for our joint work on the FFK approach and her assistance in visualizing the associated concepts. Many thanks also to Barbara Hutter and Jasmina Bogojeska for their helpful comments on the manuscript of this thesis. Furthermore, I would like to thank the members of Jörn Walter’s epigenetics lab and my colleagues from the MPI for the lively interaction between the in vivo and in silico scientists, which makes Saarbrücken a unique place for conducting epigenomic research. Finally, I want to thank my wife Elke and my family for their support. v Table of Contents List of Figures................................................................................................................... ix List of Tables..................................................................................................................... xi Introduction....................................................................................................................... 1 A bioinformatical metaphor for epigenome function and evolution............................... 2 Outline............................................................................................................................. 5 Chapter 1 – An introduction to evolutionary epigenomics ........................................... 6 1.1 Basic genome function.............................................................................................. 7 1.2. Epigenetics............................................................................................................... 9 1.2.1 DNA methylation............................................................................................... 9 1.2.2 Enzymes related to DNA methylation ..............................................................11 1.2.3 CpG decay........................................................................................................ 13 1.2.4 Evolutionary origins of DNA methylation....................................................... 14 1.2.5 CpG islands...................................................................................................... 16 1.2.6 Histones and their modifications ..................................................................... 19 1.2.7 Computational epigenetics and epigenetic footprints in DNA ........................ 20 1.2.8 Summary.......................................................................................................... 21 1.3 Genome evolution................................................................................................... 22 1.3.1 Substitution models.......................................................................................... 23 1.3.2 Selection........................................................................................................... 25 1.3.3 Comparative genomics....................................................................................