Phylogeny-Based Analysis of Gene Clusters
Total Page:16
File Type:pdf, Size:1020Kb
Universität Bielefeld Technische Fakultät Phylogeny-based Analysis of Gene Clusters Ph. D. Thesis submitted to the Faculty of Technology, Bielefeld University, Germany for the degree of Dr. rer. nat. by Roland Wittler February 2010 Supervisor: Prof. Dr. Jens Stoye Referees: Prof. Dr. Robert Giegerich Prof. Dr. Jens Stoye Sparsamkeit ist eine Zier, doch weiter kommst du ohne ihr. Gedruckt auf alterungsbeständigem Papier nach DIN-ISO 9706. Printed on non-aging paper according to DIN-ISO 9706. Zusammenfassung Durch die Erforschung von verwandtschaftlichen Beziehungen, der Phylogenie, verschiede- ner Spezies erlangen wir umfassende Informationen über deren Evolution. Ein Ansatz für die Rekonstruktion phylogenetischer Szenarien oder zum Vergleich von Genomen ist die Unter- suchung des Erbguts auf Ebene der DNA-, RNA- oder Proteinsequenzen. Eine weitere Heran- gehensweise ist das Studium der Struktur der Genome. Auf dieser höheren Ebene betrachtet man oft die Reihenfolge der Gene innerhalb des Genoms. Um verschiedene Genome auf die Anordnung der enthaltenen Gene zu abstrahieren, wer- den diese zunächst miteinander verglichen, um zu bestimmen, welche Gene einander ent- sprechen. Anschließend wird jeder dieser Genfamilien ein eindeutiger Bezeichner, z.B. eine Nummer, zugeordnet, so dass schließlich jedes Genom durch eine Abfolge von Genbezeich- nern repräsentiert werden kann. Nimmt man an, dass die zu untersuchenden Genome genau dieselben Gene enthalten und jedes davon genau einmal, so lässt sich die Genfolge formal recht einfach als Permutation modellieren. Diese Einschränkung ermöglicht zwar mathema- tisch elegante und effiziente Analyseverfahren, gibt jedoch die biologische Realität nur selten angemessen wieder. Hingegen führen realistischere Modelle, welche allgemeinere Sequenzen von Genen zulassen, oft zu komplexen Methoden mit inpraktikablen Laufzeiten. Desweiteren berücksichtigen Varianten dieser Modelle auch die Orientierung der Gene, also die Informa- tion auf welchem der beiden DNA-Stränge ein Gen liegt. Evolutionäre Prozesse führen zu strukturellen Veränderungen im Genom und somit zu ei- ner Umordnung der Genfolgen. Die Genzusammenstellung in einigen Bereichen bleibt dabei jedoch erhalten und findet sich in mehreren, verwandten Genomen. Diese Abschnitte mit den darin enthaltenen Genen werden als Gencluster bezeichnet. Studien konnten zeigen, dass sol- che konservierten Regionen oftmals Gene enthalten, deren Funktionen einem gemeinsamen Kontext zuzuordnen sind oder die evolutionär zusammenhängen. So kann das Auffinden und der Vergleich von Genclustern wertvolle Hinweise auf die Funktion oder die evolutionäre Entwicklung von Genen geben. In der Literatur werden zahlreiche formale Definitionen für Gencluster, basierend auf ver- schiedenen Modellen für Genordnungen, diskutiert und analysiert. In dieser Forschungsarbeit wird ein allgemeines Konzept von Genclustern eingeführt, welches einerseits so flexibel ist, dass es eine Vielzahl von Gencluster-Modellen umfasst, aber andererseits konkret genug ist, i um Folgedefinitionen, theoretische Betrachtungen und algorithmische Vorgehensweisen dar- auf aufzubauen. Wenn die Genome mehrerer Spezies denselben Gencluster aufweisen, wurde dieser ver- mutlich von einem gemeinsamen Vorfahren geerbt. Ein Kernpunkt dieser Arbeit ist die Ent- wicklung und Untersuchung einer Methode, welche aus den Genordnungen heute lebender Spezies auf Basis ihrer Phylogenie Gencluster ihrer Vorfahren rekonstruiert. Die Betrachtung von Genclustern in einem evolutionären Zusammenhang gibt Aufschlüsse über die struktu- relle Entwicklung von Genomen, die Evolution von Genclustern im Allgemeinen, aber auch die Entstehung und Entwicklung von bestimmten Genclustern. Ein Kriterium, das für die Rekonstruktion zugrunde gelegt wird, ist das sog. Parsimony- Prinzip (engl. für Sparsamkeit), welches besonders im Kontext der Phylogenie oft Verwen- dung findet. Bei diesem Verfahren wird ein Szenario gesucht, welches die beobachteten Daten mit möglichst wenigen evolutionären Ereignissen erklärt. In diesem Fall sollen den Vorfahr- spezies Gencluster so zugeordnet werden, dass die Anzahl an Neuentstehungen und Verlusten von Clustern, die sich durch das Szenario ergeben würden, minimal ist. Eine solche Zuord- nung lässt sich mit Hilfe bekannter Methoden, z.B. des Fitch-Hartigan-Algorithmus, effizient bestimmen. Abhängig vom verwendeten Modell für die Genordnung und Gencluster, können die auf diese Weise für einen Vorfahren bestimmten Gencluster Widersprüche aufweisen. Das heißt, es gäbe keine in diesem Modell gültige Anordnung von Genen, die alle rekonstruierten Clus- ter enthält. Dies legt ein weiteres Kriterium nahe: die Forderung nach Konsistenz. Die Über- prüfung dieser Eigenschaft ist jedoch eine komplexe Aufgabe. Im Rahmen dieser Arbeit wur- de für verschiedene Modelle überprüft, wie bzw. ob dieses Problem effizient gelöst werden kann. Die Resultate reichen von Algorithmen, welche die Eigenschaft der Konsistenz für das Modell der konservierten Nachbarschaften mit linearem Zeitaufwand prüfen, bis zum Nach- weis der NP-Vollständigkeit für komplexere Modelle, die beweisen, dass die Überprüfung der Konsistenz zu einer Klasse von sehr schwer lösbaren Problemen gehört. Als Zielsetzung der Rekonstruktion wird eine Kombination aus beiden Eigenschaften defi- niert. Unter allen konsistenten Zuordnungen wird eine solche gesucht, welche die Anzahl an Entstehungen und Verlusten von Genclustern minimiert. Es konnte ein wichtiger Zusammen- hang zwischen beiden Kriterien gezeigt werden, auf welchem der entwickelte Rekonstrukti- onsalgorithmus aufbaut. Dieser berechnet exakte Ergebnisse in praktikablen Laufzeiten. Ei- ne umfassende Evaluation auf Basis simulierter Daten zeigte, dass unabhängig vom Modell nahezu alle rekonstruierten Gencluster korrekt waren, und je nach simulierter evolutionärer Distanz der Spezies hinreichend viele der theoretisch vorhandenen Cluster gefunden wurden. Die Anwendung der Methode auf Genomdaten von Coryne-Bakterien unter der Verwen- dung von verschiedenen Genclustermodellen zeigte unter anderem, dass die Ergebnisse nur sehr wenig vom verwendeten Modell abhängen, da die Reihenfolge der Gene in konservierten Bereichen meist vollständig erhalten war. In Zusammenarbeit mit Biologen konnte bestätigt werden, dass die rekonstruierten, evolutionären Szenarien sinnvoll sind. Darüber hinaus konn- te exemplarisch gezeigt werden, dass die erhaltenen Ergebnisse neue Fragestellungen aufwer- fen, auf Fehler in den Eingabedaten hinweisen und für weiterführende Analysen verwendet werden können. ii Abstract The exploration of the ancestral history, the phylogeny, of different species can raise valu- able information about their evolution. One approach for the reconstruction of phylogenetic scenarios or for the comparison of genomes is the examination of the genetic material on the level of the DNA, RNA or protein sequences. Another possibility is to study the genomic structure. On this higher level, one commonly considers the order of the genes within the genome. To abstract different genomes to the arrangement of their contained genes, these are first compared to determine which genes correspond to each other. Then, a unique identifier, for example a number, is assigned to each of the obtained gene families such that, finally, ev- ery genome can be represented by a sequence of gene identifiers. When we assume that all considered genomes contain exactly the same genes and each gene exactly once, gene orders can be formalized simply by permutations. This restriction offers mathematically elegant and efficient analytical methods. However, biological reality can rarely be depicted adequately. On the contrary, more realistic models which allow more general sequences of genes of- ten involve complex methods with impractical running times. Apart from that, variants of these models also incorporate gene orientation, i.e. the information on which of the two DNA strands a gene is located. Evolutionary processes can modify a genome structurally and rearrange its gene order. The gene composition of some regions, however, is preserved and can be found in several related genomes. These segments and the contained genes are denoted as gene clusters. Studies revealed that such conserved regions often comprise functionally or phylogenetically related genes. The identification and comparison of gene clusters can therefore give valuable hints on their function or the evolution of genes. Various formal definitions of gene clusters based on different models of gene order are discussed and analyzed in the literature. In this thesis, we introduce a general concept of gene clusters which, on the one hand, is flexible enough to cover a variety of gene clusters models and, on the other hand, is concrete enough to build the basis for follow-up definitions, theoretical considerations and algorithmical approaches. If the genomes of several species comprise the same gene cluster, it was probably inherited from a common ancestor. A major aim of this project is the development and evaluation of a method that reconstructs ancestral gene clusters from the gene order of contemporary species iii based on their phylogeny. The analysis of gene clusters in an evolutionary context offers clues about the structural development of genomes, the evolution of gene clusters in general, but also about the origin and development of specific clusters. One criterion the reconstruction is based on is the so-called parsimony principle, which is commonly used, especially in the field of phylogenetics.