Assemblierung, Annotation Und Vergleichende Genomik Komplexer Invertebratengenome Am Beispiel Von Radix (Mollusca, Gastropoda)
Total Page:16
File Type:pdf, Size:1020Kb
Assemblierung, Annotation und vergleichende Genomik komplexer Invertebratengenome am Beispiel von Radix (Mollusca, Gastropoda) Dissertation zur Erlangung des Doktorgrades der Naturwissenschaften vorgelegt beim Fachbereich Biowissenschaften der Johann Wolfgang Goethe-Universität in Frankfurt am Main von Tilman Schell aus Plauen Frankfurt am Main 2018 (D30) vom Fachbereich Biowissenschaften der Johann Wolfgang Goethe-Universität als Dissertation angenommen. Dekan: Prof. Dr. Sven Klimpel Institut für Ökologie, Evolution und Diversität Integrative Parasitologie und Tierphysiologie Johann Wolfgang Goethe-Universität D-60438 Frankfurt am Main Gutachter: Prof. Dr. Markus Pfenninger Institut für Organismische und Molekulare Evolutionsbiologie Johannes Gutenberg-Universität Mainz D-55128 Mainz Prof. Dr. Ingo Ebersberger Institut für Zellbiologie und Neurowissenschaften Johann Wolfgang Goethe-Universität D-60438 Frankfurt am Main Datum der Disputation: “. [A] knowledge of sequences could contribute much to our understanding of living matter.” Sanger (1980) Vorbemerkung Die vorliegende Arbeit befasst sich mit Themen der Bioinformatik, deren englische Fach- termini nachfolgend kursiv vom deutschen Fließtext abgehoben sind, falls sie nicht in zusammengesetzten Wörtern auftreten. Zusätzlich werden die Namen verwendeter Soft- ware, Versionsnummern, Parameter, Dateiformate und URLs in Schreibmaschinen- schrift gesetzt. Stammt eine Aufzälung von Informationen aus einer Quelle, wird die entsprechende Referenz direkt vor der Aufzälung genannt und gilt für alle Punkte, falls nicht anderweitig zitiert wird. I II Zusammenfassung Die Analyse von DNA-Sequenzen steht spätestens seit der Feststellung ihrer tragen- den Rolle in der Vererbung organismischer Eigenschaften im Fokus biologischer Fra- gestellungen. Seit Kurzem wird mit modernsten Methoden der sogenannten „nächsten Generation“ (next-generation sequencing) die Untersuchung von kompletten Genomen ermöglicht. Dies eröffnet den Zugang zu genomweiten Informationen gegenüber begrenzt aussagekräftigen markerbasierten Analysen. Eine Genomsequenz ist die ultimative Quel- le an organismischer Information. Allerdings sind diese Informationen oft, bedingt durch technische und biologische Gründe, komplex und werfen meist mehr Fragen auf, als sie beantworten. Die Rekonstruktion einer bislang unbekannten Genomsequenz (de novo Assemblie- rung) aus kurzen Sequenzen (reads) stellt eine technische Herausforderung dar, die mit grundlegenden, aber in der Realität nicht zwingend zutreffenden Annahmen verbunden ist. Außerdem können biologische Faktoren, wie Repeatgehalt oder Heterozygotie, die Fehlerrate einer Assemblierung stark beeinflussen. Die Beurteilung der Qualität einer de novo Assemblierung ist insbesondere durch die Abwesenheit einer Referenzsequenz herausfordernd, aber zugleich äußerst notwendig. Anschließend ist eine strukturelle und funktionale Annotation von Genen, kodierenden Bereichen und repeats nötig, um um- fangreiche biologische Fragestellungen beantworten zu können. Proteinkodierende Gene können durch Alignierung von beobachteten RNA- und Proteinsequenzen als auch durch modellbasierte Vorhersage lokalisiert werden. Auf die Funktion eines Gens kann anschlie- ßend durch Sequenzähnlichkeit zu Genen mit bekannter Funktion geschlossen werden. Ein qualitativ hochwertiges und annotiertes assembly ermöglicht genomweite Analysen von Individuen und Populationen. Beispielsweise können durch Lokalisierung des Ur- sprungs eines reads im Genom (mapping) Varianten identifiziert werden, die wiederum Aufschluss über die Verwandtschaft und evolutionäre Geschichte geben können. Diese Arbeit beinhaltet die Assemblierung und Annotation des Genoms der Süßwasserschnecke Radix auricularia und eine Studie vergleichender Genomik von fünf Radix Individuen aus verschiedenen molekularen Gruppen (MOTUs). Mollusken beherbergen nach den Insekten die größte Artenvielfalt innerhalb der Tierstämme und besiedeln verschiedenste, teils extreme Habitate. Trotz der großen Be- deutung für die Biodiversitätsforschung sind verhältnismäßig wenige genomische Daten öffentlich verfügbar. Zudem sind Arten der Gattung Radix auch aufgrund ihrer großen geografischen Verbreitung in diversen biologischen Disziplinen als Modellorganismen eta- bliert (u. a. Ökotoxikologie, Untersuchung des Klimawandels). Eine annotierte Genom- sequenz ermöglicht über bereits untersuchte Felder hinaus die Forschung an grundle- genden biologischen Fragestellungen, wie z. B. die Funktionsweise von Hybridisierung und Artbildung. Durch Assemblierung und scaffolding von sechs whole genome shotgun III Bibliotheken verschiedener insert sizes und einem transkriptbasiertem scaffolding konn- te trotz des hohen Repeatgehalts ein vergleichsweise kontinuierliches assembly (4.823 scaffolds, N50 579 kb, 6,4 % Lücken) erhalten werden. Die erhebliche Differenz von etwa 700 Mb zwischen der Gesamtlänge der Assemblierung und der geschätzten Genomgrö- ße von 1,6 Gb konnte zum Großteil auf kollabierte repeats zurückgeführt werden. Eine Schätzung des genomweiten Repeatgehalts beläuft sich auf etwa 70 %. Die hohe Qualität wird außerdem durch den großen Anteil von lokalisierten Kern-Orthologen (94,6 %) und der Mappingrate von 97,64 % der reads gegen das assembly unterstützt. Die strukturelle Annotation wurde durch umfangreiche Transkriptome, manuell ku- ratierte Proteine einer Datenbank und artspezifisch trainierte Genvorhersagemodelle ge- leitet. Die resultierenden 17.338 proteinkodierenden Gene decken etwa 12,5 % und deren Exons etwa 1,6 % der geschätzten Genomgröße ab. Durchschnittlich wurden 8,5 Exons pro Gen annotiert. Der Annotation wird u. a. aufgrund beinhaltender Kern-Orthologen, konservierter Proteindomänenarrangements und der Übereinstimmung mit de novo se- quenzierten Peptiden eine hohe Qualität zugesprochen. Das mapping der Sequenzen von fünf Radix MOTUs gegen die R. auricularia Assem- blierung zeigte stark verringerte coverage außerhalb kodierender Bereiche und dadurch geringere Mappingraten der nicht-Referenz MOTUs. Außerhalb kodierender Bereiche wurden vermehrt Varianten — insbesondere Indels — lokalisiert, wodurch die Hypothe- se einer hohen Nukleotiddiversität zusätzlich gestützt wird. Für 16.039 Gene (92,5 % von allen annotierten Genen) konnten Topologien berechnet werden und ein Test auf positi- ve Selektion ausgeführt werden. Von 26 beobachteten Topologien erreicht die Häufigste einen Anteil von 35,3 % und 20 jeweils unter 5 %. Die zweithäufigste Topologie (12,5 %) entspricht der bereits bekannten mitochondrialen Verwandtschaft. Die hohe Nukleotiddi- versität und die Abwesenheit einer absoluten Mehrheit innerhalb der Topologien könnten durch Genfluss, Hybridisierung und daraus folgendem „incomplete linage sorting“ ver- ursacht sein. Insgesamt konnte über alle MOTUs hinweg in 678 verschiedenen Genen positive Selektion detektiert werden, wobei jede MOTU ein nahezu einzigartiges Set po- sitiv selektierter Gene beinhaltet. Lediglich drei Gene weisen in allen MOTUs positive Selektion auf. Von allen 16.039 untersuchten Genen konnten 56,4 % funktional annotiert werden. Diese niedrige Rate wird vermutlich durch Mangel an genomischer Information in Mollusken verursacht. Anschließende Analysen auf Anreicherungen von Funktionen sind deshalb nur bedingt repräsentativ und entsprechende Schlussfolgerungen besitzen eine limitierte Aussagekraft. In Genen mit Spuren positiver Selektion der MOTUs 2, 4 und 5 liegt der „G-protein coupled receptor signaling pathway“ signifikant angereichert vor. Eine signifikante Expansion dieser Genfamilie wurde bereits in den Spiralia beschrie- ben. Diese Rezeptoren ermöglichen Reaktionen auf diverse Umweltstimuli, weshalb eine positive Selektion dieser Gene die Fitness positiv beeinflussen könnte. Neben den biologischen Ergebnissen wurden Methoden und Optimierungen genomi- scher Analysen von Nichtmodellorganismen entwickelt. Dazu zählen eigens angefertigte Skripte, um beipielsweise Transkriptomalignments zu filtern, Trainings eines Genvorher- sagemodells automatisiert und parallelisiert auszuführen und Orthogruppen bestimmter Arten aus einer Orthologievorhersage zu extrahieren. Zusätzlich wurden Abläufe entwi- ckelt, um möglichst viele vorhandene Daten in die Assemblierung und Annotation zu integrieren. Beispielsweise wurde ein zusätzliches scaffolding mit eigens assemblierten Transkripten mehrerer MOTUs sequenziell und phylogenetisch begründet ausgeführt. IV Insgesamt wird eine umfassende und qualitativ hochwertige Genomsequenz eines Süß- wassermollusken präsentiert, welche eine Grundlage für zukünftige Forschungsprojekte z. B. im Bereich der Biodiversität, Populationsgenomik und molekularen Ökologie bietet. Die Ergebnisse dieser Arbeit stellen einen Wissenzuwachs in der Genomik von Mollus- ken dar, welche bisher trotz ihrer Artenvielfalt als deutlich unterrepräsentiert bezüglich assemblierter und annotierter Genome auffallen. V VI Summary The analysis of DNA sequences has been in the focus of biological research since its fundamental role in inheritance of organismic traits had been confirmed. Recent deve- lopment of next-generation sequencing methods enable the study of complete genomes. Genome-wide information provides access to more representative results compared to marker-based studies. A genome sequence is the ultimate source for organismic informa- tion. However, this information is often complex due to technical and biological reasons, which usually raises more questions than answers. The reconstruction of a so far unknown genome sequence (de novo assembly)