Large Scale Plastomics Approaches for the Study of Evolution and Adaptive Signatures in Angiosperms
Total Page:16
File Type:pdf, Size:1020Kb
Large scale plastomics approaches for the study of evolution and adaptive signatures in angiosperms Dissertation der Fakultät für Biologie der Ludwig-Maximilians-Universität München vorgelegt von Huan Li München, 2017 Diese Dissertation wurde angefertigt unter der Leitung von Prof. Dr. Dario Leister im Bereich von Fakultät für Biologie an der Ludwig-Maximilians-Universität München Erstgutachter: Prof. Dr. Dario Leister Zweitgutachter: Prof. Dr. Wolfgang Frank Tag der Abgabe: 24 August 2017 Tag der mündlichen Prüfung: 9 November 2017 Erklärung Ich versichere hiermit an Eides statt, dass meine Dissertation selbständig und ohne unerlaubte Hilfsmittel angefertigt worden ist. Die vorliegende Dissertation wurde weder ganz, noch teilweise bei einer anderen Prüfungskommission vorgelegt. Ich habe noch zu keinem früheren Zeitpunkt versucht, eine Dissertation einzureichen oder an einer Doktorprüfung teilzunehmen. München, den 24 August 2017 Huan Li Summary Chloroplasts are the centers of photosynthesis in plant cells and harbor their own genome. Until recently, the study of the organization and evolution of chloroplast genomes was limited by the dearth of sequence information. Nowadays, the next generation sequencing (NGS) technology provides the possibility to make use of large sets of sequencing data in phylogenetic and evolutionary studies, especially for chloroplast DNA. However, the molecular mechanisms of plastid genome evolution and its relevance for environmental adaptation remain poorly understood. This study contributes to filling this gap by providing and analyzing a large number of protein coding sequences (CDS) of chloroplasts in flowering plants. More than 1,100 representatives of wild species from an alpine flora were subjected to sequencing of high-copy number genes using a shotgun approach on genomic DNA. The major results obtained are: 1) At the genus level, the phylogenetic reconstruction of 34 taxa of Aquilegia provided a basic assessment of the relationships among Eurasian taxa through two datasets. Thereby, chloroplast genes with lower guanine-cytosine (GC) content and GC content at the third position of codon encoded genes with higher amino acid polymorphisms. 2) At the family level, 71 chloroplast CDS from 95 species in the Brassicaceae family were used to reconstruct their phylogenetic relationships and analyze the patterns of molecular evolution characterizing them. A total of 33 genes were found to be under positive selection. Overall, three major phylogenetic lineages (I-III) were defined in this study. 3) Different computational approaches were used for detection of natural selection in 11 families. The chloroplast CDSs, analyzed family by family, showed patterns of molecular evolution consistent with increased rates of average positive selection for a limited number of genes. Among them, rbcL was inferred as being under positive selection in 8 of the 11 families considered, indicating recurrent functional selection. A total of 46 branches in the 11 family-level phylogenies showed patterns of molecular evolution consistent with positive selection, and in general the patterns of selection were mostly consistent with directional rather than relaxed selection. Five selected families were analyzed to test whether the ratio between non-synonymous and synonymous nucleotide changes significantly differed between low and high altitude taxa, and four genes showed patterns of positive selection differentially associated with altitude. Besides, this study further assessed whether these results might be affected by RNA- editing. Taken together, this thesis provides a successful large-scale application of NGS technology for the elucidation of molecular evolution patterns at different levels of angiosperms phylogeny, and offers a new view on the structural and functional features of the chloroplast genome and its relationships with adaptation in wild plant species. i Zusammenfassung Chloroplasten sind die Zentren der Photosynthese in Pflanzenzellen und besitzen ein eigenes Genom. Bis vor kurzen wurde die Untersuchung der Organisation und Evolution von Plastiden-Genomen durch die eingeschränkte Verfügbarkeit genetischer Information limitiert. Heutzutage bietet die “Next Generation Sequencing (NGS)“ Technologie die Möglichkeit, große Mengen von Sequenzierungsdaten für phylogenetische und evolutionäre Studien zu nutzen, insbesondere von Chloroplasten-DNA. Allerdings sind die molekularen Mechanismen, die die plastidäre Genomevolution vorantreiben, und deren Relevanz für Adaptionsvorgänge weitgehend unverstanden. Das Ziel dieser Arbeit war diese Wissenslücke durch die Identifizierung und Analyse der Protein-kodierenden Sequenzen (CDS) von Chloroplasten aus Blütenpflanzen zu schließen. Mit Hilfe einer “Shot Gun“ Genomsequenzierung wurden von mehr als 1.100 repräsentativen Wildarten aus einer alpinen Flora die Gene mit hoher Kopienzahl sequenziert. Die wichtigsten Ergebnisse waren: 1) Durch die phylogenetische Rekonstruktion von 34 Taxa von Aquilegia mit Hilfe von zwei Datensätzen konnte auf der Gattungsebene die Beziehungen zwischen eurasischen Taxa grundlegend bewertet werden. Dabei kodieren chloroplastidäre Gene mit geringem Guanin-Cytosin (GC)-Gehalt und geringerem GC-Gehalt an der dritten Position des Codons für Proteine mit erhöhtem Anteil von Aminosäurepolymorphismen. 2) Auf Familienebene wurden 71 Chloroplasten CDS von 95 Arten in der Familie Brassicaceae verwendet, um ihre phylogenetischen Beziehungen zu rekonstruieren und die Muster der zugrundeliegenden molekularen Evolution zu analysieren. Dabei wurden insgesamt 33 Gene gefunden, die positiver Selektion ausgesetzt sind. Insgesamt wurden in dieser Studie drei große phylogenetische Linien (I-III) definiert. 3) Verschiedene bioinformatische Ansätze wurden verwendet, um natürliche Selektion bei 11 verschiedenen Familien nachzuweisen. Jede Familie wurde bezüglich ihrer chloroplastidären CDS untersucht und eine Reihe von Gene mit erhöhter positiver Selektion gefunden. Darunter war das rbcL Gen, das bei 8 der 11 Familien positiver Selektion ausgesetzt ist, was auf eine wiederkehrende funktionale Selektion hinweist. Insgesamt 46 Äste in den 11 Familien-Phylogenien zeigten Muster molekularer Evolution auf, die mit positiver Selektion übereinstimmten, und im Allgemeinen waren die Selektionsmuster meist im Einklang mit gerichteter Selektion. Fünf ausgewählte Familien wurden daraufhin untersucht, ob das Verhältnis zwischen nicht-synonymer und synonymer Nukeotidaustausche sich signifikant zwischen Taxa aus unterschiedlicher Höhenlagen unterscheidet und es wurden vier solcher Gene gefunden. Außerdem wurde untersucht, ob diese Ergebnisse durch RNA-Editierung beeinflusst werden könnten. Zusammengefasst leistet diese Arbeit eine erfolgreiche groß angelegte Anwendung der NGS-Technologie zur Aufklärung von molekularen Evolutionsmustern auf ii verschiedenen Ebenen der Angiospermen-Phylogenie und bietet neue Einsichten in strukturelle und funktionellen Merkmale des Chloroplastengenoms und seiner Beziehungen zur Adaption bei Wildpflanzen. iii iv Contents Summary .............................................................................................................................. i Zusammenfassung............................................................................................................... ii List of figures ................................................................................................................... viii List of tables ....................................................................................................................... ix Abbreviations ...................................................................................................................... x 1. Introduction ..................................................................................................................... 1 1.1 The angiosperms .................................................................................................... 1 1.1.1 Description of angiosperms ........................................................................... 1 1.1.2 Important genera and families in angiosperms for this study ........................ 2 1.1.2.1 The Aquilegia genus ............................................................................... 2 1.1.2.2 The Brassicaceae family ........................................................................ 2 1.1.2.1 Other important families ........................................................................ 3 1.2 The chloroplast ...................................................................................................... 4 1.2.1 Description of the chloroplast ........................................................................ 4 1.2.2 General characteristics of the chloroplast genome ........................................ 5 1.2.3 Advance in chloroplast genome sequencing technology ............................... 7 1.3 Phylogenetic studies of plastomes ......................................................................... 9 1.3.1 Systematic phylogeny studies in angiosperms............................................... 9 1.3.2 Current phylogenetic studies in the Aquilegia genus................................... 11 1.3.3 Current phylogenetic studies in the Brassicaceae family ............................ 11 1.4 Molecular evolutionary studies of plastomes ...................................................... 12 1.4.1 The driving forces of evolution ..................................................................