Bioinformatic Approaches for Structural Analysis of Plant Genomes
Total Page:16
File Type:pdf, Size:1020Kb
FACULTY OF SCIENCE AND CEITEC Bioinformatic approaches for structural analysis of plant genomes Ph.D. Thesis Petra Hloušková Supervisor: Prof. Mgr. Martin Lysák, Ph.D., DSc. NCBR and CEITEC Brno 2020 Bibliographic Entry Author: Mgr. Petra Hloušková Faculty of Science, Masaryk University National Centre for Biomolecular Research Laboratory of Functional Genomics and Proteomics CEITEC – Masaryk University Mendel Centre for Plant Genomics and Proteomics Martin Lysák Research group Title of Thesis: Bioinformatic approaches for structural analysis of plant genomes Degree programme: Biochemistry Field of Study: Genomics and Proteomics Supervisor: Prof. Mgr. Martin Lysák, Ph.D., DSc. Academic Year: 2019/2020 Number of Pages: 186 Keywords: Plant genome; Genome size variability; Repetitive DNA; Transposable elements; Retrotransposons; Tandem repeats; Chloroplast DNA; Phylogenetics; Assembly; Repeat identification; Next generation sequencing Bibliografický záznam Autor: Mgr. Petra Hloušková Přírodovědecká fakulta, Masarykova univerzita Národní centrum pro výzkum biomolekul Laboratoř funkční genomiky a proteomiky CEITEC – Masarykova univerzita Mendelovo centrum genomiky a proteomiky rostlin Výzkumná skupina Martina Lysáka Název práce: Aplikace bioinformatických přístupů pro analýzu struktury rostlinných genomů Studijní program: Biochemie Studijní obor: Genomika a proteomika Vedoucí práce: prof. Mgr. Martin Lysák, Ph.D., DSc. Akademický rok: 2019/2020 Počet stran: 186 Klíčová slova: Rostlinný genom; Variabilita ve velikosti genomu; Repetitivní DNA; Transpozibilní elementy; Retrotranspozony; Tandemové repetice; Chloroplastová DNA; Fylogenetika; Assembly; Identifikace repetic; Sekvenování nové generace Abstract Land plants are well known for their extensive genome size variation. The genome size range is primarily caused by polyploidy and/or proliferation of repetitive sequences. In addition to the nuclear genome, plant cells contain extranuclear, chloroplast and mitochondrial genomes. In particular, chloroplast sequences are useful to resolve the phylogenetic relationships at different taxonomic levels. The first aim of the thesis was to conduct the phylogenetic analyses to obtain and resolve intratribal relationships within the Hesperis clade, one of the major lineages in the mustard family (Brassicaceae), and to date the diversification in this clade using whole-chloroplast sequences retrieved from low-pass Illumina sequence data. It was confirmed that the Hesperis clade is a well-supported monophyletic lineage with Miocene tribal diversification. The second aim of the thesis was to explain the cause(s) of genome size variation in the diploid representatives of the Hesperis clade, containing the largest nuclear genomes in the mustard family. Using low-pass NGS data and bioinformatics tools for repeat identification, we aimed to identify qualitative and quantitative differences in the repeat content between the analyzed Hesperis-clade genomes. In the absence of recent whole- genome duplication events, we wanted to know whether these genomes are composed of a large number of different repetitive sequences, or of a single or few repeat families amplified to high copy numbers. Our results show that genome obesity has been caused by proliferation of LTR retrotransposons. We were also interested in the identification of tandem repeats, mainly centromeric- specific satellites. Assembly of centromeric regions still represents a difficult and challenging bioinformatic task, however, newly developed approaches using low-pass sequence data have made the identification of satellite DNA feasible. We were able to in silico identify putative satellite sequences, which were used to identify (peri)centromeric chromosome regions in the Arabideae species (Brassicaceae). Abstrakt Vyšší rostliny jsou známé svou extrémní variabilitou ve velikosti genomu, způsobenou buďto polyploidií a/nebo proliferací repetitivních sekvencí. Kromě jaderného genomu rostlinné buňky obsahují extranukleární, chloroplastové a mitochondriální genomy. Zejména chloroplastové sekvence představují užitečný zdroj informací pro řešení fylogenetických vztahů na různých taxonomických úrovních. Prvním cílem této dizertační práce bylo provedení fylogenetických analýz za účelem získání a vyřešení fylogenetických vztahů v rámci kladu Hesperis, jedné z hlavních vývojových linií čeledi brukvovitých (Brassicaceae), a datovat diverzifikaci této linie pomocí chloroplastových sekvencí získaných z low-pass Illumina sekvenačních dat. Bylo prokázáno, že klad Hesperis představuje monofyletickou linii, která se diverzifikovala v období miocénu. Druhým cílem této dizertační práce bylo vysvětlit podstatu největších diploidních jaderných genomů v kladu Hesperis. S využitím dat sekvenování nové generace a bioinformatických nástrojů pro identifikaci repetitivních sekvencí jsme se snažili odpovědět na to, jak se kvalitativně a kvantitativně liší obsah repetitivních sekvencí mezi analyzovanými genomy kladu Hesperis. Jelikož u analyzovaných genomů nedošlo k recentní duplikaci celého genomu, zajímalo nás, zda se tyto genomy skládají z velkého počtu různých repetitivních sekvencí nebo z několika málo rodin repetic mnohonásobně amplifikovaných. Výsledky práce prokazatelně ukazují, že „obezita” genomů v kladu Hesperis byla způsobena proliferací LTR retrotranspozonů. Zaměřili jsme se také na identifikaci tandemových repetic, zejména centromerických satelitů. Sestavení centromerických oblastí stále představuje obtížný a náročný bioinformatický úkol, avšak nově vyvinuté přístupy využívající sekvenační data nové generace umožňují snadnější identifikaci satelitní DNA. Podařilo se nám in silico identifikovat satelitní sekvence, které byly následně použity k identifikaci (peri)centromerických chromozomových oblastí u druhů tribu Arabideae (čeleď brukvovitých). Acknowledgements I would like to thank my supervisor Professor Martin A. Lysák for his guidance, support, extraordinary patience throughout my long studies and for the opportunity to work in his research group. I would like to sincerely thank Dr. Terezie Mandáková for her support and fruitful discussions. Her passion for work was a great inspiration for me to continue and complete this work. I would also like to thank Milan Pouch for his helpful remarks and his help with probe design. I am grateful to all my colleagues from the Martin Lysak Research group for a great working and friendly atmosphere. I wish to express my gratitude to my family and friends, they have been a great support for me. In particular, I wish to thank Řehoř Šiška for his endless and incredible inspiration in life. This work was supported by Czech Ministry of Education, Youth and Sports within the program INTER‐EXCELLENCE (project no. LTAUSA17002), by the CEITEC 2020 project (grant no. LQ1601). Declaration I hereby declare that I worked on this thesis independently and I used only the literature stated in the list of references. Date: Signed: AUTHOR’S PUBLICATIONS Description of the author’s scientific contribution to the individual publications (in chronological order): Publication 1: Mandáková T, Hloušková P, German DA, Lysak MA. (2017). Monophyletic origin and evolution of the largest crucifer genomes. Plant Physiology. 174(4), 2062-2071. PH performed de novo assembly of 13 chloroplast genomes, phylogenetic analysis based on chloroplast sequences, and the divergence time estimates. PH wrote the respective parts of Materials and Methods and Results. Publication 2: Hloušková P, Mandáková T, Pouch M, Trávnícek P, Lysak MA. (2019). The large genome size variation in the Hesperis clade was shaped by the prevalent proliferation of DNA repeats and rarer genome downsizing. Annals of Botany. 124(1), 103–120. PH performed ancestral genome size reconstruction, all presented statistical analyses, repetitive DNA analysis including the qualitative and quantitative characterization, participated in designing oligoprobes and primers for cytogenetic experiments. PH interpreted data, made the story and wrote, reviewed and edited the manuscript. Publication 3: Mandáková T, Hloušková P, Koch MA, Lysak MA. (2020). Genome evolution in Arabideae was marked by frequent centromere repositioning. Plant Cell. 32(3), 650-665. PH performed the bioinformatics analyses of the NGS data, identified repetitive sequences, design the oligoprobes and primers further used as cytogenetic probes, performed comparative genome analysis, and participated on writing of the respective parts of the manuscript. TABLE OF CONTENTS 1 INTRODUCTION ................................................................................................................... 14 1. 1 PLANT GENOME .......................................................................................................... 17 1.1.1 REPETITIVE ELEMENTS IN GENOMES .................................................................. 19 1.1.1.1 Transposable elements ................................................................................... 19 CLASS I – RETROTRANSPOSONS .................................................................................. 24 CLASS II - DNA TRANSPOSONS ..................................................................................... 28 1.1.1.2 Tandem repeats .............................................................................................. 29 Centromeric satDNA .................................................................................................... 29 Telomeric repeats .......................................................................................................