Studying the Regulatory Landscape of Flowering Plants
Total Page:16
File Type:pdf, Size:1020Kb
Studying the Regulatory Landscape of Flowering Plants Jan Van de Velde Promoter: Prof. Dr. Klaas Vandepoele Co-Promoter: Prof. Dr. Jan Fostier Ghent University Faculty of Sciences Department of Plant Biotechnology and Bioinformatics VIB Department of Plant Systems Biology Comparative and Integrative Genomics Research funded by a PhD grant of the Institute for the Promotion of Innovation through Science and Technology in Flanders (IWT Vlaanderen). Dissertation submitted in fulfilment of the requirements for the degree of Doctor in Sciences:Bioinformatics. Academic year: 2016-2017 Examination Commitee Prof. Dr. Geert De Jaeger (chair) Faculty of Sciences, Department of Plant Biotechnology and Bioinformatics, Ghent University Prof. Dr. Klaas Vandepoele (promoter) Faculty of Sciences, Department of Plant Biotechnology and Bioinformatics, Ghent University Prof. Dr. Jan Fostier (co-promoter) Faculty of Engineering and Architecture, Department of Information Technology (INTEC), Ghent University - iMinds Prof. Dr. Kerstin Kaufmann Institute for Biochemistry and Biology, Potsdam University Prof. Dr. Pieter de Bleser Inflammation Research Center, Flanders Institute of Biotechnology (VIB) and Department of Biomedical Molecular Biology, Ghent University, Ghent, Belgium Dr. Vanessa Vermeirssen Faculty of Sciences, Department of Plant Biotechnology and Bioinformatics, Ghent University Dr. Stefanie De Bodt Crop Science Division, Bayer CropScience SA-NV, Functional Biology Dr. Inge De Clercq Department of Animal, Plant and Soil Science, ARC Centre of Excellence in Plant Energy Biology, La Trobe University and Faculty of Sciences, Department of Plant Biotechnology and Bioinformatics, Ghent University iii Thank You! Throughout this PhD I have received a lot of support, therefore there are a number of people I would like to thank. First of all, I would like to thank Klaas Vandepoele, for his support and guidance. Being a great motivator and a knowledgeable scientist, none of this thesis would have been possible without his help. I would also like to thank everyone in the CIG and BEG group for four fun years, especially Ken and Bram for always being available for help, tips and jokes. I would like to thank friends and family for all of the aid, and especially my girlfriend Justyna for being the most supportive person I could imagine. Everybody knows you can’t achieve anything in life if not given the opportunity, so I would like to thank my parents for supporting me in all endeavours undertaken and choices I have made both professionally and personally. v Samenvatting Transcriptionele regulatie is een dynamisch proces dat een belangrijke rol speelt bij het genereren van genexpressieprofielen tijdens de ontwikkeling van een plant of als reactie op (a)biotische stimuli. De doelstellingen van dit project bestonden uit twee delen: de eerste omvat de studie van transcriptionele regulatie en de manier waarop genexpressie wordt georganiseerd in het genoom. De tweede bestaat uit het toepassen van de verkregen datasets teneinde een functie toe te wijzen aan Arabidopsis transcrip- tiefactoren en hun doelwit genen die voorheen een onbekende functie hadden. Het onderzoek beschreven in dit proefschrift begint met de ontwikkeling van een phylogenetic foot- printing aanpak voor de identificatie van geconserveerde niet-coderende sequenties (CNSen) in Ara- bidopsis thaliana, die gebruik maakt van de genoominformatie van 12 tweezaadlobbige planten. In deze benadering werden zowel alignerings als niet alignerings gebaseerde technieken toegepast om func- tionele motieven te identificeren in een set van meerdere organismen. De werkwijze houdt rekening met onvolledige motief conservatie en een hoge sequentie divergentie tussen verwante soorten. In totaal hebben we 69,361 footprints geïdentificeerd gelinkt aan 17,895 genen. Een gen regulatorisch netwerk werd samengesteld door de integratie van gekende transcriptiefactor bindingsplaatsen, verkregen uit de literatuur en experimentele studies. Dit netwerk bestond uit 40,758 interacties, waarvan twee derde in DNase I hypersensitieve plaatsen. Dit netwerk is sterk verrijkt naar in-vivo doelwit genen van gekende regulerend transcriptiefactoren en de algemene kwaliteit ervan werd bevestigd met behulp van vijf ver- schillende biologische validatie metrices. Tenslotte werd een proof of concept experiment uitgevoerd met gedetailleerde expressie en functie-informatie om aan te tonen hoe statische CNSen kunnen wor- den omgezet in toestandsafhankelijke gen regulerende netwerken. Dit biedt nieuwe mogelijkheden voor regulerende gen annotatie. In een daaropvolgende analyse pasten we de bovengenoemde phylogenetic footprinting aanpak toe voor de identificatie van CNSen in tien tweezaadlobbige planten. Dit leverde 1,032,291 CNSen geas- socieerd met 243,187 genen op. Om deze CNSen te annoteren met transcriptie factor bindingsplaatsen hebben we gebruik gemaakt van de bindingsplaats informatie van 642 TF’s die afkomstig zijn uit 35 TF families in Arabidopsis. Validatie van de verkregen CNSen werd uitgevoerd met TF chromatine immunoprecipitatie gevolgd door sequenering (ChIP-Seq) in drie organismen, dit resulteerde in een sig- nificante overlap van de meeste datasets. Ook ultra-geconserveerde CNSen werden geïdentificeerd door het insluiten van genomen van aanvullende plantenfamilies. In totaal werden er 715 bindingsplaatsen voor 501 genen en geïdentificeerd die in tweezaadlobbigen, eenzaadlobbigen, mossen en groene algen geconserveerd waren. Door toepassing van de verkregen CNSen vonden wij dat genen die deel uit- maken van een geconserveerd mini-regulon een grotere samenhang van hun expressieprofiel vertonen dan andere gen paren die dit niet vertonen. Vervolgens werd een nieuw algoritme ontwikkeld dat zowel alignerings als niet alignerings gebaseerde technieken voor het aflijnen van geconserveerde motieven in de promotersequenties van nauw verwante soorten ondersteunt. Kandidaat motieven zijn exhaustief genumereerd als woorden in het IUPAC alfabet en gescreend voor conservatie door het gebruik van de branch length score. Vanwege het exhaustieve karakter van het algoritme en de grote noodzaak van computationele middelen werd het MapReduce vii programmeermodel aangenomen om gebruik te kunnen maken van een cloud computing-infrastructuur. De methode werd toegepast op vier eenzaadlobbige plantensoorten en we waren in staat om aan te tonen dat de hoge scorende motieven aanzienlijk verrijken voor de open chromatine regio’s in Oryza sativa en transcriptiefactor bindingsplaatsen afgeleid door middel van protein binding microarrays in Oryza sativa en Zea mays. Verder werd aangetoond dat de werkwijze experimenteel (ChIP-Seq) bepaalde ga2ox1- achtige KN1 bindingsplaatsen kan identificeren in Zea mays. Tenslotte, werd een analyse, die voor 12 NAM-ATAF1/2-CUC2 (NAC) transcriptiefactoren doel- wit genen identificeert uitgevoerd. NAC transcriptiefactoren behoren tot de grootste transcriptiefactor families in planten, er is echter beperkte data beschikbaar die het DNA-bindingsdomein individuele leden beschrijven. We gebruikten een transcriptiefactor doelwit gen identificatie workflow gebaseerd op de integratie van nieuwe protein binding microarray data met genexpressie en geconserveerde pro- moter sequenties om de DNA-bindende voorkeuren te identificeren en de onderliggende gen regulerende netwerken te onthullen. De data biedt hoge resolutie vingerafdrukken voor de meeste bestudeerde tran- scriptiefactoren en geeft aan dat de NAC DNA bindende voorkeuren zouden voorspeld kunnen worden uit hun DNA bindend sequentie domein. De ontwikkelde methodologie, met de toepassing van com- plementaire functionele genomische filters, maakt het mogelijk om voor elke transcriptiefactor protein binding microarray data om te zetten in een reeks van doelwit genen met hoge kwaliteit. De NAC doelwit genen gedetecteerd door deze benadering konden bevestigd worden door onafhankelijke in vivo analyses. Summary Transcriptional regulation is a dynamic process that plays an important role in establishing gene expres- sion profiles during development or in response to (a)biotic stimuli. The aims of this project consisted of two parts: one is the study of how transcriptional regulation and gene expression is organized across the genome. The second consists of applying the obtained datasets to assign function to TFs and their target genes with previously unknown function. The research presented in this thesis starts with the development of a phylogenetic footprinting ap- proach for the identification of conserved non-coding sequences (CNSs) in Arabidopsis thaliana using genomic information of 12 dicot plants. In this approach both alignment and non-alignment-based tech- niques were applied to identify functional motifs in a multi-species context. The method accounts for incomplete motif conservation as well as high sequence divergence between related species. In total, we identified 69,361 footprints associated with 17,895 genes. A gene regulatory network was compiled, through the integration of known TFBS obtained from literature and experimental studies, containing 40,758 interactions, of which two-thirds act through binding events located in DNase I hypersensitive sites. This network shows significant enrichment towards in vivo targets of known regulators and its overall quality was confirmed using five different biological validation metrics. Finally, a proof of con- cept experiment using detailed expression and function information was performed to demonstrate how static CNSs can be converted into