Decoding the Main Genomic Hallmark of Trichoderma
Total Page:16
File Type:pdf, Size:1020Kb
Die approbierte Originalversion dieser Diplom-/ Masterarbeit ist in der Hauptbibliothek der Tech- nischen Universität Wien aufgestellt und zugänglich. http://www.ub.tuwien.ac.at The approved original version of this diploma or master thesis is available at the main library of the Vienna University of Technology. http://www.ub.tuwien.ac.at/eng DIPLOMARBEIT CONVERGENT EVOLUTION OF PROTEINS WITH ANKYRIN DOMAINS THE MAIN GENOMIC HALLMARK OF AN INDUSTRIALLY RELEVANT FUNGUS TRICHODERMA Ausgeführt am Institut für Verfahrenstechnik, Umwelttechnik und Technische Biowissenschaften der Technischen Universität Wien unter der Anleitung von Assoc. Prof. Dr.rer.nat. Irina Druzhinina und DI Komal Chenthamara durch Vladimir Gojic BSc 1225096 Grünbergstraße 27/10 1120, Wien Datum (Unterschrift Student) (Unterschrift Betreuer) TU WIEN Diplomarbeit Vladimir Gojic 2 TU WIEN Diplomarbeit Vladimir Gojic Acknowledgments First, I would like to thank Prof. Dr. Irina Druzhinina for giving me the opportunity to conduct my master thesis in her research group Microbiology and Applied Genomics and for her feedback in every step of this project. Second, I would like to thank DI Komal Chenthamara for her constant support and encouragement, especially for giving me directions and help in crucial moments of my master thesis. I would also like to thank all members of the Research Group Microbiology and Applied Genomics for a pleasant work atmosphere and time spent together. Last but not least I would like to thank my friends and family for their unconditional love and support. 3 TU WIEN Diplomarbeit Vladimir Gojic 4 TU WIEN Diplomarbeit Vladimir Gojic Abstract The comparative genomics study of the industrially relevant Trichoderma spp. (Hypocreales, Ascomycota) revealed a considerable expansion of ankyrin-domain-containing- (ANKdc-) proteins when compared to other ecologically similar Pezizomycotina fungi. Ankyrin-(ANK-) domains are found in all domains of life as the only identifiable structural motif or as associates of other PFAM (host) domains that may be involved in a diversity of functions such as signal transduction, transport, transcription regulation, inflammatory response and other essential cell processes. The role of ANKdc-proteins in fungi remains poorly understood. In this thesis, a comprehensive in silico analysis of Trichoderma ANKyrome was performed to uncover the role of expansion of ANKdc-proteins in the ecology of Trichoderma spp. and provide the first hypotheses into their role in Trichoderma interactomes. A comparative genomics approach was used for genome mining, annotation, enumeration and classification of proteins with ANK- repeats in 10 Trichoderma species. In total, eighteen Hypocreales genomes were mined for ANKdc-proteins and 2406 of these proteins were retrieved. Our study revealed that the expansion of ANKdc-proteins is not exclusive to Trichoderma, but also evident in closely related fungi such as phytopathogenic Nectriaceae and Bionectriaceae. Indication that expansion of ANKdc is characteristic of phytopathogens as well, compels to look at more transcriptomic data of Trichoderma when interacting with plants or growing in soil to understand the role of ANKdc- proteins. By orthology inference, 1172 homologous ANKdc-proteins were distributed between 183 orthogroups of which 18 orthologous ANKdc-proteins were identified as core in Trichoderma spp. and 11 as core in all of 18 considered Hypocreales fungi. Thus, the results indicate that the larger share of ANKdc-proteins is unique to most species (orphans). All ANK- repeats in Trichoderma ANKyrome were annotated by InterProScan within Blast2GO using three databases, Pfam, SMART, and Prosite. Additionally, all host-domains were annotated within Trichoderma ANKyrome using the same approach but with all 14 databases available in InterProScan. This study revealed that two most frequent host-domains in Trichoderma ANKyrome are P-loop containing nucleoside triphosphate hydrolase and nucleoside phosphorylase, but also that majority of these ANKdc-proteins are orphan proteins. As nucleoside phosphorylases are known to play a role in immune responses, these results allow us to hypothesize that abundance of ANK-repeats in Trichoderma might be contributing to general fitness of this genus. Furthermore, SignalP and TMHMM analyses revealed that only a small share of Trichoderma ANKyrome consists of proteins involved in cell signaling or 5 TU WIEN Diplomarbeit Vladimir Gojic transmembrane proteins, respectively. Evolutionary analyses of the core Trichoderma ANKyrome were performed using vertical evolution and purifying selection acting across each of 18 core ANKdc-proteins from Trichoderma spp. 6 TU WIEN Diplomarbeit Vladimir Gojic Kurzfassung Die komparative genomische Studie der industriell relevanten Pilze Trichoderma spp. (Hypocreales, Ascomycota) zeigte eine beträchtliche Expansion von Ankyrin-Domäne- enthaltenden- (ANKdc-) Proteinen im Vergleich zu anderen ökologisch ähnlichen Pezizomycotina-Pilzen. Ankyrin- (ANK-) Domäne finden sich in allen Domänen des Lebens als das einzige identifizierbare Strukturmotif oder assoziiert mit anderen PFAM (host) Domänen, die an einer Vielfalt von Funktionen wie Signaltransduktion, Transport, Transkriptionsregulation, Entzündungsantwort und anderen essentiellen Zellprozessen beteiligt sein können. Die Rolle von ANKdc-Proteinen in Pilzen ist noch weitgehend ungeklärt. In dieser Arbeit wurde eine umfassende in silico Analyse der Trichoderma ANKyrome durchgeführt, um die Rolle der Expansion von ANKdc-Proteinen in der Ökologie von Trichoderma spp. zu erforschen und die ersten Hypothesen über ihre Rolle in Trichoderma Interaktomen zu stellen. Ein komparativer genomischer Ansatz wurde für Genom-Mining, Annotierung, Verzeichnis und Klassifizierung von Proteinen mit ANK-Repeats in zehn Trichoderma-Arten verwendet. Insgesamt wurden 18 Hypocreales-Genome nach ANKdc- Proteinen durchsucht und 2406 dieser Proteine gefunden. Unsere Studie zeigte, dass die Expansion von ANKdc-Proteinen nicht ausschließlich bei Trichoderma auftritt, sondern auch bei nahe verwandten Pilzen wie phytopathogenen Nectriaceae und Bionectriaceae. Der Hinweis, dass die Expansion von ANKdc auch für Phytopathogene charakteristisch ist, zwingt dazu, mehr transkriptomische Daten von Trichoderma zu betrachten, wenn sie mit Pflanzen interagieren oder im Boden wachsen, um die Rolle von ANKdc-Proteinen zu verstehen. Durch Orthologie-Inferenz wurden 1172 homologe AKNdc-Proteine auf 183 Orthogruppen verteilt, von denen 18 orthologe ANKdc-Proteine als Core-Proteine in Trichoderma spp identifiziert wurden und 11 als Core-Proteine in allen der 18 betrachteten Hypocreales-Pilzen. Somit zeigen die Ergebnisse, dass der größere Anteil an ANKdc-Proteinen für die meisten Arten einzigartig ist (Orphan). Alle ANK-Repeats in Trichoderma ANKyromen wurden annotiert durch InterProScan in Blast2GO mit drei Datenbanken, Pfam, SMART und Prosite. Darüber hinaus wurden alle Host-Domänen in Trichoderma ANKyromen mit dem gleichen Ansatz, aber mit allen 14 Datenbanken in InterProScan annotiert. Diese Studie ergab, dass die beiden häufigsten Host-Domänen in Trichoderma ANKyromen P-Loop-haltige Nucleosidtriphosphat-Hydrolase und Nucleosidphosphorylase sind, aber auch, dass die Mehrheit dieser ANKdc-Proteine 7 TU WIEN Diplomarbeit Vladimir Gojic Orphan-Proteine sind. Da bekannt ist, dass Nucleosidphosphorylasen eine Rolle bei Immunantworten spielen, erlauben diese Ergebnisse die Hypothese, dass die Häufigkeit von ANK-Repeats in Trichoderma zur allgemeinen Fitness dieser Gattung beitragen könnte. SignalP- und TMHMM-Analysen zeigten, dass nur ein kleiner Teil vom Trichoderma ANKyrom aus Proteinen die an der Zellsignalisierung beteiligt sind bzw. Transmembranproteinen besteht. Evolutionäre Analysen des Core-ANKyrom von Trichoderma wurden durchgeführt unter der Verwendung von vertikaler Evolution und reinigender Selektion, die in jedem der 18 Core- Proteine in Trichoderma spp. wirkt. 8 TU WIEN Diplomarbeit Vladimir Gojic Abbreviations AICc - Akaike Information Criterion corrected ANK - Ankyrin ANKdc - Ankyrin domain containing BIC - Bayesian Inference Criterion BLAST - Basic Local Alignment Search Tool BUSTED - Branch-Site Unrestricted Statistical Test for Episodic Diversification DGE - Differential Gene Expression FUBAR - Fast Unconstrained Bayesian AppRoximation GARD - Genetic Algorithm for Recombination Detection GTR - Generalized Time Reversible (model) hdc-ANKdc - host-domain containing ANKdc HET - Heterokaryon Incompatibility JGI - Joint Genome Institute JTT - Jones, Taylor, and Thornton model LG - Le and Gascuel model LRT - Likelihood Ratio Test Mbp - Million base pairs MCL - Markov Cluster Algorithm MEME - Mixed Effects Model of Evolution ML - Maximum Likelihood MSA - Multiple Sequence Analysis NTHGs - Non-Trichoderma Hypocrealean Genomes NP - Nucleoside Phosphorylase NTPase - Nucleoside Triphosphatase OG - Orthogroup PK - Protein Kinase PSRF - Potential Scale Reduction Factor PLNTPH - P-loop containing Nucleoside Triphosphate Hydrolase RPKM - Reads Per Kilobase Million 9 TU WIEN Diplomarbeit Vladimir Gojic 10 TU WIEN Diplomarbeit Vladimir Gojic Contents Acknowledgments ...................................................................................................................... 3 Abstract ...................................................................................................................................... 5 Kurzfassung ...............................................................................................................................