Alternative Splicing: Regulation, Function and Evolution

Alternative splicing: regulation, function and evolution by Carlos Mart´ıGómez-Aldarav´ı Licenciado en Biotecnolog´ıa PhD Program in Molecular Biosciences Departamento de Bioqu´ımica,Facultad de Ciencias Universidad Autonoma de Madrid (UAM) 2016-2020 Centro Nacional de Investigaciones Cardiovasculares Carlos III (CNIC) Thesis supervisors: Enrique Lara Pezzi FátimaSánchez Cabo Abstract Introns populate eukaryotic genes to a variable extent across species, being widespread in vertebrates and mammals. While the evolutionary advantages, if any, of introns, remain unclear, their expansion has provided the opportunity to splice genes in more than a single way, allowing the production of different mRNAs from a single gene through Alternative splicing (AS). AS patterns change during the development of complex organisms and diverge across different tissues and experimental conditions. These highly reproducible changes evidences the existence of a regulatory network that ensures repeatable responses to certain stimuli and suggest that, at least some of them, play a role in the overall physiological response or adaptation. Not surprisingly, perturbation of some elements of this network is often associated with pathological conditions. However, not only we are far from a complete characterization of the molecular mechanisms that drive AS changes in most pathologies like those affecting the heart, but the computational tools that are currently used to study these regulatory networks are limiting our ability to extract all the information that is hidden in the data. It has been long hypothesized that AS contributes to a great expansion of the proteome and facilitates the evolution of new functions from pre-existing ones without gene duplication. While there are very well known examples of how AS enables the production of different functional proteins or mRNAs, the proportion of AS isoforms that are actually functional remains large unknown. Indeed, recent studies from different perspectives, including both transcriptomic, proteomics and sequence evolutionary analysis suggest that this percentage may be rather small and that much of the observed transcriptomic diversity is driven by non-functional noise in the splicing process. In this thesis, we have studied global AS patterns through computational analysis of large RNA-seq datasets to characterize the causes and consequences of AS changes from different perspectives. First, we have analyzed how AS global patterns change during heart development and disease using data from a variety of mouse models. We found that AS changes modulate different biological processes than gene expression ones and are associated to isoform specific protein-protein interactions. Disease patterns partially recapitulate developmental patterns probably through the upregulation of PTBP1, which is sufficient to induce pathological changes in the heart. Second, in an attempt to improve computational tools for identification of regulatory elements, we have developed dSreg. This tool leverages the power of bayesian inference and hierarchical models to pool information across the whole transcriptome to infer, not only the changes in the activities of the underlying regulatory elements, but also the changes in inclusion rates, outperforming competing methods and tools made for both purposes separately. Finally, we have studied the evolutionary process driving AS divergence during mammalian evolution using models of phenotypic evolution in a phylogenetic framework. We found that AS patterns have evolved under weak stabilizing selection that allows widespread variability in AS patterns across species, with only about 5% of the genes probably encoding AS isoforms with different functions. Rates of neutral evolution are high, preventing the identification of adaptive changes at this long evolutionary scale. In summary, this thesis provides new computational tools and knowledge about the evolution and regulation of AS in different biological conditions and helps to better understand its relevance from different persepectives. 2 Resumen Una gran parte de los genes eucariotas estáncompuestos por exones e intrones. Aunque las ventajas evolutivas de la fragmentaciónde los genes, en caso de haberlas, no se conocen del todo bien, su ex- pansiónha permitido procesar los transcritos primarios de varias diferentes maneras, y por tanto, de producir diferentes ARN mensajeros maduros. Potencialmente, esto permite la producciónde prote´ınas con diferentes funciones mediante splicing alternativo (SA) a partir de un único gen. Los patrones de SA cambian de forma dinámicadurante el desarrollo de los organismos complejos y se diferencian en distintos tejidos y condiciones experimentales. Esto sugiere la existencia de un programa de regulación espec´ıficopara la reproducciónde estos cambios en diferentes individuos y en respuesta a est´ımulos concretos, que dif´ıcilmente se habrágenerado en ausencia de funcióny selección.De hecho, la perturbación de algunos de los elementos que forman parte de esta red de regulaciónse asocia frecuentemente con el desarrollo de diversas patolog´ıas. No obstante, estamos lejos de una completa caracterizaciónde los mecanismos de regulaciónque dirigen los cambios en los patrones de SA en la mayur´ıade las patolog´ıas, como las cardiacas. Además,las herramientas computacionales disponibles para estudiar estas redes de regulaciónpresentan una serie de limitaciones que reducen nuestra capacidad para extraer información completamente fiable de los datos de transcriptómica. Desde el descubrimiento de los intrones, se ha hipotetizado que el SA permite la expansióndel pro- teoma y facilita la evoluciónde nuevas funciones moleculares a partir de algunas ya existentes sin que haya duplicacióngénica.Aunque se ha caracterizado una importante cantidad de genes que producen isoformas con diferentes funciones mediante SA, aúnse desconoce cómo de general es este mecanismo a nivel genómico.De hecho, estudios recientes desde diferentes persepectivas, incluyendo tanto transcriptómica como proteómicay análisisevolutivo de las secuencias implicadas, parecen indicar que el porcentaje de genes que generan diferentes isoformas funcionales mediante SA es másbien peque~no,y que por tanto gran parte de la diversidad transcripcional se debe a errores en el proceso de splicing. En esta tesis doctoral, se han estudiado los patrones globales de SA mediante análisiscomputacional de grandes conjuntos de datos de RNA-seq. Esto ha permitido la caracterizacióntanto de las causas como de las consecuencias del SA y sus cambios desde diferentes perspectivas. En primer lugar, se ha analizado cómoestos patrones cambian durante el desarrollo y la enfermedad cardiaca, empleando datos de ratóncomo modelo animal. Se ha visto que los cambios en los patrones de SA afectan a diferentes funciones biológicascomparados con la modulaciónde la expresióngénica.Estos cambios cuantitatives suelen afectar a isoformas de SA con distintos patrones de interacciónprote´ına-prote´ına. Los patrones de SA en enfermedad recapitulan parcialmente los observados durante el desarrollo, posiblemente mediante la re-expresiónde la prote´ınareguladora PTBP1, cuya sobre-expresiónen corazones de ratones sanos es suficiente para inducir cambios patológicos.En segundo lugar, en un intento de mejorar las herramientas computacionales disponibles para la identificaciónde las prote´ınasreguladoras actuando en diferentes contextos, se ha desarrollado dSreg. Esta herramienta aprovecha el poder la inferencia bayesiana y los modelos jerárquicospara aunar la informacióncontenida a lo largo del transcriptoma e inferir, no sólo los cambios cuantitativos en los niveles de inclusiónde eventos concretos, sino tambiénlos cambios en la 3 actividad de las prote´ınasreguladoras subyacentes a esos cambios de SA. dSreg funciona mejor en ambos aspectos que los métodos previamente empleados para cada aplicaciónpor separado. Finalmente, se han estudiado las fuerzas genéticasque dirigen la evolucióndel SA como caráctercuantitativo empleando, por primera vez, modelos de evoluci ónfenot´ıpicaa lo largo de la historia evolutiva de diferentes especies de mam´ıferos.Estos resultados indican que los patrones de SA evolucionan bajo una selecciónestabilizadora débil,que permite una gran variaciónen los patrones de SA entre diferentes especies. De este modo, apenas un 5% de los genes codifican isoformas de SA con diferentes funciones. La tasa de evoluciónneutral es tan alta que impide distinguir cambios aleatorios mediados por la mutacióny la deriva genética de aquellos que suponen una adaptación,al menos en esta escala evolutiva tan grande. En resumen, esta tesis proporciona nuevas herramientas computacionales y conocimiento sobre la evolucióny la regulación del SA en diferentes condiciones biológicas,y ayuda a entender mejor su relevancia desde diferentes perspectivas. 4 Acknowledgements En primer lugar, me gustar´ıaagradecer a mis directores Enrique y Fátimapor haberme dado la opor- tunidad de hacer la tesis bajo su supervisión,por haberme dado libertad y apoyo para desarrollar mis propias ideas e intereses cient´ıficosmásalláde los planteados inicialmente, y por haberme acompa~nado a lo largo de este periodo de crecimiento personal y, posiblemente, hasta cient´ıfico. Gracias por vuestro optimismo y buen humor ante mi a veces reinante negatividad. Me gustarádar las gracias tambiéna Claus, mi supervisor en Viena, por el tiempo que ha dedicado a ayudarme y ense~narmesobre

Alternative Splicing: Regulation, Function and Evolution

The Phylum Vertebrata: a Case for Zoological Recognition Naoki Irie1,2* , Noriyuki Satoh3 and Shigeru Kuratani4

Brains of Primitive Chordates 439

Constraints on the Timescale of Animal Evolutionary History

Tunicate Mitogenomics and Phylogenetics: Peculiarities of the Herdmania Momus Mitochondrial Genome and Support for the New Chordate Phylogeny

The Whale Shark Genome Reveals Patterns of Vertebrate Gene Family Evolution

The Whale Shark Genome Reveals Patterns of Vertebrate Gene Family

Development, Anatomy, and Phylogenetic Relationships of Jawless Vertebrates and Tests of Hypotheses About Early Vertebrate Evolution

Wnt Evolution and Function Shuffling in Liberal and Conservative Chordate Genomes Ildikó M

Published Version

Shuichi Shigeno Yasunori Murakami Tadashi Nomura Editors From

Tunicates and Not Cephalochordates Are the Closest Living Relatives of Vertebrates

Regulation and Evolution of Muscle Development in Tunicates Florian Razy‑Krajka* and Alberto Stolf*