Résurrection Du Passé À L'aide De Modèles Hétérogènes D'évolution Des Séquences Protéiques
Total Page:16
File Type:pdf, Size:1020Kb
Résurrection du passé à l’aide de modèles hétérogènes d’évolution des séquences protéiques Mathieu Groussin To cite this version: Mathieu Groussin. Résurrection du passé à l’aide de modèles hétérogènes d’évolution des séquences protéiques. Biologie moléculaire. Université Claude Bernard - Lyon I, 2013. Français. NNT : 2013LYO10201. tel-01160535 HAL Id: tel-01160535 https://tel.archives-ouvertes.fr/tel-01160535 Submitted on 5 Jun 2015 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. No 201-2013 Année 2013 These` de l’universitedelyon´ Présentée devant L’UNIVERSITÉ CLAUDE BERNARD LYON 1 pour l’obtention du Diplomeˆ de doctorat (arrêté du 7 août 2006) soutenue publiquement le 8 novembre 2013 par Mathieu Groussin Résurrection du passé à l’aide de modèles hétérogènes d’évolution des séquences protéiques. Directeur de thèse : Manolo Gouy Jury : Céline Brochier-Armanet Examinateur - Président Laurent Duret Examinateur Nicolas Galtier Rapporteur Olivier Gascuel Rapporteur Manolo Gouy Directeur de thèse Dominique Madern Examinateur Hervé Philippe Examinateur 2 UNIVERSITE CLAUDE BERNARD - LYON 1 Président de l’Université M. François-Noël GILLY Vice-président du Conseil d’Administration M. le Professeur Hamda BEN HADID Vice-président du Conseil des Etudes et de la Vie Universitaire M. le Professeur Philippe LALLE Vice-président du Conseil Scientifique M. le Professeur Germain GILLET Directeur Général des Services M. Alain HELLEU COMPOSANTES SANTE Faculté de Médecine Lyon Est – Claude Bernard Directeur : M. le Professeur J. ETIENNE Faculté de Médecine et de Maïeutique Lyon Sud – Charles Directeur : Mme la Professeure C. BURILLON Mérieux Faculté d’Odontologie Directeur : M. le Professeur D. BOURGEOIS Institut des Sciences Pharmaceutiques et Biologiques Directeur : Mme la Professeure C. VINCIGUERRA Institut des Sciences et Techniques de la Réadaptation Directeur : M. le Professeur Y. MATILLON Département de formation et Centre de Recherche en Biologie Directeur : M. le Professeur P. FARGE Humaine COMPOSANTES ET DEPARTEMENTS DE SCIENCES ET TECHNOLOGIE Faculté des Sciences et Technologies Directeur : M. le Professeur F. DE MARCHI Département Biologie Directeur : M. le Professeur F. FLEURY Département Chimie Biochimie Directeur : Mme le Professeur H. PARROT Département GEP Directeur : M. N. SIAUVE Département Informatique Directeur : M. le Professeur S. AKKOUCHE Département Mathématiques Directeur : M. le Professeur A. GOLDMAN Département Mécanique Directeur : M. le Professeur H. BEN HADID Département Physique Directeur : Mme S. FLECK Département Sciences de la Terre Directeur : Mme la Professeure I. DANIEL UFR Sciences et Techniques des Activités Physiques et Directeur : M. C. COLLIGNON Sportives Observatoire des Sciences de l’Univers de Lyon Directeur : M. B. GUIDERDONI Polytech Lyon Directeur : M. P. FOURNIER Ecole Supérieure de Chimie Physique Electronique Directeur : M. G. PIGNAULT Institut Universitaire de Technologie de Lyon 1 Directeur : M. C. VITON Institut Universitaire de Formation des Maîtres Directeur : M. A. MOUGNIOTTE Institut de Science Financière et d’Assurances Administrateur provisoire : M. N. LEBOISNE 4 Résumé La reconstruction et la résurrection moléculaire de protéines ancestrales est au coeur de cette thèse. Alors que les données moléculaires fossiles sont quasi inexistantes, il est pos- sible d’estimer quelles étaient les séquences ancestrales les plus probables le long d’un arbre phylogénétique décrivant les relations de parentés entre séquences actuelles. Avoir accès à ces séquences ancestrales permet alors de tester de nombreuses hypothèses biologiques, de la fonction des protéines ancestrales à l’adaptation des organismes à leur environnement. Cependant, ces inférences probabilistes de séquences ancestrales sont dépendantes de modèles de substitution fournissant les probabilités de changements entre acides aminés. Ces dernières années ont vu le développement de nouveaux modèles de substitutions d’acides aminés, permettant de mieux prendre en compte les phénomènes biologiques agissant sur l’évolution des séquences protéiques. Classiquement, les modèles supposent que le proces- sus évolutif est à la fois le même pour tous les sites d’un alignement protéique et qu’il est resté constant au cours du temps lors de l’évolution des lignées. On parle alors de modèle homogène en temps et en sites. Les modèles récents, dits hétérogènes, ont alors permis de lever ces contraintes en permettant aux sites et/ou aux lignées d’évoluer selon diffé- rents processus. Durant cette thèse, de nouveaux modèles hétérogènes en temps et sites ont été développés en Maximum de Vraisemblance. Il a notamment été montré qu’ils per- mettent d’améliorer considérablement l’ajustement aux données et donc de mieux prendre en compte les phénomènes régissant l’évolution des séquences protéiques afin d’estimer de meilleurs séquences ancestrales. A l’aide de ces modèles et de reconstruction ou résurrection de protéines ancestrales en laboratoire, il a été montré que l’adaptation à la température est un déterminant majeur de la variation des taux évolutifs entre lignées d’Archées. De même, en appliquant ces modèles hétérogènes le long de l’arbre universel du vivant, il a été possible de mieux comprendre la nature du signal évolutif informant de manière non-parcimonieuse un ancêtre universel vivant à plus basse température que ses deux descendants, à savoir les ancêtres bactériens et archéens. Enfin, il a été montré que l’utilisation de tels modèles pouvait permettre d’amé- liorer la fonctionnalité des protéines ancestrales ressuscitées en laboratoire, ouvrant la voie à une meilleure compréhension des mécanismes évolutifs agissant sur les séquences biolo- giques. Mots-clés : Reconstruction de séquences ancestrales, résurrection, modèles hétérogènes de substitution, température optimale de croissance, dernier ancêtre commun universel, ar- chées, halophiles, évolution protéique. 5 6 Abstract The molecular reconstruction and resurrection of ancestral proteins is the major issue tackled in this thesis manuscript. While fossil molecular data are almost nonexistent, phy- logenetic methods allow to estimate what were the most likely ancestral protein sequences along a phylogenetic tree describing the relationships between extant sequences. With these ancestral sequences, several biological hypotheses can be tested, from the evolution of pro- tein function to the inference of ancient environments in which the ancestors were adatapted. These probabilistic estimations of ancestral sequences depend on substitution models giving the different probabilities of substitution between all pairs of amino acids. Classi- caly, substitution models assume in a simplistic way that the evolutionary process remains homogeneous (constant) among sites of the multiple sequence alignment or between lin- eages. During the last decade, several methodological improvements were realised, with the description of substitution models allowing to account for the heterogeneity of the pro- cess among sites and in time. During my thesis, I developed new heterogeneous substitution models in Maximum Likelihood that were proved to better fit the data than any other homo- geneous or heterogeneous models. I also demonstrated their better performance regarding the accuracy of ancestral sequence reconstruction. With the use of these models to reconstruct or resurrect ancestral proteins, my co- workers and I showed the adapation to temperature is a major determinant of evolution- ary rates in Archaea. Furthermore, we also deciphed the nature of the phylogenetic signal informing substitution models to infer a non-parsimonious scenario for the adaptation to temperature during early Life on Earth, with a non-hyperthermophilic last universal com- mon ancestor living at lower temperatures than its two descendants. Finally, we showed that the use of heterogeneous models allow to improve the functionality of resurrected proteins, opening the way to a better understanding of evolutionary mechanisms acting on biological sequences. Keywords: Ancestral sequence reconstruction, resurrection, heterogeneous substitution models, otpimal growth temperature, last universal common ancestor, archaea, halophiles, protein evolution. 7 8 Remerciements Ma mémoire est défaillante. Cela doit être l’heure. Ou autre chose. Je ne me souviens plus très bien à partir de quand cela a commencé. Mais il me semble me souvenir que j’ai commencé il y a environ 15 ans. Après avoir piqué dans le bureau de mes deux parents des stylos et des copies, je m’amusais à jouer au prof. Comme mes parents. Qui n’avaient eux, pas tout le temps l’air de s’amuser. Mais j’adorais ça. Pendant longtemps j’ai voulu être prof, faire ce métier formidable à bien des égards. L’insouciance et la naïveté de la jeunesse me direz vous. Quoiqu’il en soit, cela a influencé tous mes choix d’orientation durant mon parcours scolaire, jusqu’à rentrer à l’ENS de Lyon dans l’unique but de pouvoir intégrer sa préparation à l’agrégation. C’était sans compter ma rencontre avec trois personnes,