Statistical Mechanics of Viral-Immune Co-Evolution
Total Page:16
File Type:pdf, Size:1020Kb
Préparée à l’École Normale Supérieure Statistical mechanics of viral-immune co-evolution Soutenue par Composition du jury : Jacopo Marchi Olivier, Martin Le 23/09/2020 INRAE Président du jury Martin, Weigt UPMC Rapporteur Ecole doctorale n° 564 Joshua, Weitz Physique en Île-de-France Georgia Institute of Technology Examinateur Aleksandra, Walczak École Normale Supérieure Directrice de thèse Spécialité Physique Thierry, Mora École Normale Supérieure Directeur de thèse ABSTRACT Evolution constrains organism diversity through natural selection. Here we build theoretical models to study the effect of evolutionary constraints on two natural systems at different scales: viral-immune coevolution and protein evolution. First we study how immune systems constrain the evolutionary path of viruses which constantly try to escape immune memory updates. We start by studying numerically a minimal agent based model with a few simple ingredients governing the microscopic interactions between viruses and im- mune systems in an abstract framework. These ingredients couple processes at different scales — immune response, epidemiology, evolution — that all together determine the evolutionary outcome. We find that the population of immune systems drives viruses to a set of interesting evolutionary patterns, which can also be observed in nature. We map these evolutionary strate- gies onto model parameters. Then we study a coarse-grained theoretical model for the evolution of viruses and immune receptors in antigenic space consisting of a system of coupled stochastic differential equations, inspired by the previous agent-based simulations. This study sheds light on the in- terplay between the different scales constituting this phylodynamic system. We obtain some analytical insights into how immune systems constrain viral evolution in antigenic space while viruses manage to sustain a steady state escape dynamics. We validate the theoretical predictions against numerical simulations. In the second part of this work we exploit the enormous amount of protein sequence data to extract information about the evolutionary constraints act- ing on repeat protein families, whose elements are proteins made of many repetitions of conserved portions of amino-acids, called repeats. We couple an inference scheme to computational models, which leverage equilibrium statistical mechanics ideas to characterize the macroscopic observables aris- ing from a probabilistic description of protein sequences. We use this frame- work to address how functional constraints reduce and shape the global space of repeat protein sequences that survive selection. We obtain an es- timate of the number of accessible sequences, and we characterize quanti- tatively the relative role of different constraints and phylogenetic effects in reducing this space. Our results suggest that the studied repeat protein fam- ilies are constrained by a rugged landscape shaping the accessible sequence space in multiple clustered subtypes of the same family. Then we exploit the same framework to address the interplay between evolutionary constraints and phylogenetic correlations in repeat tandem arrays. As a result we infer quantitatively the functional constraints, together with the relative timescale between repeat duplications/deletions and point mutations. We also inves- tigate and map what microscopic evolutionary mechanisms can generate specific inter-repeat statistical patterns, which are recurrently observed in data. Preliminary results suggest that evolution of repeat tandem arrays is strongly out of equilibrium. iii RESUMÉ L’évolution limite la diversité des organismes par la sélection naturelle. Nous construisons ici des modèles théoriques pour étudier l’effet des contraintes évolutives sur deux systèmes biologiques à des échelles différentes : la co- évolution virale-immune et l’évolution des protéines. Nous étudions d’abord comment les systèmes immunitaires limitent le parcours évolutif des virus qui tentent constamment d’échapper aux mises à jour de la mémoire immunitaire. Nous commençons par étudier numéri- quement un modèle agent-based minimal régissant les interactions microsco- piques entre les virus et les systèmes immunitaires dans un cadre abstrait. Ces ingrédients couplent des processus biologiques à différentes échelles — réponse immunitaire, épidémiologie, évolution — qui conjointement déter- minent le résultat de l’évolution. Nous constatons que la population des systèmes immunitaires pousse les virus vers un ensemble de motifs biologi- quement pertinents. Nous caractérisons ces stratégies évolutives en fonction des paramètres du modèle. Ensuite nous étudions un description à gros grains décrivant l’évolution des virus et des récepteurs immunitaires dans l’espace antigénique. Cette approche consistant en un système d’équations différentielles stochastiques couplées permet de clarifier l’interaction entre les différentes échelles qui constituent ce système phylodynamique. Nous obtenons une description analytique de la façon dont les systèmes immu- nitaires limitent l’évolution des virus dans l’espace antigénique, alors que les virus parviennent à maintenir une dynamique de fuite en régime per- manent. Nous validons les prédictions théoriques à l’aide des simulations numériques. Dans la deuxième partie de ce travail, nous exploitons l’énorme quan- tité de données accessible sur les séquences protéiques pour extraire des informations sur les contraintes évolutives agissant sur les familles de pro- téines répétées, constituées de nombreuses répétitions de portions conser- vées d’acides aminés. Nous couplons un schéma d’inférence à des modèles numériques en nous appuyant sur des idées de mécanique statistique à l’équilibre afin caractériser les observables biologiques découlant d’une des- cription probabiliste des séquences de protéines. Nous utilisons ce cadre pour étudier comment les contraintes fonctionnelles réduisent et façonnent l’espace global des séquences protéiques répétées qui survivent à la sélec- tion. Nous obtenons une estimation du nombre de séquences accessibles, et nous caractérisons quantitativement le rôle relatif des différentes contraintes et des effets phylogénétiques dans la réduction de cet espace. Nos résultats suggèrent que les familles de protéines répétées étudiées sont contraintes par un paysage accidenté qui façonne l’espace des séquences accessibles en plusieurs sous-types groupés de la même famille. Nous exploitons ensuite le même cadre pour étudier l’interaction entre les contraintes évolutives et les corrélations phylogénétiques dans les séries de répétitions. Nous déduisons quantitativement les contraintes fonctionnelles, ainsi que l’échelle de temps relative entre les duplications/suppressions des répétitions et les mutations iv ponctuelles. Nous étudions et caractérisons également les mécanismes évo- lutifs microscopiques qui peuvent générer des motifs statistiques spécifiques entre répétitions, observés de manière récurrente dans les données. Les ré- sultats préliminaires suggèrent que l’évolution des séries de répétitions est un processus fortement hors équilibre. v PUBLICATIONS This PhD thesis presents the research work I have conducted in the past four years at the Laboratoire de Physique de l’Ecole Normale Superieure, under the supervision of Aleksandra Walczak and Thierry Mora. It includes published as well as ongoing work. Chapter 3 is the direct copy of the work published in [115] in collaboration with Michael Lässig from the University of Cologne. Chapter 4 includes some work that is currently being prepared for future publication (Marchi Mora Walczak, in preparation). Chapter 6 is the direct copy of the work published in [116] in collaboration with Ezequiel Galpern, Rocio Espada and Diego Ferreiro from the University of Buenos Aires. Chapter 7 is part of a work in progress, in collaboration with Ezequiel Galpern and Diego Ferreiro from the University of Buenos Aires (Marchi Galpern Ferreiro Mora Walczak, in preparation). vii ACKNOWLEDGMENTS This PhD has been a long journey, and it’s only now that, looking back, I realize how rich of a journey it was. It was rich of scientific stimuli, ideas, exciting discussions, conferences and collaborations in amazing places. It was rich of joy and beautiful moments. It was rich of bad moments too, some say that hardship make us grow, could be. It was rich of life. But most importantly it was rich of friends, amazing people that left a mark and made this journey so special. I will try here in the impossible task of expressing my gratitude to all the people that shared a part of this important path with me. I apologize in advance to those I will inevitably forget to mention. First of all, I would like to thank Aleksandra and Thierry who supervised me these past four years. I know I was an annoying student for you at times, not the perfect student you dream of that does what he is told when he is told. From the other side of the fence I can tell you that you were annoying supervisors a few times too. But no matter the problems, you always kept advising and teaching me with the same dedication, and I have you to thank for my scientific maturation. Ultimately I want to thank you for the distinctive feature that characterizes the way you handle your group and makes it a great environment for young researchers to grow: thank you for caring. I want to thank also two great researchers I had the chance to collaborate with, Michael Lässig and Diego Ferreiro, for sharing their knowledge with me and exposing me to new