Computational Modeling to Design and Analyze Synthetic Metabolic Circuits
Total Page:16
File Type:pdf, Size:1020Kb
Computational modeling S467 to design and SACL 9 analyze : 201 synthetic NNT metabolic circuits Thèse de doctorat de l'Université Paris-Saclay préparée à l’Université Paris -Sud École doctorale n°577 Structure et Dynamique des Systèmes Vivants (SDSV) Spécialité de doctorat: Sciences de la Vie et de la Santé Thèse présentée et soutenue à Jouy-en-Josas, le 28/11/19, par Mathilde Koch Composition du Jury : Joerg Stelling Professeur, ETH Zurich (Department of Biosystems Science and Engineering) Président et Rapporteur Daniel Kahn Directeur de Recherche, INRA (UAR 1203, Département Mathématiques et Informatique Appliquées) Rapporteur Gregory Batt Directeur de Recherche, INRIA Examinateur Olivier Sperandio Directeur de Recherche, Institut Pasteur Examinateur Wolfram Liebermeister Chargé de Recherche, INRA (UR1404, MaIAGE, Université Paris-Saclay, Jouy-en-Josas) Examinateur Jean-Loup Faulon Directeur de Recherche, INRA (UMR 1319, Micalis, AgroParisTech, Université Paris-Saclay) Directeur de thèse Abstract The aims of this thesis are two-fold, and centered on synthetic metabolic cir- cuits, which perform sensing and computation using enzymes. The first part consisted in developing reinforcement and active learning tools to improve the design of metabolic circuits and optimize biosensing and bioproduction. In order to do this, a novel algorithm (RetroPath3.0) based on similarity- guided Monte Carlo Tree Search to improve the exploration of the search space is presented. This algorithm, combined with data-derived reaction rules and varying levels of enzyme promiscuity, allows to focus exploration toward the most promising compounds and pathways for bio-retrosynthesis. As retrosynthesis-based pathways can be implemented in whole cell or cell- free systems, an active learning method to efficiently explore the combinato- rial space of components for rational buffer optimization was also developed, to design the best buffer maximizing cell-free productivity. The second part consisted in developing analysis tools, to generate knowledge from biological data and model biosensor response. First, the effect of plasmid copy number on sensitivity of a transcription-factor based biosensor was modeled. Then, using cell-free systems allowing for broader control over the experimental factors such as DNA concentration, resource usage was modeled to ensure our current knowledge of underlying phenomenons is sufficient to account for circuit behavior, using either empirical models or mechanistic models. Cou- pled with metabolic circuit design, those models allowed us to develop a new biocomputation approach, called metabolic perceptrons. Overall, this thesis presents tools to design and analyze synthetic metabolic circuits, which are a novel way to perform computation in synthetic biology. i Résumé Les buts de cette thèse sont doubles, et concernent les circuits métaboliques synthétiques, qui permettent de détecter des composants chimiques par transmission de signal et de faire du calcul en utilisant des enzymes. La première partie a consisté à développer des outils d’apprentissage actif et par renforcement pour améliorer la conception de circuits métaboliques et optimiser la biodétection et la bioproduction. Pour atteindre cet objectif, un nouvel algorithme (RetroPath3.0) fondé sur une recherche arborescente de Monte Carlo guidée par similarité est présenté. Cet algorithme, combiné à des règles de réaction apprises sur des données et des niveaux différents de promiscuité enzymatique, permet de focaliser l’exploration sur les com- posés et les chemins les plus prometteurs en bio-rétrosynthèse. Les chemins obtenus par rétrosynthèse peuvent être implémentés dans des cellules ou des systèmes acellulaires. Afin de concevoir le meilleur milieu pour optimiser la productivité du système, une méthode d’apprentissage actif qui explore efficacement l’espace combinatoire des composants du milieu a été dévelop- pée. La deuxième partie a consisté à développer des méthodes d’analyse, pour générer des connaissances à partir de données biologiques, et modéliser les réponses de biocapteurs. Dans un premier temps, l’effet du nombre de copies de plasmides sur la sensibilité d’un biocapteur utilisant un facteur de transcription a été modélisé. Ensuite, en utilisant des systèmes acel- lulaires qui permettent un meilleur contrôle des variables expérimentales comme la concentration d’ADN, l’utilisation des ressources a été modélisée pour assurer que notre compréhension actuelle des phénomènes sous-jacents est suffisante pour rendre compte du comportement du circuit, en utilisant des modèles empiriques ou mécanistiques. Couplés aux outils de conception de circuits métaboliques, ces modèles ont ensuite permis de développer une nouvelle approche de calcul biologique, appelée perceptrons métaboliques. Dans l’ensemble, cette thèse présente des outils de conception et d’analyse pour les circuits métaboliques synthétiques. Ces outils ont été utilisés pour développer une nouvelle méthode permettant d’effectuer des calculs en bi- ologie synthétique. iii Résumé français détaillé 0.0.1 Introduction La biologie de synthèse est un domaine de recherche interdisciplinaire qui a vu le jour au début des années 2000, grâce à des articles fondateurs comme le repressilateur ou le switch bi-stable, mêlant connaissances en biologie et modélisation mathématique et permettant de programmer des comporte- ments dans des systèmes biologiques. En effet, grâce aux avancées permises entre autres par la baisse du coût de la synthèse d’ADN, les biologistes peu- vent désormais construire à façon des gènes, et tester leurs connaissances à une vitesse jusqu’à présent inégalée. L’objectif de la biologie de synthèse est de faire de la biologie une discipline d’ingénieurs, en standardisant et inter-opérant des éléments biologiques comme des gènes, leurs promoteurs, terminateurs et autres éléments de contrôle connus de l’expression génétique découverts par la biologie fondamentale. Depuis les débuts de ce domaine de recherche, beaucoup de travaux ont entrepris la construction de circuits génétiques ayant un comportement prédictible, comme des portes logiques ou des oscillateurs. Fabriquer de tels circuits permet de démontrer une con- naissance suffisante de la biologie sous-jacente pour obtenir des comporte- ments prédictibles, ouvrant la voie à de potentielles applications pratiques, notamment en médecine. Les échecs de ces circuits permettent aussi de découvrir les phénomènes biologiques responsables de ces erreurs et donc de progresser en biologie fondamentale. Cependant, un certain nombre de limites, dont la synchronisation temporelle des circuits génétiques compor- tant plusieurs couches ou la nécessité d’imposer un seuil pour considérer la réponse comme positive ou négative, alors que les concentrations des es- pèces biochimiques sont par essence des signaux analogiques continus, incite à proposer de nouvelles approches. Nous souhaitons donc dans cette thèse utiliser le métabolisme pour effectuer les calculs biologiques. Cette thèse propose des outils de conception et d’analyse pour développer des circuits métaboliques qui offrent une solution originale aux limites des circuits clas- siques de biologie de synthèse. v Tout d’abord, il est nécessaire de définir les défis de conception de ces cir- cuits. Il faut dans un premier temps détecter les composés, grâce à des biosenseurs qui ne sont pas l’objet principal de la thèse mais qui sont évo- qués en détail au chapitre 6. Une base de données de composés détectables par ce type de biosenseurs transcriptionnels est aussi disponible en chapitre 4. L’autre problème à résoudre est l’étape métabolique, qui transforme un composé non détectable en un composé détectable grâce à une enzyme, partie essentielle de nos futurs circuits métaboliques. Ce problème est con- ceptuellement similaire à celui de la rétrosynthèse, qui cherche à produire un composé cible à partir de composés chimiques disponibles à l’achat. La rétrosynthèse peut être formulée comme un problème d’exploration d’espace combinatoire, où les algorithmes employant la forte brute ne sont pas les plus adaptés. De nouveaux algorithmes d’apprentissage renforcé comme la recherche arborescente de Monte-Carlo (MCTS pour Monte-Carlo Tree Search par la suite) ont permis des succès majeurs dans des domaines comme les échecs ou le Go, où la force brute échouait. Le MCTS sera donc employé en chapitre 3 pour s’attaquer au problème de la biorétrosynthèse, en utilisant une heuristique de recherche adaptée au problème. La spécificité majeure de la biorétrosynthèse (comparée à la rétrosynthèse chimique traditionnelle) est la nécessité de modéliser la promiscuité enzymatique (la capacité de l’enzyme à catalyser la même réaction chimique sur des substrats différents), et sera présentée aux chapitres 1 et 2. En effet, la promiscuité enzymatique est un phénomène biologique majeur, et la considérer permet de résoudre le prob- lème de bases de données actuellement incomplètes ainsi que de fournir des enzymes pouvant servir de point de départ pour de l’évolution dirigée pour catalyser de nouvelles réactions, qui est un sujet majeur pour l’industrie de l’ingénierie métabolique. Une autre approche d’apprentissage par renforce- ment, l’apprentissage actif, permet aussi d’évoluer dans des espaces combi- natoires complexes, et sera utilisé au chapitre 5 pour optimiser le système de production dans lequel sont exprimés nos circuits métaboliques. En effet, ceux-ci seront exprimés dans des systèmes acellulaires: ce sont des lysats cellulaires supplémentés