Robotics-Inspired Methods to Enhance Protein Design Laurent Denarie

Robotics-inspired methods to enhance protein design Laurent Denarie To cite this version: Laurent Denarie. Robotics-inspired methods to enhance protein design. Robotics [cs.RO]. INP DE TOULOUSE, 2017. English. tel-01591457 HAL Id: tel-01591457 https://hal.laas.fr/tel-01591457 Submitted on 21 Sep 2017 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSETHÈSE En vue de l’obtention du DOCTORAT DE L’UNIVERSITÉ FÉDÉRALE TOULOUSE MIDI-PYRÉNÉES Délivré par : l’Institut National Polytechnique de Toulouse (INP Toulouse) Présentée et soutenue le 12/04/2017 par : Laurent DENARIE Robotics-inspired methods to enhance protein design JURY Rachid ALAMI Directeur de Recherche Président du Jury Charles ROBERT Directeur de Recherche Rapporteur Marilena VENDITTELLI Professeur Assistant Rapporteur Stéphane REDON Chargé de Recherche Examinateur Thierry SIMÉON Directeur de Recherche Directeur de thèse Juan CORTÉS Directeur de Recherche Co-directeur de thèse École doctorale et spécialité : MITT : Domaine STIC : Intelligence Artificielle Unité de Recherche : Laboratoire d’analyse et d’architecture des systèmes Directeur(s) de Thèse : Thierry SIMÉON et Juan CORTÉS Rapporteurs : Charles ROBERT et Marilena VENDITTELLI i Acknowledgments Cette thèse est le fruit de plus de trois années de travail au cours desquelles j’ai pu bénéficier de nombreux soutiens. Cette section est dédiée à toutes celles et ceux qui ont contribué, de près ou de loin, à la réussite de ce projet. Je remercie chaleureusement mon directeur et mon co-directeur de thèse, Thierry SIMÉON et Juan CORTÉS. Thierry a été présent dans les moments im- portants et a toujours su donner des conseils avisés. Juan a été un soutien sans faille durant ces trois années de travail. Toujours présent lors de mes nombreuses sollicitations, il a su guider mes pas sur le chemin difficile du doctorat, faisant sans cesse naître de nouvelles idées. Je remercie Charles ROBERT et Marilena VENDITTELLI, tout deux rapporteurs de mon manuscrit de thèse, pour m’avoir fait l’honneur d’accepter d’évaluer mon travail et de me faire bénéficier de leur expertise. Je remercie également Stéphane REDON pour avoir accepté de siéger en tant qu’examinateur au sein mon jury. Je remercie Rachid ALAMI pour m’avoir accueilli au sein de son équipe au LAAS-CNRS et pour avoir accepté de siéger en tant qu’examinateur au sein mon jury. Je souhaite également remercier mes collègues qui ont contribué d’une manière ou d’une autre à ce travail et plus particulièrement : • Marc VAISSET pour ses conseils toujours avisés, sa disponibilité, et son effi- cacité à résoudre les bugs. Son professionnalisme et à sa bonne humeur font de lui un collègue hors pair. • Kevin MOLLOY pour ses nombreux conseils et pour sa convivialité. Mon travail n’aurait pas été aussi abouti sans son aide précieuse. Nos chemins se recroiseront. • Didier DEVAURS pour sa disponibilité. • Ellon PAIVA MENDES pour son aide précieuse en LATEX. • Alejandro ESTAÑA, Amélie BAROZET, et Maud JUSOT pour m’avoir sup- porté pendant tout ce temps, pour avoir mis le nez dans mon code, et pour avoir contribué à la bonne humeur de l’équipe. Je remercie Stéphane CAMBON pour m’avoir mis en contact avec Rachid ALAMI et pour m’avoir permis de commencer cette aventure. Ces remerciements seraient incomplets sans y inclure toutes les personnes qui ont indirectement permis de mener ce projet à bien. Je remercie tout d’abord ma compagne, Anne BRUNO, qui a été le socle sur lequel j’ai pu me reposer tout au long de mon doctorat. Elle a su me supporter dans les moments difficiles et a été une source de motivation. Elle a également été une source d’inspiration, et le sera encore. ii Je remercie mes parents qui ont su faire de moi ce que je suis aujourd’hui. Je remercie Pierrick, Elena, Artur, et Aïva pour les moments de détente aussi bien sur les fauteuils de la cafétériat que dans les baudriers. Je remercie Laurent, Laura, Jessica, et David pour les bouffées d’air pur données au cours de ce marathon. Je remercie Nicolas, Harmish, Renaud, Alexandre, Marco, Michelangelo, Gré- goire, Ellon (à nouveau), Benjamin, Wuwei, Jules, César, Amandine, Sandra, Sarah, Arthur, Lancelot, Christophe, Clara, Etienne, Raphaël, et Mamoun pour la bonne humeur apportée au sein du laboratoire, et souvent en dehors également, que ce soit autour d’un café, d’une bière ou d’une table de pingpong. Contents Glossary vii Introduction1 1 Scientific Context5 1.1 Proteins sequence and structure.....................5 1.1.1 Amino acids, peptides, and proteins..............5 1.1.2 Sequence-function relationship.................8 1.2 Protein modeling.............................8 1.2.1 Cartesian coordinates......................9 1.2.2 Internal coordinates.......................9 1.2.3 Dimensionality reduction.................... 10 1.2.4 Coarse grained models...................... 11 1.3 Energy landscape............................. 12 1.3.1 Physical theory.......................... 12 1.3.2 Energy functions......................... 13 1.4 Computational methods for the exploration of protein conformations 14 1.4.1 Molecular dynamics....................... 15 1.4.2 Monte Carlo methods...................... 16 1.4.3 Robotics-inspired algorithms for the exploration of the conformational space......................... 17 1.5 Computational Protein Design..................... 21 1.5.1 The CPD problem........................ 22 1.5.2 The search space......................... 23 1.5.3 Current methods for CPD.................... 24 1.5.4 CPD challenges.......................... 25 2 Protein modeling and local conformational sampling 27 2.1 Mechanistic model............................ 28 2.2 Tripeptide decomposition........................ 29 2.3 Devising move classes.......................... 30 2.3.1 Perturbing particles....................... 31 2.3.2 Solving inverse kinematics for a tripeptide........... 33 2.4 Results................................... 34 2.4.1 Implemented move classes and parameter settings...... 34 2.4.2 Test systems........................... 36 2.4.3 Computational performance................... 36 2.4.4 Distribution of sampled states.................. 37 2.4.5 Exploration efficiency analysis................. 40 2.5 Conclusion................................ 44 iv Contents 3 Exploration of the conformational energy landscape 47 3.1 The exploration-exploitation dilemma................. 48 3.2 Algorithms................................ 49 3.2.1 T-RRT.............................. 49 3.2.2 Transition-based EST...................... 49 3.3 Empirical comparative analysis..................... 54 3.3.1 Molecular systems........................ 54 3.3.2 Experiment setup......................... 54 3.3.3 Results.............................. 56 3.4 Conclusion................................ 59 4 Toward protein motion design 63 4.1 Problem formulation and approach................... 64 4.1.1 Problem definition........................ 64 4.1.2 Approach............................. 65 4.2 Algorithm................................. 66 4.2.1 Simultaneous Design And Path-planning algorithm...... 66 4.2.2 Controling tree expansion.................... 67 4.2.3 Theoretical analysis....................... 68 4.3 Empirical analysis and results...................... 69 4.3.1 Test system description..................... 70 4.3.2 Benchmark results........................ 72 4.4 Application SDAP to protein motion design.............. 76 4.4.1 Problem definition........................ 76 4.4.2 Additional simplifications.................... 77 4.4.3 Preliminary experiments..................... 79 4.5 Conclusions and future work...................... 81 Conclusion 85 A French summary 89 A.1 Introduction................................ 89 A.2 Contexte scientifique........................... 90 A.2.1 Séquence des protéines et structure............... 90 A.2.2 Modélisation des protéines.................... 91 A.2.3 Paysage énergétique....................... 92 A.2.4 Méthodes d’exploration de l’espace des conformations des protéines............................. 93 A.2.5 Computational Protein Design................. 95 A.3 Modélisation des protéines et échantillonnage local des conformations 97 A.3.1 Modèle mécanique........................ 98 A.3.2 Décomposition en tripeptide................... 98 A.3.3 Création de classes de mouvement............... 99 A.3.4 Résultats............................. 99 Contents v A.4 Exploration du paysage énergétique des protéines........... 100 A.4.1 Le dilemme exploration-exploitation.............. 101 A.4.2 Algorithmes............................ 101 A.4.3 Analyse comparative empirique................. 102 A.4.4 Résultats............................. 103 A.5 Vers la conception de mouvements de protéine............ 103 A.5.1 Définition du problème et approche............... 105 A.5.2 Algorithme............................ 105 A.5.3 Analyse empirique et résultats................. 105 A.5.4 Application de SDAP à la conception d’un mouvement de protéine.............................. 106 A.6 Conclusions...............................

Robotics-Inspired Methods to Enhance Protein Design Laurent Denarie

Engines of Creation : the Coming Era of Nanotechnology K

Amfep Fact Sheet on Protein Engineered Enzymes

Technical Expertise

Protein Nanotechnology

FACULTY ENGAGED in SUSTAINABILITY RESEARCH Data from Research.Berkeley.Edu, Faculty Expertise, Pulled 1/18-23/2013

National Institute of Technology

School of Engineering

Engineering Branches

7 Engineering of Therapeutic Proteins

Altering Protein Specificity: Techniques and Applications

A Glimpse of Materials Research in China a Report from an Interagency Study Team on Materials Visiting China from June 19, 1995 to June 30, 1995

Low-N Protein Engineering with Data-Efficient Deep Learning