Modèles Bio-Informatiques Pour Les Peptides Non-Ribosomiques Et Leurs Synthétases Maude Pupin
Total Page:16
File Type:pdf, Size:1020Kb
Modèles bio-informatiques pour les peptides non-ribosomiques et leurs synthétases Maude Pupin To cite this version: Maude Pupin. Modèles bio-informatiques pour les peptides non-ribosomiques et leurs synthétases. Bio-informatique [q-bio.QM]. Université des Sciences et Technologie de Lille - Lille I, 2013. tel- 00918918 HAL Id: tel-00918918 https://tel.archives-ouvertes.fr/tel-00918918 Submitted on 16 Dec 2013 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Mod`eles bio-informatiques pour les peptides non-ribosomiques et leurs synth´etases M´emoire pr´esent´ele 3 d´ecembre 2013 pour l’obtention de l’Habilitation `aDiriger des Recherches en informatique par Maude Pupin Composition du jury Rapporteurs : Muriel Gugger, responsable de laboratoire, Institut Pasteur de Paris Fr´ed´erique Lisacek, group leader, Swiss Institute of Bioinformatics Pierre Tuff´ery, DR INSERM, INSERM UMR-S 973 Examinateurs : Gilbert Del´eage, Professeur, Universit´ede Lyon Pierre Boulet, Professeur, Universit´eLille 1 Directeur : H´el`ene Touzet, DR CNRS, UMR CNRS 8022 et Inria Lille-Nord Europe UNIVERSITE´ Lille 1 Laboratoire d’Informatique Fondamentale de Lille — UMR CNRS 8022 U.F.R. d’I.E.E.A. – Bˆat. M3 – 59655 VILLENEUVE D’ASCQ CEDEX i À ma famille qui a accepté que je passe beaucoup de temps à travailler, au lieu d’être avec elle À Frédéric qui partage mes bonheurs et soulage mes peines À mes filles, Eléonore et Capucine, mes rayons de soleil ii iii Merci Pour commencer, merci à Hélène Touzet sans qui le travail présenté dans ce mémoire n’aurait pu se faire. Elle a construit l’équipe de recherche en bio-informatique sur Lille, Bonsai. Elle a soutenu dès le début le projet de recherche sur les peptides non-ribosomiques et a permis qu’il se développe en le soutenant politiquement et financièrement. Enfin, elle m’a fait confiance pour mener à bien ce projet, aidée de mes collaborateurs. Merci à Muriel Gugger, Frédérique Lisacek et Pierre Tufféry d’avoir accepté d’être les rapporteurs de mon HdR, ainsi que Gilbert Deléage et Pierre Boulet d’avoir accepté de faire partie de mon jury. Merci à Mathieu Giraud, Laurent Noé, Aïda Ouangraoua, Hélène Touzet et Jean- Stéphane Varré d’avoir relu attentivement mon mémoire et pour leurs conseils avisés qui m’ont permis de l’améliorer. Merci à Valérie Leclère, ma coéquipière sur le sujet de la bio-informatique pour les peptides non-ribosomiques, de transmettre sa bonne humeur. Ensemble, nous avons surmonté les épreuves et remporté des victoires. Merci à Philippe Jacques d’avoir apporté les recherches concernant les peptides non- ribosomiques sur Lille et d’avoir œuvré pour que la bio-informatique dédiée à ces molécules se développe. Merci à Ségolène Caboche d’avoir choisi le sujet de master recherche puis de thèse que nous avions proposé et d’avoir brillamment donné vie à Norine. Merci à Areski Flissi, Stéphane Janot et Laurent Noé d’avoir pris en charge les as- pects techniques de Norine. Un merci particulier à Areski d’avoir choisi de rejoindre l’équipe Bonsai et de consacrer une partie de son temps aux peptides non-riboso- miques et à Laurent de se lancer avec moi dans la chemo-informatique. Merci à Yoann Dufresne d’avoir choisi le sujet de master recherche puis de thèse que nous avons proposé et d’être motivé pour mener à bien ses recherches. Merci aux étudiants, ingénieurs, doctorants et postdoctorant avec qui j’ai travaillé pour leur contribution à la bio-informatique pour les peptides non-ribosomiques et leurs enzymes. Merci à Aïda Ouangraoua, Jean-Stéphane Varré et Stéphane Janot, mes voisins de bureau, pour les discussions que nous avons eues. Merci à Jean-Frédéric Berthelot, Mikaël Salsom et quelques autres pour les bons plats qu’ils amènent lors des repas du mardi midi. Merci aux membres de l’équipe Bonsai que je n’ai pas cités pour les discussions lors des repas, des poses ou des pots. Merci aux habitués de la salle cafet’ du M3 de me changer les idées lors des repas de midi. Merci à tout le personnel technique et administratif de faire fonctionner l’Université et Inria. Bonjour aux collègues enseignants, aux membres du laboratoire ProBioGEM que je côtoie et à tous les collègues que je n’ai pas cités ici. iv Table des matières Avant-propos 1 Introduction 3 1 Stratégies d’annotation des synthétases peptidiques non-ribosomiques 7 1.1 Introduction et motivations . 7 1.2 Mécanisme de synthèse non-ribosomique . 8 1.2.1 Incorporation des acides aminés . 9 1.2.2 Liaison entre acides aminés . 10 1.2.3 Incorporation d’acides aminés sous la forme D . 10 1.2.4 Incorporation d’acides aminés modifiés . 12 1.2.5 Incorporation d’autres monomères . 14 1.2.6 Libération du peptide . 14 1.3 Bio-informatique pour l’annotation des synthétases . 15 1.3.1 Prédiction de gènes et annotation de protéines . 15 1.3.2 Logiciels d’annotation des synthétases peptidiques non-ribosomiques . 17 1.4 Exploration du potentiel de synthèse de genres bactériens . 23 1.4.1 Protocole d’annotation de synthétases peptidiques non-ribosomiques . 23 1.4.2 Annotation à grande échelle de synthétases . 27 1.4.3 Encadrements et collaborations . 29 2 Norine, plate-forme d’analyse bio-informatique des peptides non-ribosomiques 33 2.1 Introduction et motivations . 33 2.2 Diversité des peptides non-ribosomiques . 34 2.2.1 Diversité de composition . 35 2.2.2 Diversité de liaisons chimiques . 37 2.2.3 Diversité de structures bidimensionnelles . 41 2.2.4 Peptides et plus encore . 44 v vi Table des matières 2.2.5 Diversité d’activités . 45 2.2.6 Diversité des organismes producteurs . 47 2.3 Modèles bio-informatiques pour les peptides non-ribosomiques . 49 2.3.1 Bases de données contenant des PNR ou d’autres peptides. 49 2.3.2 Outils pour la spectrométrie de masse pour les PNR . 52 2.4 La plate-forme Norine ................................ 52 2.4.1 Les données de Norine ............................ 53 2.4.2 Les algorithmes de recherche de peptides selon leur structure . 57 2.4.3 Encadrements et collaborations . 62 Conclusion et perspectives 65 Bibliographie 67 Curriculum vitæ 77 article Norine 85 article Motif 91 article Monomères 101 article Fingerprint 109 article Kurstakin 117 Avant-propos Ce document retrace les travaux de recherche que j’ai menés au sein de l’équipe Bonsai du LIFL et du centre Inria Lille Nord-Europe depuis 2006. L’année 2006 a été pour moi une année charnière dans ma carrière. À mon arrivée sur Lille en 2000, moins d’un an après la fin de ma thèse, j’ai choisi d’investir mon temps dans l’enseignement. Le défi était de concevoir des cours et supports de TP ab initio car, à l’époque, la bio-informa- tique n’était pas enseignée à l’Université Lille 1 et peu à l’échelle nationale. Avec mes collègues Hélène Touzet et Jean-Stéphane Varré, j’ai mis en place les enseignements d’introduction à la bio-informatique pour les étudiants en filières biologiques. D’ailleurs, nos matériels pédagogiques sont disponibles sur Internet et ont été repris par d’autres enseignants en France. J’ai également créé le DESS Bio-informatique de Lille avec Hélène Touzet et nous l’avons co-dirigé pendant 5 ans, entre 2001 et 2006. Les cinq promotions ont rassemblé entre 12 et 18 étudiants issus d’un cursus en informatique dont la moitié ne provenait pas de l’Université Lille 1. Environ un quart des diplômés occupe en emploi dans le domaine de la bio-informatique aussi bien en France qu’à l’étranger et certains ont fait une thèse. Les autres travaillent dans le domaine de l’informa- tique «traditionelle». En parallèle de mon investissement pédagogique, j’ai continué les recherches débutées pendant ma thèse sur la comparaison de séquences nucléiques, en collaboration avec Claudine Devauchelle, Ivan Laprevotte, Alex Grossmann et Alain Hénaut du laboratoire Sta- tistique et Génome de l’Université d’Évry, et Gilles Didier de l’Institut de Mathématiques de Luminy. Nous avons publié ensemble trois articles sur cette période. Le premier [68], écrit en 2001, présente les observations réalisées sur les séquences LTR (Long Terminal Repeat) des virus de l’immunodéficience humaine (VIH) grâce à notre méthode d’aide à l’alignement, appelée N- écriture. Le deuxième article [32], publié en 2006, formalise notre méthode qui est alors présentée comme le décodage local à l’ordre N d’une séquence. En 2007, nous avons publié un calcul de distances basé sur le décodage local, accompagné d’une application à l’identification des sous- types de VIH [31]. Sur cette même période, j’ai également co-signé un article sur l’annotation des génomes de différentes souches d’Helicobacter pilori [14], présentant des recherches réalisées pendant ma thèse. J’ai choisi de ne pas inclure ces travaux dans ce mémoire car je ne contribue plus désormais à ces thèmes. Les rencontres avec mes collègues biologistes dans le cadre des enseignements de bio-informa- tique, ont été l’occasion d’apprendre à connaître les recherches menées dans les laboratoires de biologie de la métropole lilloise.