Normes Pour L'échange Des Modèles En Biologie Des Systèmes
Total Page:16
File Type:pdf, Size:1020Kb
Normes pour l’échange des modèles en biologie des systèmes Mémoire présenté le 12 Novembre 2013 par Nicolas LE NOVÈRE en vue de l’obtention d’une Habilitation à Diriger des Recherches de l’université BORDEAUX SEGALEN Président du jury : Pr Frédéric Yves Bois, professeur à l’université de Compiègne Rapporteur : Dr François Fages, directeur de recherche à l’INRIA Rapporteur : Dr Macha Nikolski, chargée de recherche à l’Université de Bordeaux 1 Rapporteur : Dr Denis Thieffry, professeur à l’École Normale Supérieure de Paris Membre du jury : Dr Anne Poupon, directrice de recherche à l’INRA Remerciements Merci tout d’abord aux membres du jury de cette HDR, qui ont tous répondu présent à l’appel. La recherche décrite dans ce manuscrit a bénéficié de l’apport d’un nombre très important de collègues. Il est malheureusement impossible de les remercier tous ici, et je m’en excuse. Il est également impossible de remercier toutes les organisations ayant participé au financement des réunions qui ont permis le développement des normes et de leur support informatique. Cependant, j’aimerais mentionner le Laboratoire Européen de Biologie Moléculaire (EMBL), qui à travers le support financier de mon groupe durant 9 ans a permis l’émergence de toutes ces normes et le développement de plusieurs outils clés pour leur support. L’Organisation japo- naise pour le Développement des Nouvelles Énergies et de la Technologie Industrielle (NEDO) a financé le développement de SBGN. Le Conseil pour la Recherche en Biotechnologie et en Sciences Biologiques britannique (BBSRC), l’Institut National des Sciences Médicales Géné- rales américain (NIGMS) et la Commission Européenne ont financé à différents degrés plusieurs des normes présentées. Mon activité dans le domaines des normes pour la biologie des systèmes n’aurait jamais existé sans le support de Dame Professeure Janet Thornton, qui m’a recruté au laboratoire Eu- ropéen de Bioinformatique, et m’a toujours soutenu malgré l’aspect non traditionnel de cette activité. Aucune de ces normes n’aurait vu le jour sans les impulsions visionnaires du Dr Hiroaki Kitano, une première fois pour SBML et une seconde pour SBGN. Ces visions se sont transfor- mées en réalités largement grâce au Dr Michael Hucka, qui a fait de SBML une des normes les mieux supportées en biologie. Mike est également le premier à avoir entrevu l’importance de la sémantique et la nécessité de centraliser l’échange des modèles. Le Dr Andrew Finney a joué un rôle important dans la genèse de MIRIAM et son support par SBML. Camille Laibe a développé l’infrastructure supportant l’utilisation des identifiants partagés, et Dr Nick Juty a curé le contenu du registre MIRIAM. Mélanie Courtot et Camille Laibe ont développé l’infrastructure supportant le développement et l’utilisation de SBO. Nick Juty a maintenu l’ontologie. Le Dr Dagmar Waltemath a participé à la genèse de MIASE, SED- ML et KiSAO, et est la principale source d’énergie derrière SED-ML. Dr Christian Knüpfer est le développeur initial et principal de TEDDY. Anna Zhukova a entièrement reconstruit KiSAO, est est responsable de la plus grande partie de son contenu actuel. En plus de son activité d’édi- teur pour SED-ML, le Dr Frank Bergmann a supporté inlassablement nos efforts, développant outils de démonstration et bibliothèques logicielles. Les formats normalisés décrits dans ce manuscrit sont maintenus par des éditeurs élus par la i ii communauté. Ces éditeurs ne sont pas rémunérés, et ont tous une activité professionnelle à coté. Leur travail d’éditeur est rarement reconnu, que ce soit par les utilisateurs ou d’un point de vue académique. Je les remercie, en mon nom, et au nom des coordinateurs du projet COMBINE. Je voudrais aussi remercier la communauté toute entière des modélisateurs en biologie des systèmes pour leur réactivité, leur imagination et leur esprit d’initiative. Avoir un retour tech- nique par des personnes qui maîtrisent les subtilités informatiques tout en comprenant les pro- blèmes biologiques est sans prix. Mais plus encore, je remercie cette communauté pour son excellent esprit de camaraderie, qui transforme l’atmosphère des réunions de travail et permets des progrès plus rapide. Mon grand écart entre modélisation des voies de signalisation et développement de normes ne m’a souvent pas permis d’accorder à mon groupe de recherche toute l’attention qui lui était due. Je m’en excuse et remercie ses membres de leur attitude compréhensive (teintée parfois d’incompréhension quant à l’objet de mes obsessions). Enfin je veux remercier ma famille, qui a due supporter mes voyages incessants, mes dis- cours techniques totalement incompréhensibles et mes tee-shirts aux acronymes mystérieux et à l’esthétique douteuse. Résumé Avec le succès croissant de la biologie des systèmes, modèles mathématiques et simulations numériques se multiplient dans la littérature. De plus, la taille de ces modèles augmente ainsi que leur complexité. Enfin, les utilisations des modèles informatiques se diversifient, impliquant analyses, représentations, intégration avec d’autre types de données etc. Des normes sont donc nécessaires pour s’assurer que les informations partagées, incluant la description des modèles ainsi que des procédures à leur appliquer, soient comprises et utilisées correctement. Il existe trois types principaux de normes en biologie. Les directives minimales listent l’information qui doit absolument être fournie avec une donnée afin de la rendre intelligible. Les formats structu- rés permettent d’encoder les données et les informations prescrites. Enfin les terminologies ou vocabulaires contrôlés, dont les ontologies, permettent une sémantique définie et partagée. Le Systems Biology Markup Language, développé depuis 2000, fournit un format struc- turé pour encoder les modèles en biologie des systèmes. Cependant, la description de la seule structure des modèles ne suffit pas à leur vérification et utilisation. Depuis 2005, j’ai mené la construction de briques complémentaires pour construire un mur couvrant tout le cycle de vie des modèles et de leurs utilisations. La Minimal Information Required in the Annotation of Mo- dels (MIRIAM) liste l’information qui doit être fournie avec un modèle pour permettre une réutilisation optimale. La Minimal Information About a Simulation Experiment (MIASE) liste l’information qui doit être fournie pour permettre de reproduire une expérience de simulation numérique. Afin d’encoder l’information requise par MIASE, nous avons créé le Simulation Ex- periment Description Markup Language (SED-ML). Afin d’ajouter une couche sémantique aux formats structurés, nous avons créé trois ontologies. La Systems Biology Ontology caractérise les éléments d’un modèle. La Kinetic Simulation Algorithm Ontology classifies les algorithmes utilisés pour simuler et analyser les modèles. La Terminology for the Description of Dynamics permet de décrire le comportement temporel des variables d’un système. Enfin afin de facili- ter l’exploration, la compréhension et l’échange des modèles, nous avons développé la Systems Biology Graphical Notation (SBGN). SBGN est un ensemble de langage visuels fait de sym- boles et syntaxes normalisés pour représenter les réseaux d’interactions biochimiques. L’ensemble de ces outils informatiques a permis d’améliorer l’échange et la réutilisation des modèles en biologie des systèmes. En sus de cet objectif attendu, un nouveau domaine d’activité s’est développé, dont le sujet est la construction, la comparaison et l’intégration des modèles, entre eux et avec d’autres types de données biologiques. iii Table des matières Remerciements i Résumé iii Abréviations utilisées vi 1 Introduction et présentation du travail 1 1.1 Encodage des modèles dans un format standard . .1 1.2 Curation des modèles . .5 1.3 Description des simulations . .6 1.4 Sémantique et ontologies . .8 1.5 Représentation graphique des modèles . 10 2 Directives pour l’annotation des modèles 13 3 Directives pour la description des simulations 21 4 Langage pour la description des simulations 35 5 Terminologies pour la biologie des systèmes 46 6 Norme graphique pour la biologie des systèmes 59 7 Conclusions et perspectives 83 7.1 Impact des normes présentées dans ce manuscrit . 83 7.2 Que nous manque-t’il ? . 84 iv v 7.3 Vision . 88 Bibliographie 91 A Curriculum Vitæ 97 A.1 Qualifications et titres . 97 A.2 Expérience de recherche . 97 A.3 Honneurs . 98 A.4 Financements sur dossiers . 98 B Animation de la recherche 100 B.1 Encadrement d’étudiant . 100 B.2 Enseignement . 100 B.3 Évaluation scientifique . 101 B.4 Présentations . 102 B.4.1 Invitations à présenter dans des conférences internationales . 102 B.4.2 Autres présentations . 104 B.4.3 Cours . 108 C Liste de publications 111 C.1 Publications dans des journaux à comité de lecture . 111 C.2 Publications dans des comptes rendus de conférences à comités de lecture . 121 C.3 Chapitres, éditoriaux, publications dans des revues sans comité de lecture etc. 122 C.4 Rapports techniques . 124 Abréviations utilisées Nota bene : Les versions étendues des acronymes sont considérées comme des noms propres, et sont utilisées telles quelles dans le texte, sans traduction en français. COMBINE Computational Modeling in Biology Network KiSAOK inetic Simulation Algorithm Ontology MIASEM inimum Information Required In the Annotation of Models MIRIAMM inimum Information About a Simulation Experiment SED-MLS imulation Experiment Description Markup Language SBGNS ystems Biology Graphical Notation SBGN-MLS ystems Biology Graphical Notation Markup Language SBMLS ystems Biology Markup Language SBOS ystems Biology Ontology TEDDY Terminology for the Description of Dynamics URIU niform Resource Identifier XHTML eXtensible Hypertext Markup Language XMLE xtensible Markup Language vi 1 Introduction et présentation du travail Il y a une quinzaine d’années, l’essor de la biologie des systèmes a profondément changé le paysage de la recherche en biologie. Il est encore tôt pour évaluer l’impact de cet évènement (parfois caractérisé comme un « changement de paradigme », similaire à l’arrivée de la phy- siologie au XIXème siècle ou de la biologie moléculaire au milieu du XXème).