Approches D'intégration De Données Haut Débit Sur L'interactome Humain
Total Page:16
File Type:pdf, Size:1020Kb
Approches d’intégration de données haut débit sur l’interactome humain. Ghislain Bidaut To cite this version: Ghislain Bidaut. Approches d’intégration de données haut débit sur l’interactome humain.. Sciences du Vivant [q-bio]. Aix Marseille Université (AMU), Marseille, FRA., 2020. tel-02960532 HAL Id: tel-02960532 https://hal.archives-ouvertes.fr/tel-02960532 Submitted on 7 Oct 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Ecole´ doctorale des Sciences de la Vie et de la Sant´e Approches d'int´egrationde donn´ees haut d´ebitsur l'interactome humain THESE` pr´esent´eeet soutenue publiquement le 13 Mars 2020 pour l'obtention d'une Habilitation `aDiriger les Recherches de l'Universit´eAix-Marseille (mention bio-informatique) par Ghislain A. M. Bidaut Composition du jury Pr´esident: Pr Jacques Van Helden Universit´eAix-Marseille Rapporteurs : Dr Pascal Barbry Institut de Pharmacologie Mol´eculaireet Cellulaire Dr Ana¨ısBaudot Marseille Medical Genetics Pr Ga¨elleLelandais Universit´eParis-Saclay Examinateurs : Dr Laurence Calzone Institut Curie Dr Benno Schwikowski Institut Pasteur Centre de Recherche en Canc´erologiede Marseille - Inserm U1068 - CNRS 7528 - Universit´e Aix-Marseille - Institut Paoli Calmettes Mis en page avec la classe thesul. Remerciements Je tiens à remercier chaleureusement mes mentors de master et de doctorat qui m’ont formé à l’analyse de données, les Pr Christophe Garcia (INSA Lyon) et Dr Michael Ochs (Fox Chase Cancer Center), Le Dr Chris Stoeckert qui m’a accueilli en stage post-doctoral au CBIL à Université de Pennsylvanie à Philadelphie. Le Dr Benno Schwikowski, qui m’a accueilli en stage post-doctoral à l’Unité de Biologie Systémique à l’Institut Pasteur, Paris. Les Pr Jean-Paul Borg et Dr Françoise Birg, qui m’ont accueilli et recruté comme responsable de plateforme bioinformatique au CRCM de Marseille. Merci à mon tuteur, le Pr Jacques Van Helden du TAGC, aux rapporteurs et examinateurs, ainsi qu’aux membres du Jury d’avoir relu et porté un jugement sur ce manuscrit. i ii Je dédie cette thèse à ma chère épouse, Wahiba à mes filles, Leila et Nora à mes parents, Et, bien sur, à mes amis. iii iv Sommaire Préambule xi Table des figures xiii Parcours professionnel1 Mon parcours initial3 Mise en place de la plateforme Cibi au CRCM5 Titre des travaux7 L’analyse et le traitement de données à haut débit en biologie molécu- laire 15 Chapitre 1 Analyse du transcriptome et intégration de données 17 1.1 Introduction . 17 1.2 Analyse de données à grand échelle par la bioinformatique . 18 1.3 Méthodes d’analyse d’enrichissement . 18 1.4 Présentation des chapitres de cette thèse . 19 v Sommaire Chapitre 2 Recherche d’une signature de différentiation somatique par intégration de données 23 2.1 Introduction . 23 2.2 Matériel et Méthodes . 29 2.2.1 Jeu de données . 29 2.2.2 Procédure d’intégration de données . 30 2.2.3 Projection vectorielle . 30 2.2.4 Valeurs manquantes et organisation des données . 30 2.2.5 Architecture du système et paramètres . 31 2.2.6 Algorithme de classification . 31 2.3 Classification . 31 2.4 Discussions . 34 2.5 Conclusion du chapitre . 34 Chapitre 3 Découverte de modules dans l’interactome humain liés aux mécanismes de métastase 35 3.1 Introduction . 36 3.2 Matériel et Méthodes . 38 3.2.1 Mise en place de l’interactome humain . 38 3.2.2 Compendium de données d’expression dans le cancer du sein . 38 3.2.3 Stratification des données d’apprentissage et validation croisée à 10 niveaux . 39 3.2.4 Algorithme Integration-Transcriptome-Interactome - construction des sous réseaux . 39 3.2.5 Validation statistique et filtrage des sous-réseaux . 40 3.2.6 Construction d’une signature sous-réseaux commune . 41 3.2.7 Classification des tumeurs et prédiction de la rechute métastatique sur les type ER+ et ER- sur deux jeux de données indépendants . 41 3.2.8 Ressource en ligne ITI - Enrichissement GO . 42 3.3 Résultats . 43 3.3.1 Établissement de deux jeux de sous réseaux discriminants pour les sous-types ER+ et ER- à partir d’un compendium de 930 tumeurs . 43 3.3.2 La classification par sous réseaux sur des données indépendantes montre la supériorité d’ITI par rapport à une classification sans interactome . 43 vi 3.3.3 Les signatures obtenues avec ITI montrent une stabilité supérieure sur différent jeux de données . 46 3.3.4 La biologie des sous-réseaux est plus facilement interprétable que celle des signatures classiques . 47 3.4 Discussion . 48 3.5 Remerciements . 50 3.6 Conclusions du chapitre . 50 Chapitre 4 Découverte de gènes drivers par analyse intégrée Interactome, transcriptome et génome 51 4.1 Introduction . 52 4.1.1 Sous types moléculaires dans le cancer du sein . 52 4.1.2 Intégration de données génomiques pour la découverte de gènes drivers dans les sous-types moléculaires luminal A et basal . 52 4.1.3 CNV-Intégration Transcriptome Interactome (CITI) . 53 4.2 Matériel et Méthodes . 56 4.2.1 Pipeline C-ITI . 56 4.2.2 Bases de données d’Interactions Protéines-Protéines . 56 4.2.3 Profils d’expression puces à ADN . 57 4.2.4 Profils d’amplification de copies . 58 4.2.5 Détection des gènes candidats initiaux par intégration primaire des données d’expression et d’altération génomique. 58 4.2.6 Autres bases de données d’annotations et éléments de pipeline . 58 4.2.7 Algorithme ITI d’Intégration Transcriptome Interactome . 59 4.3 Analyse . 60 4.3.1 Détection des gènes drivers avec intégration transcriptome-interactome 60 4.3.2 Visualisation des sous-réseaux . 60 4.3.3 Analyse fonctionnelle des sous-réseaux . 61 4.3.4 Identification des gènes mutés, suppresseurs de tumeurs et oncogènes 61 4.3.5 Autres méthodes d’intégration destinées à la détection de gènes drivers en cancérologie . 62 4.3.6 Méthode CONEXIC par Akavia et al. .................. 62 4.3.7 Méthode de Beroukhim et al. ....................... 63 4.4 Discussion . 63 4.5 Conclusion du chapitre . 64 4.6 Remerciements . 65 vii Sommaire Chapitre 5 Analyse de données de screening siRNA par HTS-Net : High-Throughput Screening - Network 73 5.1 Introduction . 74 5.2 Matériel et Méthodes . 77 5.2.1 Assemblage des données réseau . 77 5.2.2 Détection de sous-réseaux avec HTS-Net . 78 5.2.3 Validation statistique . 79 5.2.4 Intégration des sous-réseau interactome et regulome . 80 5.2.5 Rapport d’analyse et base de données de sous-réseaux générées par HTS-Net . 80 5.2.6 Analyse d’enrichissement en termes Gene Ontology (GO) . 81 5.2.7 Sources de données publiques . 81 5.2.8 Comparaison des résultats obtenus avec HTS-Net, HotNet2, CARD et la méthode de Gonzalez&Zimmer . 82 5.3 Analyse et Résultats . 83 5.3.1 Un nouveau pipeline pour comprendre les interactions et les phéno- mènes de régulations impactés dans un screen HTS . 83 5.3.2 Analyse réseau des déterminant de la différentiation des cellules souches embryonnaires humaines [34]....................... 83 5.3.3 Analyse réseau de la formation des mammosphères dans les cellules cancéreuses dans le sein [184]....................... 85 5.3.4 Analyse réseau des co-facteurs hôtes de réplication du virus de l’hépa- tite C [164]................................. 85 5.3.5 Comparaison de HTS-Net avec les algorithmes existants . 86 5.4 Discussion . 88 5.5 Conclusion du chapitre . 89 5.6 Remerciements . 90 Chapitre 6 Djeen : Gestion de données génomiques simplifiées sur le Web 97 6.1 Introduction . 97 6.2 État de l’art . 99 6.3 Implémentation . 100 6.3.1 Objectifs . 100 6.3.2 Système de Gestion de Contenu . 101 6.3.3 Intégration de Djeen avec Joomla ! . 102 viii 6.3.4 Organisation des données et éléments de Djeen . 103 6.3.5 Fonctionnalités et interface utilisateur . 105 6.4 Résultats et discussions . 105 6.4.1 Préparer la hiérarchie des projets dans Djeen . 106 6.4.2 Importation de données microarray(Fichiers CEL) . 106 6.4.3 Ajouter et formatter un gabarit au standard MIAME . 106 6.5 conclusion . 108 6.6 Conclusion du chapitre . 110 6.7 Remerciements . 110 Chapitre 7 Interactome dans les cellules LAM 111 7.1 Introduction . 111 7.2 Matériel et Méthodes . 112 7.2.1 Analyse d’expression par microarrays . 112 7.2.2 Analyse interactome . 112 7.2.3 Conversion d’identifiants entre organismes . 114 7.2.4 Filtrage sur les termes Gene Ontology . 114 7.2.5 Comparaison des populations cellulaires . 114 7.2.6 Enrichissement en termes GO . 115 7.2.7 Enrichissement en groupes de gènes Gene Set Enrichment Analysis(GSEA)115 7.3 Conclusion et directions futures . 115 Chapitre 8 Détermination des mécanismes de régulation génomique par intégration de données cistrome, épigénome et transcriptome 117 8.1 Introduction . 117 8.2 Matériel et Méthodes . 118 Conclusion Générale Conclusion 121 Bibliographie 125 ix Sommaire x Préambule Cette thèse a pour objet de présenter mes travaux de recherche depuis mon entrée au Centre de Recherche en Cancérologie de Marseille en vue de l’obtention de l’Habilitation à Diriger des Recherches.