Exploration Ontologique De Données Issues De Patients Atteints De Maladies Rares
Total Page:16
File Type:pdf, Size:1020Kb
École doctorale no 610 : Sciences et Ingénierie des Systèmes, Mathématiques, Informatique THÈSE pour l’obtention du Grade de DOCTEUR DE L’UNIVERSITÉ DE POITIERS Secteur de Recherche “Bio-informatique” présentée et soutenue publiquement par Quentin Riché-Piotaix le 20 décembre 2019 Exploration ontologique de données issues de patients atteints de maladies rares Directeur de thèse : Professeur Patrick Girard Co-encadrant de thèse : Docteur Frédéric Bilan Jury Gaëlle Calvary, Professeur Rapporteur Christèle Dubourg, Maître de conférence Rapporteur Ladjel Bellatreche, Professeur Examinateur Annie Choquet-Geniet, Professeur Examinateur Sophie Lepreux, Maître de conférence Examinateur Jean Muller, Maître de conférence Examinateur T Université de Poitiers Laboratoire d’Informatique et d’Automatique pour les Systèmes H Téléport 2 - 1 avenue Clément Ader BP40109 86961 Futuroscope Chasseneuil Cedex - France EA3808 NEUVACOD & Laboratoire de Génétique Biologique E service de Génétique, CHU de Poitiers S E Remerciements Je tiens tout d’abord à remercier mon directeur de thèse Patrick pour toute l’aide fournie, sans laquelle l’élaboration de ces travaux aurait été impossible, et pour m’avoir guidé et conseillé tout au long de ces 4 années. Je remercie particulièrement mon co-directeur Fred, de m’avoir épaulé, supporté et inspiré au quotidien, et plus que tout d’avoir cru à ce projet quand moi-même je n’y croyais plus. Mes remerciements vont aussi à Christèle Dubourg et Gaëlle Calvary de me faire l’honneur de rapporter ce travail. Je remercie également Ladjel Bellatreche, Annie Choquet-Geniet, Sophie Lepreux et Jean Muller d’avoir accepté de composer mon jury et de venir examiner ma soutenance. Le laboratoire de génétique à été un endroit idéal pour réaliser ces travaux, j’en remercie tous les acteurs que j’ai eu le plaisir de côtoyer et plus particulièrement mes camarades de café, Barbara, Sylvie, Vincent et Valérie, pour avoir contribué significativement à mon réveil chaque matin. Un autre merci particulier à Montse pour son efficacité et sa gentillesse. Je suis très heureux de pouvoir rester parmi vous quelques années de plus. Toujours au sein du laboratoire, je remercie tous ceux qui ont prit de leur temps pour tester mes différentes productions, m’expliquer des pratiques obscures et m’apporter de précieux conseils : Gwenaël, Tanguy, Fabienne, Dominique, et un merci spécial à Lucile pour les goûters et les salades. Merci à mes parents d’avoir été d’un soutien sans faille et d’une aide précieuse, comme depuis toujours. Merci à Pierre et Mathilde pour leurs soutiens, aux royaumes d’Hyrule et de l’enfer. Merci à Audessa, pour la motivation quand je n’en avais plus et pour des leçons de vie que je n’oublierai jamais. Merci à Ortie pour son soutien moral et à N pour son énergie. Enfin et surtout, Amandine, la vie à tes côtés est un tel bonheur que tout me paraît plus facile. Je t’aime. ii Table des matières Table des matières iii Liste des figures v Liste des tableaux 1 1 Introduction 3 1.1 Principales étapes de l’analyse . .5 2 Contexte 9 2.1 Cadre de la recherche . 10 2.2 Problématique et esquisse générale . 15 3 Etat de l’art général 17 3.1 Cadre théorique . 18 3.2 La Déficience Intellectuelle . 27 3.3 Les scores . 28 3.4 Tâches du généticien . 33 3.5 Manipulation de base de données . 40 3.6 Problématiques d’Interaction Homme Machine . 45 3.7 Conclusion sur la bibliographie . 47 4 Contribution base de données 49 4.1 Introduction et rappel . 50 4.2 État de l’art de la création d’ontologies . 50 4.3 Approche de recherche . 57 4.4 Détermination des liens entre les notions ontologiques et le vocabulaire métier 58 4.5 Discussion . 63 4.6 Prototype COPUNG . 64 4.7 Conclusion . 77 5 Contribution score 79 5.1 Introduction et rappel . 80 5.2 État de l’art spécifique . 80 5.3 Synthèse de la bibliographie . 95 5.4 Approche choisie . 100 5.5 GenSCor ...................................... 103 5.6 Méthodologie d’évaluation . 108 5.7 Résultats . 110 iii TABLE DES MATIÈRES 6 Conclusion 133 6.1 Contextualisation . 134 6.2 Résumé de nos travaux . 135 6.3 Perspectives de recherches et d’améliorations . 137 A Liste des acronymes 147 B Glossaire 149 C Table des adresses URL 151 D rulesets des utilisateurs 153 iv Liste des figures 1.1 Processus d’analyse d’un exome . .4 1.2 Schéma illustrant la notion de profondeur de séquençage . .5 1.3 Récapitulatif du processus d’analyse réalisé par le généticien . .8 2.1 Schéma du positionnement de nos contributions sur le processus global de l’analyse de données d’exomes . 16 3.1 Schéma du principe de séquençage selon Illumina 1) Ajout du nucléotide marqué 2) Fixation et blocage de la séquence par le fluorochrome 3) Excitation au laser, libération de la séquence et émission du flurochrome excité . 22 3.2 2 reads au format fastq ............................... 24 3.3 Visualisation de 2 reads au format bam ...................... 26 3.4 Nombre de publications contenant la notion de score par année dans la base de données PubMed . 29 3.5 Les six étages de l’ontoloy learning . 43 4.1 Schéma du fonctionnement de la méthode DILIGENT ............. 53 4.2 Schéma du fonctionnement de la méthode HCOME .............. 54 4.3 Schéma de l’agencement des étapes de création d’une ontologie dans la méthode UPON Lite ..................................... 55 4.4 Schéma des étapes de création d’une ontologie via la méthode Ontology Maturing 57 4.5 Les dix premières lignes de l’export de l’ontologie HPO . 59 4.6 Les dix premières lignes de l’export de dbSNP ................. 59 4.7 Les dix premières lignes de l’export d’OMIM . 60 4.8 Le schéma entités-association de l’export de l’ontologie HPO . 60 4.9 Le schéma entités-association de l’export de la morbidmap d’OMIM . 60 4.10 Le schéma entités-association de la base de données dbSNP .......... 61 4.11 Schéma récapitulatif de l’ajout d’un export de base de données à l’ontologie 65 4.12 L’interface d’import des données dans le prototype COPUNG, avant le test des paramètres. 67 4.13 L’interface d’import des données dans le prototype COPUNG avec l’affichage des données. 67 4.14 L’interface d’ajout des concepts dans le prototype COPUNG . 68 4.15 L’interface de création d’un nouveau concept dans le prototype COPUNG . 68 4.16 L’interface de création des concepts dans le prototype COPUNG . 68 4.17 Le concept de gène tel qu’il est sauvegardé dans l’ontologie . 69 4.18 L’interface de création des relations dans le prototype COPUNG . 69 4.19 L’interface de création des relations dans le prototype COPUNG avec une visualisation de relation . 70 4.20 La sauvegarde d’une relation dans l’ontologie du prototype COPUNG . 70 4.21 Le schéma entités-association global des trois bases de données OMIM, HPO et dbSNP ...................................... 71 4.22 Le schéma de l’ontologie produite par l’utilisateur F .............. 72 v LISTE DES FIGURES 4.23 Le schéma retravaillé de l’ontologie de l’utilisateur F ............. 73 4.24 Le schéma de l’ontologie produite par l’utilisateur X .............. 73 4.25 Le schéma de l’ontologie produite par l’utilisateur S .............. 74 4.26 Le schéma de l’ontologie produite par l’utilisateur G .............. 75 5.1 Capture d’écran de l’interface d’annotation de QueryOR ............ 81 5.2 Capture d’écran d’une règle élaborée sous QueryOR .............. 81 5.3 Capture d’écran de la présentation des résultats groupés de QueryOR .... 82 5.4 Capture d’écran de la présentation des résultats détaillés de QueryOR .... 82 5.5 Capture d’écran de la présentation des résultats par gène de QueryOR ; les cadres 1 et 2 correspondent aux variations ; les exons sont représentés par les bandes blanches au-dessus des variations et détaillés par transcrit en-dessous. 83 5.6 Capture d’écran de la présentation des résultats téléchargés depuis QueryOR 86 5.7 Capture d’écran de la présentation des filtres dans Varaft ........... 87 5.8 Capture d’écran de la présentation des variants dans Varaft .......... 87 5.9 Capture d’écran de la présentation de VCF-miner ............... 90 5.10 Récapitulatif du processus de filtration . 99 5.11 Capture d’écran d’un exemple de règle . 104 5.12 Capture d’écran du menu d’ajout des règles . 104 5.13 Capture d’écran de la fenêtre des options de GenSCor ............. 106 5.14 Capture d’écran d’une règle ET ......................... 106 5.15 Capture d’écran d’une règle OU ......................... 107 5.16 Capture d’écran du format d’une sauvegarde de ruleset ............ 107 5.17 Capture d’écran du menu File de GenSCor ................... 108 5.18 Nombre de critères utilisés pour chaque utilisateur . 112 5.19 Nombre de critères partagés en fonction du nombre d’utilisateurs . 113 5.20 Profil des rulesets de l’utilisateur F. FDR : F. dominant sur des gènes recherches, FDO : F. dominant sur des gènes OMIM, FRO : F. récessif sur des gènes OMIM, FX : F. sur le chromosome X. 117 5.21 Profil des rulesets de l’utilisateur G. GAR : G. autosomique récessif, GX : G. sur le chromosome X, GAD : G. autosomique dominant, GDN : G. De novo.. 117 5.22 Profil des rulesets de l’utilisateur L. LD : L. Dominant, LX : L. sur le chromo- some X, LR : L. récessif . 118 5.23 Profil du ruleset de l’utilisateur T......................... 118 5.24 Positionnement des variations pathogènes parmi les premiers rangs . 122 5.25 Comparaisons des approches utilisées par les différents utilisateurs .