Maladies Rares Et" Big Data": Solutions Bioinformatiques Vers Une Analyse Guidée Par Les Connaissances: Applications Aux Ciliopathies
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSITÉ DE STRASBOURG ÉCOLE DOCTORALE DES SCIENCES DE LA VIE ET DE LA SANTE Laboratoire de Génétique Médicale - UMR 1112 et Complex Systems & Translational Bioinformatics – ICube - UMR 7357 THÈSE présentée par : Kirsley CHENNEN soutenue le : 14 Octobre 2016 pour obtenir le grade de : Docteur de l’UniVersité de Strasbourg Discipline/ Spécialité : Bioinformatique et Biologie des systèmes Maladies rares et ‘Big Data’: Solutions bioinformatiques vers une analyse guidée par les connaissances. Applications aux ciliopathies. (Rare Diseases and Big Data: Biocomputing solutions towards knowledge-guided analyses. Applications to ciliopathies) THÈSE dirigée par : Mme DOLLFUS Hélène Professeur, Université de Strasbourg, Strasbourg M POCH OliVier Directeur de recherche, Université de Strasbourg, Strasbourg RAPPORTEURS : M BARBRY Pascal Directeur de recherche, IPMC, Nice M ROZET Jean-Michel Directeur de recherche, IHU Imagine, Paris AUTRES MEMBRES DU JURY : M LAPORTE Jocelyn Directeur de recherche, IGBMC, Illkirch M MOSZER IVan Docteur, Institut du Cerveau et de la Moelle Épinière, Paris Mme DAUCHEL Hélène Maître de Conférences, Université de Rouen, Rouen Remerciements Avant tout, je voudrais exprimer mes plus sincères remerciements à Pascal Barbry, Jean-Michel Rozet, Jocelyn Laporte, Ivan Moszer et Hélène Dauchel pour l’honneur qu’ils me font de juger cette thèse. Comme Raymond n’a cessé de le rappeler, cette partie est presque toujours la dernière section à être écrite, mais elle n’en demeure pas moins toute aussi importante et sinon la plus difficile à écrire, car son achèvement symbolise aussi celui de l’aventure qu’a été cette thèse. Je commencerai par remercier les laboratoires qui m’ont accueilli et qui m’ont fourni comme cadres un véritable écrin pour effectuer ma thèse. Ce fut une expérience extrêmement riche, tant du point de vue professionnel que personnel, sans compter la très bonne ambiance qui y règne et la fulgurance de tout un chacun pour le bon mot ! Merci d’abord à l’équipe LGM et aux « filles du 9ème ». Merci à Élodie, Cathy, Malika, Megana, Noëlle, Julia, Yvan et Jean-Marc qui m’ont accueilli à mon arrivée. Merci aussi à Corinne de m’avoir fait découvrir l’importance des aspects techniques et de validations essentielles pour l’analyse d’exomes, ainsi que Véronique et Jean pour les nombreuses discussions pour les aspects bioinformatiqes. Merci à Sophie et Elise pour leurs amitiés et qui ont eu la patience de m’expliquer les nombreuses subtilités existant dans le monde des maladies rares. Merci à Xiangxiang de m’avoir fait découvert la culture chinoise et tous ces bons plats. Merci à Vincent et Raj, les deux compatriotes qui ont fait vivre un peu de l’île Maurice sur Strasbourg. Je voudrais ensuite remercier les personnes du CSTB. Merci à Luc, Anne, Odile, et Laetitia pour leur gentillesse et leur bienveillance. Merci Wolfgang, notre Mozart des statistiques, qui m’a fait découvrir les arcanes et toutes les subtilités de la transcriptomique. Merci à Raymond de m’avoir fait découvrir les nombreux aspects de l’informatique (des cartes à trous jusqu’au TCL). Merci à Arnaud pour les nombreuses sessions du PoliKafé, et les jeunes du CSTB pour les nombreuses sorties : Isaac, Raphaël, Pierre, Renaud, Yannis, Hélène, Julio, Salma. Biensûre une pensée spéciale à mes « sparing partners » durant cette thèse, Alexis et Carlos pour leur amitié et leur aide tout au long de thèse. Merci à Julie d’avoir partagé sa culture anglaise non seulement via sa grande patience et ses suggestions lors de la relecture de la thèse en anglais, mais aussi en partageant les spécialités culinaires, dont le fameux christmas pudding. i Enfin, il ne reste que deux personnes sans qui cette thèse n’aurait pas été possible et pour qui les mots de remerciement me manquent pour exprimer ma gratitude. Chers Hélène et Olivier, je ne doute pas que mes nombreux prédécesseurs vous ont remercié avec des mots tout aussi choisis pour tout ce que vous avez transmis et fait pour eux scientifiquement et professionnellement parlant. C’est donc mis à part ces aspects évidents que représente l’aboutissement thèse, je vais vous remercier pour le plan humain et personnel tout au long de ces années. Pour finir, merci à ma famille et surtout vous deux, papa et maman. Cette réussite est aussi la vôtre et rien de tout cela n’existerait si vous n’aviez pas toujours été là pour tant donner et pour m’aider à réaliser mes projets. ii Preface The work realized during this thesis was carried out under the co-direction of Hélène Dollfus, head of the Laboratory of Medical Genetics (LMG), and Olivier Poch, co-head with Pierre Collet of the Complex Systems & Translational Bioinformatics (CSTB) team. The thematic of my thesis is the development of bioinformatics solutions devoted to the deciphering of rare diseases, and notably the ciliopathies. Evolving in this unique translational research environment, I had the opportunity to work on different aspects in the spectrum of problematic around rare diseases, ranging from cohort analysis up to gene identification and functional genomics data analysis. During the first part of my thesis, I had the opportunity to invest in a better comprehension of genetic and biological causes of rare diseases such as ciliopathies. The work done was realized through a close collaboration with the biologists and clinicians of the Hélène Dollfus team for the ‘classical/manual’ analysis of whole-exome data, and even, of the ‘pre-exome’ phase involving the clinical characterization of patient cohorts. In the second part of my thesis, I had the opportunity to complement this experience with an immersion in the CSTB team. Through the fruitful exchanges with the bioinformaticians and bioanalysts of the CSTB team, I could better apprehend the breadth and depth of this data-intensive era in biology, by working and manipulating different high-throughput data (from exomes to transcriptomes…). I was able to grasp not only the limits and bottlenecks of these approaches, but also the importance of the effective integration of large amounts of biological data and biomedical information at all steps of the analysis process, from the raw data analysis up to the validation step. This background helped me to conceive a stratified network view of the biological complexity of life, which I tried to integrate in the developments and bioanalyses performed during my thesis. In this manuscript, I present three original and robust bioinformatics resources (VarScrut - Chapter 5; PubAthena - Chapter 6; CilioPath - Chapter 7) resulting from this combined biomedical and bioinformatics experience and adapted to the needs of the biologists and clinicians in rare disease research. These resources have already successfully been used to identify three novel ciliopathy genes, two of which have been published (BBIP1/BBS18 as the 18th gene of a very emblematic ciliopathy, the Bardet-Biedl syndrome – see Annexe II:; VSP15, a novel ciliopathy gene linking the process of autophagy to the ciliogenesis – see Annexe III:). iii Throughout my thesis, I had the opportunity to work on different rare diseases related projects, which are not presented and discussed in this manuscript notably: i) the transcriptomics analysis for the identification of biomarkers differentiating Alström and Bardet-Biedl syndromes (in collaboration with Vincent Marion from the LMG; currently in the final validation and patenting phase), or ii) the design of a targeted gene sequencing panel for routine molecular diagnosis of Retinopathies (in collaboration with Jean Muller from the LGM; currently in the sequencing and analysis phase of 150 exomes). iv Résumé de la thèse Au cours de la dernière décennie, la recherche biomédicale et la pratique médicale ont été révolutionné par l'ère post-génomique et l'émergence des « Big Data » en biologie, qui s’est maintenant transformée en une science de données de manière intensive avec diverses approches à haut débit (génomique, protéomique, métabolomique, lipidomique ...). En conséquence, les données biologiques sont en expansion et croissent plus rapidement que notre capacité et efficacité à les compiler, les organiser et à les manipuler, limitant ainsi nos efforts pour extraire les connaissances biologiques sous-jacents et à fournir des indications en santé humaine. Les défis associés à l'ère des « Big Data » sont souvent représentés par le paradigme des quatre Vs qui englobe: i) le Volume, pour l'énorme quantité de données générées, ii) la Vélocité, pour la fréquence à laquelle les données sont générées et mis à jour, iii) la Variété, pour la diversité des sources et des structures de données et iv) la Véracité, pour l'incertitude due à de l'incohérence et des données manquantes. Il y a aussi un cinquième V émergent, qui correspond à la Valeur, pour l'extraction de connaissances significatif. Dans la biomédecine, ce paradigme émergent suppose non seulement, une meilleure intégration des données et des informations au sein et entre la recherche et la médecine, mais aussi, la considération des ressources de calculs et humaines nécessaires pour extraire une connaissance pertinente. Dans ce contexte biomédical renouvelé, l'étude des maladies rares a pris de l'ampleur car il semble que des analyses axées sur les sous-ensembles mono-géniques fournissent un contexte simplifié pour éclairer les maladies communes telles que l'obésité ou diabète. Il y a environ 7000 maladies mono-géniques rares et affecte sur l’ensemble ~30 millions d’européens. L'origine génétique des maladies rares est établie pour 80% d'entre elles, et les gènes responsables ont été identifiés pour seulement 50% d’entre elles. Paradoxalement, à notre ère des « Big Data », le facteur le plus limitant, pour l'étude des maladies rares est la rareté des données liées au nombre limité de patients atteints par une maladie rare donné. Cela se traduit en une disponibilité dispersée et parcellaire des données génétiques et phénotypiques ainsi que des matériaux biologiques.