Le 23 Novembre 2017 Par Aurélia CAPUTO
Total Page:16
File Type:pdf, Size:1020Kb
AIX-MARSEILLE UNIVERSITE FACULTE DE MEDECINE DE MARSEILLE ECOLE DOCTORALE DES SCIENCES DE LA VIE ET DE LA SANTE T H È S E Présentée et publiquement soutenue à l'IHU – Méditerranée Infection Le 23 novembre 2017 Par Aurélia CAPUTO ANALYSE DU GENOME ET DU PAN-GENOME POUR CLASSIFIER LES BACTERIES EMERGENTES Pour obtenir le grade de Doctorat d’Aix-Marseille Université Mention Biologie - Spécialité Génomique et Bio-informatique Membres du Jury : Professeur Antoine ANDREMONT Rapporteur Professeur Raymond RUIMY Rapporteur Docteur Pierre PONTAROTTI Examinateur Professeur Didier RAOULT Directeur de thèse Unité de recherche sur les maladies infectieuses et tropicales émergentes, UM63, CNRS 7278, IRD 198, Inserm U1095 Avant-propos Le format de présentation de cette thèse correspond à une recommandation de la spécialité Maladies Infectieuses et Microbiologie, à l’intérieur du Master des Sciences de la Vie et de la Santé qui dépend de l’École Doctorale des Sciences de la Vie de Marseille. Le candidat est amené à respecter des règles qui lui sont imposées et qui comportent un format de thèse utilisé dans le Nord de l’Europe et qui permet un meilleur rangement que les thèses traditionnelles. Par ailleurs, les parties introductions et bibliographies sont remplacées par une revue envoyée dans un journal afin de permettre une évaluation extérieure de la qualité de la revue et de permettre à l’étudiant de commencer le plus tôt possible une bibliographie exhaustive sur le domaine de cette thèse. Par ailleurs, la thèse est présentée sur article publié, accepté ou soumis associé d’un bref commentaire donnant le sens général du travail. Cette forme de présentation a paru plus en adéquation avec les exigences de la compétition internationale et permet de se concentrer sur des travaux qui bénéficieront d’une diffusion internationale. Professeur Didier RAOULT Remerciements Je tiens tout d'abord à remercier mon directeur de thèse, le Professeur Didier Raoult pour m'avoir donné l’opportunité de faire une thèse, pour sa confiance et son encadrement pendant ces 4 années de thèse. Je souhaite remercier les Professeurs Antoine Andremont et Raymond Ruimy pour avoir accepté d'être les rapporteurs de ce travail. Je remercie également le Docteur Pierre Pontarotti d'avoir accepté de faire partie de mon jury en tant qu'examinateur. Je remercie également toutes les personnes qui ont travaillé avec moi de près ou de loin. Merci à mes collègues de la plateforme de Bio- informatique et à celles de la plateforme de Séquençage. Pour finir, je tiens à remercier tout particulièrement ma famille pour leur amour et leur soutien pendant ces 4 années de thèse. TABLE DES MATIÈRES RÉSUMÉ ………………………………………………….. 1 ABSTRACT……………………………………………….. 4 INTRODUCTION..……………………………………….. 7 Avant-propos.……………………………………… 7 REVUE.………………………………………….... 12 Genome and pan-genome analysis to classify emerging bacteria PARTIE I.…………………………………………..………50 Assemblage du génome de Akkermansia muciniphila directement à partir de la métagénomique Avant-propos .………………………………….…...51 ARTICLE 1.……………………………………...…54 Whole-genome assembly of Akkermansia muciniphila sequenced directly from human stool PARTIE II.………………………………………………… 66 Étude du génome de Microvirga massiliensis Avant-propos.……………………………………… 67 ARTICLE 2 .………………………………………. 70 Microvirga massiliensis sp. nov., the human commensal with the largest genome PARTIE III.………………………………………...……… 87 Analyse du pan-genome de Klebsiella pneumoniae Avant-propos.……………………………………… 88 ARTICLE 3.……………………………..………… 91 Pan-genomic analysis to redefine species and subspecies based on quantum discontinuous variation: the Klebsiella paradigm CONCLUSIONS ET PERSPECTIVES.…………...…… 104 ANNEXE I.……………………………………………..… 107 Étude du microbiote intestinal humain par culturomics Avant-propos.…………………………………....…108 ARTICLE 3.…………………………………….… 110 Culture of previously uncultured members of the human gut microbiota by culturomics ANNEXE II.………………………………………….…… 119 Étude du génome de Haloferax massilliensis Avant-propos.……………………………...……… 120 ARTICLE 4……………………………………….. 122 Genome sequence and description of Haloferax massiliensis sp. nov., a new halophilic archaea isolated from the human gut REFERENCES DES AVANT- PROPOS…………………166 RÉSUMÉ Depuis l'introduction du séquençage de l'ADN par Sanger et Coulson en 1977, d'énormes progrès ont été réalisés. Un nombre croissant de données est généré dans plusieurs domaines et nécessite de plus en plus de progrès en informatique. La bio-informatique est essentielle aujourd'hui dans de nombreux domaines comme par exemple la gestion et l'analyse des données, la génomique avec l'assemblage et l'annotation de génomes, la génomique comparative, la phylogénie, la métagénomique, la recherche de nouvelles espèces bactériennes et la classification taxonomique. Mon premier travail a porté sur l'assemblage et l'analyse d'un génome bactérien à partir de données de métagénomique. Le génome d'Akkermansia muciniphila a pu être assemblé par mapping directement à partir de données issues d'échantillons de selle humaine. Les données provenaient des séquenceurs SOLiD et Roche 454 générant 1.4 1 Gb de reads. La culturomics permet l'étude de microbiotes humains grâce à l'utilisation de différentes conditions de culture couplée à une méthode d'identification rapide par MALDI-TOF, ou par l'ARNr 16S. En 2012, cette méthode a permis de décrire le plus grand génome d'une bactérie isolée chez l'homme ; Microvirga massiliensis (9.3 Mb). Mon deuxième travail a permis d'assembler ce génome à l'aide de 8 runs en 454 et 1 run en MiSeq Illumina. Par la suite, nous avons essayé de comprendre pourquoi cette bactérie a un génome si grand. En effet, on observe qu'elle possède un plasmide, un nombre important d'ORFans et d'ARNr 16S ainsi que des gènes de grande taille dont un mesure plus de 14kb. Elle comporte également un nombre important de transposases créant des éléments répétés au niveau du génome. Enfin, la troisième et dernière partie de mon travail se base sur les analyses de pan-génome pour la taxonomie 2 bactérienne. La taxonomie est sujette à de nombreux changements selon les données disponibles et les méthodes utilisées, et suit l'évolution des techniques d'identification des bactéries. Nous avons alors redéfinit la notion d'espèce à l'aide du pan-génome au niveau du genre Klebsiella. En effet, une différence trop importante entraînant une cassure au niveau du ratio core/pan-génome, révèle indubitablement l'apparition d'une nouvelle espèce. Cette découverte nous amène à utiliser le pan-génome comme outils novateur pour la taxonomie bactérienne. Mots clés : Bio-informatique, génomique, culturomics, taxonomie, pan-génome, définition d'espèces 3 ABSTRACT Since the introduction of DNA sequencing by Sanger and Coulson in 1977, considerable progress has been made. A growing number of data is being generated in several areas and requires more and more advances in computing. Bio- informatics is essential today in many fields such as data management and analysis, genomics with assembly and genome annotation, comparative genomics, phylogeny, metagenomics, research new bacterial species and taxonomic classification. My first work based on assembling and analyzing bacterial genome from metagenomic data. The genome of Akkermansia muciniphila could be assembled by mapping directly from data from human stool sample. Data obtained from SOLiD and Roche 454 sequencers generating 1.4 Gb of reads. Culturomics allows the study of human microbiota by 4 the use of several culture conditions with a rapid identification method by MALDI-TOF or by 16S rRNA. In 2012, this method allowed to describe the largest genome of a bacterium isolated in human; Microvirga massiliensis (9.3 Mb). My second work allowed to assemble this genome using 8 runs from 454 and 1 run from MiSeq Illumina. Subsequently, we tried to understand why this bacterium has such a large genome. Indeed, it is observed that it possesses a plasmid, a large number of ORFans and 16S rRNAs as well as large genes which one is more than 14kb. It also includes a large number of transposases creating repeated elements at the genome level. Finally, the third and last part of the work concerns pan- genome analyzes for bacterial taxonomy. Taxonomy is a set of many changes based on available data, methods used and evolution of bacterial identification techniques. We have examined the notion of species using the genome at the genus Klebsiella. Indeed, a too large difference leading to a break in 5 the core/pan-genome ratio undoubtedly reveals the appearance of a new species. This discovery leads us to use the pan- genome as an innovative tool for bacterial taxonomy. Keywords: Bioinformatics, genomics, culturomics, taxonomy, pan-genome, species definition 6 INTRODUCTION Avant-propos L'objectif de cette thèse est l'analyse des génomes bactériens émergents ainsi que leur pan-génome afin de les définir et les classifier en fonction de leur contenu génomique. La première partie de mon travail est une synthèse bibliographique sous forme d'une revue. Ce travail vise à montrer le rôle de la génomique et du pan-génome dans la classification des bactéries. L'étude de l'écosystème digestif bactérien a été explorée pour la première fois par culture microbienne dans les années 70 [1]. La naissance de la génomique, puis le développement des méthodes de séquençage de nouvelle génération (NGS) en 2004, ont permis de découvrir l'incultivable comme le génome d'une souche de notre laboratoire ; Akkermansia muciniphila ainsi que le plus grand génome bactérien isolé chez l'homme,