Desarrollo Y Aplicación De Herramientas Computacionales Para El Análisis Taxonómico Y Patogenómico De Procariotas
Total Page:16
File Type:pdf, Size:1020Kb
Tesis de Doctorado en Biología (PEDECIBA) Subárea Biología Celular y Molecular Desarrollo y aplicación de herramientas computacionales para el análisis taxonómico y patogenómico de procariotas October 11, 2016 Unidad de Bioinformática Institut Pasteur Montevideo Autor GREGORIO IRAOLA Orientador HUGO NAYA Tribunal Elena Fabiano (Presidente) Alejandro Buschiazzo (Vocal) Héctor Romero (Vocal) 3 Prefacio En esta Tesis se presentan de forma unificada las actividades de inves- tigación llevadas a cabo en la Unidad de Bioinformática (en colaboración con otras instituciones locales y extranjeras) entre los años 2010 y 2016. Estas actividades comenzaron en el marco de mi Maestría en Bioinformática (PEDECIBA), donde desarrollé algunas aproximaciones para la predicción de patogenicidad a partir del análisis de genomas bacterianos. Estos resultados dieron lugar a una línea de investigación dedicada al estudio genómico de microorganismos y a optar por el pasaje al programa de Doctorado en Biología, subárea Biología Celular y Molecular (PEDECIBA) en 2014. En estos seis años de formación de posgrado he continuado con el desarrollo y aplicación herramientas de biología computacional para el análisis de geno- mas procariotas, con el objetivo específico de responder preguntas generales y particulares acerca de la clasificación taxonómica de los procariotas y su patogenicidad utilizando datos producidos por tecnologías de secuenciación masiva. El hilo conductor de la Tesis es el estudio de genomas procariotas por medios computacionales aunque, debido a la diversidad de temas especí- ficos abordados, la misma ha sido dividida en tres partes y un total de diez capítulos. Cada capítulo representa en su totalidad un artículo científico ya publicado o en vías de publicación en revistas científicas internacionales. La parte uno consta de tres capítulos que describen herramientas de análisis desarrolladas para la predicción de patogenicidad y la clasificación tax- onómica de procariotas a partir de sus genomas. La parte dos consta de cuatro capítulos centrados en diferentes aspectos de la biología del género Campylobacter, desde la descripción taxonómica de nuevas especies al estudio de la epidemiología y patogenicidad de especies ya conocidas. Finalmente, en la parte tres confluyen trabajos puntuales que se han desarrollado en la misma línea de investigación, particularmente en el estudio transcripcional de leptospiras formadoras de biofilms y la producción y análisis de genomas de casos clínicos de Mycobacterium tuberculosis en Uruguay. Contenidos Contenidos 4 Lista de Figuras 9 Lista de Figuras Suplementarias 11 Lista de Tablas 12 Lista de Tablas Suplementarias 13 I Predicción de fenotipos a partir de genomas bacterianos (Predicting phenotypes from bacterial genomes) 15 1 Genome-based prediction of bacterial pathogenicity in humans 17 1.1 Abstract ............................. 18 1.2 Introduction .......................... 18 1.3 Results and Discussion .................... 21 1.3.1 Classification model. ..................... 23 1.3.2 Model testing and comparison. 25 1.3.3 Biological interpretation. 27 1.3.4 Phylogenetic distribution of virulence genes. 36 1.3.5 Misclassified organisms. ................... 38 1.3.6 Model sensitivity. ...................... 41 1.3.7 Software development: the BacFier. 42 1.3.8 Conclusions. ......................... 42 1.4 Methods ............................. 43 1.4.1 Data selection and matrix construction. 43 1.4.2 Model construction. ..................... 44 1.4.3 Y-randomization test. .................... 45 1.4.4 Genes significance and frequency calculation. 46 1.5 Acknowledgments ...................... 47 1.6 References ........................... 47 5 1.7 Supplementary material ................... 52 2 Modeling the emergence of new pathogens from genomes 57 2.1 Abstract ............................. 58 2.2 Introduction .......................... 58 2.3 Results and Discussion .................... 61 2.3.1 Phylogenetic representativeness. 61 2.3.2 Modeling pathogens emergence. 62 2.3.3 Genes implied in transformation. 65 2.3.4 Modeling real samples. ................... 66 2.4 Conclusions .......................... 72 2.5 Methods ............................. 73 2.5.1 Phylogenetic representativeness. 73 2.5.2 Defining genes that shift class to pathogen. 73 2.5.3 Modeling HGT events. .................... 74 2.5.4 Transformation probability and theoretical risk index. 75 2.5.5 Model implementation in R and visualization of results. 75 2.6 Acknowledgements ...................... 76 2.7 References ........................... 76 2.8 Supplementary material ................... 78 3 Wedding higher taxonomic ranks with metabolic signatures coded in prokaryotic genomes 83 3.1 Abstract ............................. 84 3.2 Letter .............................. 84 3.3 Methods ............................. 91 3.3.1 Genomic data. ........................ 91 3.3.2 Classification models. .................... 91 3.3.3 Taxonomy prediction. .................... 92 3.3.4 KARL package. ....................... 92 3.4 Acknowledgments ...................... 93 3.5 References ........................... 93 3.6 Supplemental material .................... 96 II Patogenómica del género Campylobacter (Pathogenomics of the genus Campylobacter) 103 4 Campylobacter genomics: emergence of pathogenicity and niche evolution 105 4.1 Abstract ............................. 106 4.2 Introduction . 106 6 4.3 Methods ............................. 109 4.3.1 Bacterial strains, sequencing and assembly. 109 4.3.2 Orthologous groups, virulence factors, and gene ontologies. 110 4.3.3 Phylogenetics, ancestral reconstruction and selection. 110 4.3.4 Secretome analysis. 111 4.4 Results and Discussion . 112 4.4.1 Campylobacter sputorum genome overview. 112 4.4.2 Evolution of pathogenicity. 113 4.4.3 Comparative functional analysis. 118 4.4.4 Secretomes, compositional differences and selection. 121 4.4.5 Host cells invasion and adhesion. 125 4.4.6 The evolutionary mechanism of Campylobacter pathogenicity. 127 4.5 Acknowledgments . 129 4.6 Supplementary material . 130 4.7 References . 133 5 Genomes uncover cattle-to-human transmission of Campylobac- ter fetus in Uruguay 140 5.1 Abstract ............................. 141 5.2 Case presentation . 141 5.3 Molecular and genomic characterization . 142 5.4 Discussion . 143 5.5 References . 146 6 The sprinter genomes of Campylobacter hyointestinalis: yet an- other emerging pathogen 150 6.1 Abstract ............................. 151 6.2 Introduction . 151 6.3 Methods ............................. 152 6.3.1 Sampling and bacterial isolation. 152 6.3.2 Whole genome sequencing. 153 6.3.3 Genome diversity analyses. 153 6.3.4 Whole-genome phylogeny and population structuring. 154 6.3.5 Recombination and substitution rates. 154 6.4 Results .............................. 155 6.4.1 Genomic diversity. 155 6.4.2 Population structure and transmission. 158 6.4.3 Genome-wide recombination and mutation rates. 158 6.5 Discussion . 161 6.6 Acknowledgements . 164 6.7 References . 164 6.8 Supplementary material . 168 7 7 Campylobacter geochelonis: a new species from Hermann’s tes- tudines 175 7.1 Abstract ............................. 176 7.2 Phenotypic and genomic characterization . 176 7.3 Description of Campylobacter geochelonis sp. nov. 186 7.4 Acknowledgments . 187 7.5 References . 187 III Estudios genómicos en otros organismos (Genomic studies in other organisms) 191 8 The transcriptome of Leptospira biflexa biofilms 192 8.1 Abstract ............................. 193 8.2 Introduction . 193 8.3 Methods ............................. 195 8.3.1 Leptospira biflexa cultures and biofilm experiments. 195 8.3.2 RNA purification and sequencing. 196 8.3.3 Detection of differentially expressed genes. 197 8.3.4 Functional annotation and co-expression analyses. 198 8.3.5 Confirmation of differentially expressed genes by RT-PCR. 198 8.4 Results and Discussion . 199 8.4.1 Transcriptomic overview of L. biflexa. 199 8.4.2 Expression through replicons. 200 8.4.3 Replication and cell growth. 201 8.4.4 Lack of translational motility. 202 8.4.5 Over-expression of genes for outer membrane proteins. 204 8.4.6 Metabolism of sugars and lipids. 205 8.4.7 Iron uptake. 208 8.4.8 Regulatory genes and co-regulation networks. 209 8.4.9 Small regulatory RNAs. 213 8.4.10 Differentially expressed genes of unknown function. 213 8.4.11 RT-PCR confirmation of selected genes. 214 8.4.12 Integrative view of gene expression in biofilm formation. 214 8.5 Acknowledgements . 216 8.6 References . 216 8.7 Supplementary material . 220 9 Genome Announcements 233 9.1 Campylobacter fetus venerealis biovar. intermedius . 233 9.1.1 Announcement. 233 9.1.2 Acknowledgements. 234 8 9.1.3 References . 235 9.2 A rapidly-progressing tuberculosis in Montevideo . 236 9.2.1 Announcement. 236 9.2.2 Acknowledgements. 237 9.2.3 References . 237 9.3 An isoniazid-resistant tuberculosis isolate . 239 9.3.1 Announcement. 239 9.3.2 Acknowledgements. 240 9.3.3 References . 240 10 A quantitative PCR for Campylobacter fetus 242 10.1 Abstract ............................ 242 10.2 Introduction . 242 10.3 Methods ............................ 244 10.3.1 Real-time PCR design. 244 10.3.2 Bacterial strains: species and subspecies identification. 244 10.3.3 Real-time PCR assays. 245 10.3.4 Standard curve generation for analytical testing. 245 10.4 Results ............................. 247 10.5 Discussion . 251 10.6 Acknowledgemets . 253 10.7 References . 253 Lista de Figuras 1.1 Phylogenetic relation of bacterial groups . 22 1.2 Frequency