JFSH TESIS.Pdf
Total Page:16
File Type:pdf, Size:1020Kb
Desarrollo y utilización de herramientas bioinformáticas en el estudio de datos de secuenciación masiva: Análisis genómicos en arácnidos José Francisco Sánchez Herrero Aquesta tesi doctoral està subjecta a la llicència Reconeixement- NoComercial 4.0. Espanya de Creative Commons. Esta tesis doctoral está sujeta a la licencia Reconocimiento - NoComercial 4.0. España de Creative Commons. This doctoral thesis is licensed under the Creative Commons Attribution-NonCommercial 4.0. Spain License. Universitat de Barcelona Facultat de Biologia Departamento de Genética, Microbiología y Estadística Desarrollo y utilización de herramientas bioinformáticas en el estudio de datos de secuenciación masiva: Análisis genómicos en arácnidos. José Francisco Sánchez Herrero Barcelona, Septiembre 2019 Desarrollo y utilización de herramientas bioinformáticas en el estudio de datos de secuenciación masiva: Análisis genómicos en arácnidos. Memoria presentada por José Francisco Sánchez Herrero para optar al Grado de Doctor en Genética (HDK0S) por la Universidad de Barcelona Departamento de Genética, Microbiología y Estadística El autor de la tesis José Francisco Sánchez Herrero Tutor y codirector Codirector Dr. Julio Rozas Liras Dr. Alejandro Sánchez-Gracia Barcelona, Septiembre 2019 “George emprendió solemnemente la tarea de educarme. Desde mi punto de vista, lo más importante era que dedicábamos parte de nuestro tiempo a la historia natural, y George me enseñaba con cuidado y minuciosidad cómo había que observar y tomar nota de lo observado en un diario. Mi entusiasta pero desordenado interés por la naturaleza se centró, pues descubrí que anotando las cosas se aprendía y se recordaba mucho mejor. Las únicas mañanas en que llegaba puntualmente a mi lección eran las dedicadas a historia natural.” – Gerald Durrell, Mi familia y otros animales (1956). A mi mujer e hijos, por hacer que cada día brille el sol. A mis padres y hermano, por mostrarme lo bonita que es la vida y siempre estar cuando hace falta. A mis directores de tesis, por iniciarme y guiarme en el camino de la ciencia y la investigación. Abstract There is a vast amount of information indexed in genomic databases from multiple species of organisms but there is a bias against some taxonomic groups for their relevance at social, sanitary and economical level. The progress and the reduction of sequencing technologies have allowed the implementation of these techniques in non-model organisms but still, it is neither straightforward nor cheap to obtain high quality genomic resources. Spiders, main group of interest of this thesis, are non-model organisms underrepresented in genomic databases. The availability of a new genome would shed light into relevant biological traits such as the presence of venom, silk or the adaptation to terrestrial ecosystems and the chemosensory system. The main objectives of this thesis are to develop bioinformatics methods and to generate genomic resources for non-model organisms, specifically, spiders. We have developed the tool DOMINO for the development of molecular markers in non-model organisms from next generation sequencing data. This tool allows identifying markers at different taxonomic ranges that could be employed directly, amplified using PCR in other related samples or for the generation ofsequence capture strategies. We have validated the software using computer simulations and empirical data to adjust, configure and maximize its precision and sensitivity. Also, we have generated a graphical user interface to improve the usability of the software among those users with limited expertise in programming languages. We have also developed a genomic assembly of a representative spider of the genus Dysdera by combining multiple sequencing technologies. Using se- veral descriptive statistics we determined the quality and completeness of the assembly and conducted the structural and functional annotation by ab initio and evidence-based predictions. We obtained a genome with a N50 of 38 kb that could not be improved because the complexity of the genome, it includes a high proportion of repetitive regions, nevertheless the quality of genome in terms of gene completeness was fairly good. Globally we have generated a very useful genomic resource not only for conducting studies of specific biological or evolutionary characteristics in this genus but also for other arachnids or arthropods. Índice general Índice General I Índice de Figuras V Índice de Tablas VII Índice de Boxes IX Glosario XI Abreviaciones XIII 1. Introducción 1 1.1. Obtención de la secuencia genómica . 1 1.1.1. Inicios de la secuenciación de ADN. 3 1.1.2. Secuenciación de nueva generación: “Next generation sequencing” .......................... 6 1.1.3. Nueva Secuenciación masiva: “Third-generation sequencing”........................... 14 1.2. La era “Ómica“ en biología . 18 1.2.1. Secuenciación de genomas: ensamblajes de novo. 19 1.2.2. Anotación estructural y funcional de genomas. 21 i 1.2.3. Análisis genómico evolutivos en organismos no modelo: desarrollo de marcadores moleculares. 22 1.3. Organismos de estudio: arañas del género Dysdera . 30 1.3.1. Relaciones filogenéticas del género de estudio. 30 1.3.2. Radiación adaptativa y diversificación del género en las Islas Canarias. 31 2. Objetivos 39 3. Informe de los directores de tesis 41 4. Artículos 45 4.1. DOMINO: development of informative molecular markers for phylogenetic and genome-wide population genetic studies in non-model organisms . 47 4.1.1. Material Suplementario . 57 4.1.2. Manual DOMINO . 75 4.2. The draft genome sequence of the spider Dysdera silvatica (Araneae, Dysderidae): A valuable resource for functional and evolutionary genomic studies in chelicerates . 107 4.2.1. Material Suplementario . 119 5. Discusión 159 5.1. Implementación de nuevos métodos bioinformáticos para el desarrollo y búsqueda de marcadores moleculares. 161 5.2. Ensamblaje genómico y de alta calidad de un representante del género Dysdera.............................166 5.3. Repercusión de las técnicas de secuenciación masivas y bioinformática en organismos no modelo. 172 6. Conclusiones 175 7. Tablas Suplementarias 179 8. Bibliografía 187 Apéndice 205 A. Articulos resultados de colaboraciones científicas 207 A.1. Streptococcus gallolyticus subsp. gallolyticus from human and animal origins: genetic diversity, antimicrobial susceptibility, and characterization of a vancomycin-resistant calf isolate carrying a vanA-Tn1546-like element . 209 A.2. Gene duplications in the E.coli genome: common themes among pathotypes. 223 A.2.1. Material Suplementario . 237 B. Financiación 255 Índice de Figuras 1. Principales hitos en la historia de la secuenciación . 2 2. Cronología de la historia de la secuenciación . 4 3. Rendimiento de las principales metodologías de secuenciación . 9 4. Metodología usada por las principales técnicas de secuenciación masiva de nueva generación . 12 5. Metodología usada por las principales técnicas de secuenciación masiva de tercera generación . 15 6. Relaciones filogenéticas entres los grandes grupos de artrópodos .31 7. Fotografías de diferentes especies de arañas del género Dysdera . 33 8. Edad geológica de las Islas Canarias y distribución de las especies de Dysdera en el archipiélago . 35 9. Interfaz gráfica de DOMINO . .163 10. Estadísticas del ensamblaje de D. silvatica tras la adición de diferentes librerias de secuenciación . 169 v Índice de Tablas 1. Genomas eucariotas secuenciados hasta la fecha e indexados en la base de datos GenBank ....................... 19 2. Ejemplos de principales descubrimientos en algunos proyectos de secuenciación de genomas de organismos . 23 3. Proyectos de secuenciación de genomas donde ha participado el grupo de investigación . 24 4. Principales ventajas e inconvenientes de los diferentes tipos de marcadores moleculares . 28 5. Estadísticas de ensamblajes genómicos de arañas disponibles en GenBank ...............................167 Tablas Suplementarias S1. Hitos en la historia de la secuenciación . 181 S2. Cronología de la historia de la secuenciación . 183 S3. Datos de rendimiento de las principales metodologías de secuen- ciación . 184 S4. Distribución de las especies de Dysdera en la islas Canarias . 185 S5. Estadísticas de las diferentes versiones del ensamblaje del genoma de Dysdera silvatica. 186 vii Índice de Boxes 1. Box 1: Ácidos nucleicos: nucleótidos originales y modificados . 5 2. Box 2: Breve historia de la Bioinformática . 7 3. Box 3: Proyecto Genoma Humano (HGP) . 10 4. Box 4: Técnicas de fijación y amplificación del ADN. 13 5. Box 5: Tipos de tecnologías “Ómicas“ . 20 6. Box 6: Características de las estrategias de reducción genómica. 27 7. Box 7: Características biológicas relevantes del orden Araneae. 32 8. Box 8: Dysdera sp. e isópodos. 36 ix Glosario ab initio Expresión latina que significa «desde el principio». En ciencias se dice que un cálculo es ab initio cuando sólo asume leyes básicas y bien establecidas, excluyendo parámetros externos o modelos simplificadores. de novo Expresión latina que significa «de nuevo, desde el inicio». Se diferencia de ab initio ya que puede partir de modelos o parámetros determinados y no sólo de leyes básicas. e.g. Por ejemplo (del latín exempli gratia). et al. Y colaboradores (del latín et alii). in silico Expresión que significa "hecho por computadora o via simulación computacional". La expresión, acuñada a partir de las frases in vivo e in vitro del latín, esta determinada por el material del que están hechos los semiconductores que permiten