Desarrollo De Técnicas Bioinformáticas Para El Análisis De Datos De Secuenciación Masiva En Sistemática Y Genómica Evolut
Total Page:16
File Type:pdf, Size:1020Kb
Desarrollo de técnicas bioinformáticas para el análisis de datos de secuenciación masiva en sistemática y genómica evolutiva: Aplicación en el análisis del sistema quimiosensorial en artrópodos Cristina Frías Lopez Aquesta tesi doctoral està subjecta a la llicència Reconeixement- NoComercial – CompartirIgual 4.0. Espanya de Creative Commons. Esta tesis doctoral está sujeta a la licencia Reconocimiento - NoComercial – CompartirIgual 4.0. España de Creative Commons. This doctoral thesis is licensed under the Creative Commons Attribution-NonCommercial- ShareAlike 4.0. Spain License. 9 201 al Desarrollo de técnicas bioinformáticas para el r o t análisis de datos de secuenciación masiva en oc d sistemática y genómica evolutiva: sis e T Aplicación en el análisis del sistema quimiosensorial en artrópodos z e óp L Cristina Frías López Tesis doctoral 2019 Frías tina s ri C Desarrollo de técnicas bioinformáticas para el análisis de datos de secuenciación masiva en sistemática y genómica evolutiva: Aplicación en el análisis del sistema quimiosensorial en artrópodos Memoria presentada por Cristina Frías López para optar al Grado de Doctor por la Universidad de Barcelona. Departamento de Genética, Microbiología y Estadística La autora de la tesis Cristina Frías López El director y tutor de la tesis El codirector y tutor de la tesis Dr. Julio Rozas Liras Dr. Miquel A. Arnedo Lombarte Catedrático Catedrático Departamento de Genética, Departamento de Biologia Evolutiva, Microbiología y Estadística Ecologia y Ciencias Ambientales Facultad de Biología Facultad de Biología Universidad de Barcelona Universidad de Barcelona Barcelona, Septiembre de 2019 A mi Yaya. Abstract The Next Generation Sequencing (NGS) technologies are providing powerful data to investigate fundamental biological and evolutionary questions including phylogenetic and adaptive genomic topics. Currently, it is possible to carry out complex genomic projects analyzing the complete genomes and/or transcriptomes even in non-model organisms. In this thesis, we have performed two complementary studies using NGS data. Firstly, we have analyzed the transcriptome (RNAseq) of the main chemosensory organs of the chelicerate Macrothele calpeiana, Walckenaer, 1805, the only spider protected in Europe, to investigate the origin and evolution of the Chemosensory System (CS) in arthropods. The CS is an essential physiological process for the survival of organisms, and it is involved in vital biological processes, such as the detection of food, partners or predators and oviposition sites. This system, which has it relatively well characterized in hexapods, is completely unknown in other arthropod lineages. Our transcriptome analysis allowed to detect some genes expressed in the putative chemosensory organs of chelicerates, such as five NPC2s and two IRs. Furthermore, we detected 29 additional transcripts after including new CS members from recently available genomes in the HMM profiles, such as the SNMPs, ENaCs, TRPs, GRs and one OBP-like. Unfortunately, many of them were partial fragments. Secondly, we have also developed some bioinformatics tools to analyze RNAseq data, and to develop molecular markers. Researchers interested in the biological application of NGS data may lack the bioinformatic expertise required for the treatment of the large amount of data generated. In this context, the development of user-friendly tools for common data processing and the integration of utilities to perform downstream analysis is mostly needed. In this thesis, we have developed two bioinformatics tools with an easy to use graphical interface to perform all the basics processes of the NGS data processing: i) TRUFA (TRanscriptome User-Friendly Analysis), that allows analyzing RNAseq data from non-model organisms, including the functional annotation and differential gene expression analysis; and ii) DOMINO (Development of Molecular markers in Non-model Organisms), which allows identifying and selecting molecular markers appropriated for evolutionary biology analysis. These tools have been validated using computer simulations and experimental data, mainly from spiders. Índice Introducción 1 1. Impacto en la Biología Evolutiva y la Sistemática de las tecnologías NGS 3 2. Tecnologías de secuenciación del DNA 6 2.1 Origen de las primeras metodologías para secuenciar DNA 6 2.2 Desarrollo de las tecnologías de NGS 8 3. Análisis bioinformático de datos NGS 11 3.1 Pre-procesamiento de los reads: Control de Calidad 11 3.2 Ensamblaje (de novo / por referencia) 13 3.3 Procesamiento del fichero de alineamiento (SAM/BAM) 14 3.4 Análisis post-ensamblaje 16 3.4.1 Anotación estructural y funcional 16 3.4.2 Análisis de variación genética 17 4. Principales organismos utilizados en este estudio 18 4. 1 Evolución y Filogenia de los Artrópodos 18 4.2 La araña Macrothele calpeiana 18 5. Estudio del origen y evolución del sistema quimiosensorial en artrópodos 20 5.1 El sistema quimiosensorial 20 5.2 El SQ de los artrópodos 20 5.2.1 Componentes moleculares del SQ periférico de artrópodos 21 5.3 Las familias multigénicas del SQ de artrópodos 22 5.3.1 Proteínas solubles transportadoras 23 5.3.2 Receptores de membrana 24 6. Desarrollo de herramientas bioinformáticas para desarrollar nuevos 28 marcadores moleculares 6.1 Antecedentes de la biología evolutiva contemporánea 28 6.2 Obtención de marcadores moleculares mediante técnicas de 30 secuenciación dirigida Sanger 6.3 Obtención de marcadores moleculares a través de metodologías NGS 31 Objetivos 35 Informe de los directores 39 Publicaciones 45 Artículo 1 47 Comparative analysis of tissue-specific transcriptomes in the funnel-web spider Macrothele calpeiana (Araneae, Hexathelidae) Artículo 2 83 DOMINO: Development of informative molecular markers for phylogenetic and genome-wide population genetic studies in non-model organisms Artículo 3 101 TRUFA: a User-friendly Web server for de novo RNAseq analysis using cluster computing Discusión 113 1. Evolución del Sistema Quimiosensorial en Macrothele calpeiana 115 1.1 Estrategia diseñada para identificar genes involucrados en el SQ en 115 M. calpeiana 1.2 Validación de la librería sustractiva y anotación funcional 116 1.3 Transcriptoma quimiosensorial de M. calpeiana 118 2. Desarrollo de herramientas bioinformáticas para el análisis de datos NGS 122 2.1 Herramienta bioinformática para análisis de datos de RNAseq en 122 organismos no modelo 2.2 Herramienta bioinformática para generar y seleccionar marcadores 124 moleculares a partir de datos NGS 2.3 Validación de datos de RNAseq como marcadores moleculares para 126 aplicaciones filogenéticas 2.4 Integración de herramientas bioinformáticas 127 Conclusiones 129 Bibliografía 133 Anexos 151 A: Evolutionary Analysis of Mitogenomes from Parasitic and 152 Free-Living Flatworms B: Evolution of chemosensory gene families in arthropods: Insight from 175 the first inclusive comparative transcriptome analysis across spider appendages. C: Development of anonymous nuclear markers for Buthus scorpions 197 (Scorpiones: Buthidae) using massive parallel sequencing, with an overview of nuclear markers used in Scorpions phylogenetics. D: A bacterial GH6 cellobiohydrolase with a novel modular structure. 219 E: A DNA barcode-assisted annotated checklist of the spider (Arachnida, 231 Araneae) communities associated to white oak woodlands in Spanish National Parks. F: The draft genome sequence of the spider Dysdera silvatica (Araneae, 245 Dysderidae): A valuable resource for functional and evolutionary genomic studies in chelicerates. INTRODUCCIÓN Introducción 1. Impacto en la Biología Evolutiva y la Sistemática de las tecnologías NGS La Biología Evolutiva y la Sistemática son dos ramas de la biología que investigan los procesos evolutivos responsables de generar la biodiversidad. Estas dos disciplinas estudian, entre otras cuestiones, la variabilidad del DNA para determinar los mecanismos evolutivos subyacentes y reconstruir relaciones filogenéticas entre individuos de poblaciones o especies diferentes. Sin embargo, la primera está más orientada al estudio de los mecanismos responsables de la evolución y la segunda en revelar los patrones característicos resultado de dicha evolución. Las principales fuerzas evolutivas que “moldean” los patrones de la biodiversidad son: la mutación (único proceso responsable de generar nuevas variantes), la recombinación (introduciendo combinaciones de variantes ya existentes), la deriva genética (cambiando las frecuencias de las variantes de forma estocástica), la migración o flujo génico (transfiriendo variantes de una población a otra) y, finalmente, la selección natural (único mecanismo que explica la adaptación de las especies a nuevos ambientes). Además, los patrones evolutivos también pueden ser moldeados por efectos demográficos, como expansiones, extinciones o cuellos de botella, etc. Para poder estudiar estos procesos es necesario obtener, analizar y comparar las secuencias genómicas de diversos organismos. En 1977, a través de la tecnología de Sanger se obtiene la primera secuencia genómica completa del bacteriófago ΦX 174, que está compuesto por 5.386 pb (Sanger et al. 1977). Sin embargo, utilizando esta tecnología no era posible conseguir secuencias superiores a las 40 kb. Para alcanzar genomas más grandes, fue necesario el desarrollo de nuevas técnicas de secuenciación como el shotgun sequencing y la creación de secuenciadores automáticos basados en la técnica de Sanger (AB 373 DNA). Mediante la combinación de estas aproximaciones en 1995 se obtiene el genoma