Sensitivity of Phylogenomic Inference to the Design of NGS Target Enrichment in Non-Model Organisms
Total Page:16
File Type:pdf, Size:1020Kb
International Doctoral School Merly Mayela Escalona Fermín DOCTORAL DISSERTATION Sensitivity of phylogenomic inference to the design of NGS target enrichment in non-model organisms Supervised by: Sara Rodrigues Passos Rocha and David Posada González 2018 International mention Escola Internacional de Doutoramento David Posada González y Sara Rodrigues Passos Rocha, FAN CONSTAR que o presente traballo, titulado “Sensitivity of phylogenomic inference to the design of NGS target enrichment in non -model organisms” , que presenta Merly Mayela Escalona Fermín para a obtención do título de Doutor/a, foi elaborado baixo a súa dirección no programa de doutoramento “Metodologías y aplicaciones en Ciencias de la Vida “. Vigo, 2 de febrero de 2018. Os Directores da tese de doutoramento Dr. David Posada González Dr. Sara Rodrigues Passos Rocha International Doctoral School David Posada González y Sara Rodrigues Passos Rocha, DECLARES that the present work, entitle “Sensitivity of phylogenomic inference to the design of NGS target enrichment in non -model organisms” , submitted by Merly Mayela Escalona Fermín to obtain the title of Doctor, was carried out under their supervision in the PhD program “Metodologías y aplicaciones en Ciencias de la Vida “. Vigo, 2 de febrero de 2018. Os directores da tese de doutoramento Dr. David Posada González Dr. Sara Rodrigues Passos Rocha To whoever reads this, I hope you find it as interesting and useful as I have. Acknowledgements I would like to start thanking the comittee and the international experts that are going to read this dissertation. I hope it is as interesting and useful, as it has been my journey to develop it. This work would not have been possible without any financial support, hence my gratitude to the Spanish goverment, which has financially supported my work and my research visits abroad. A PhD thesis is a team effort, and so I would like to thank all the (current and former) members of the Phylogenomics Lab. Special thanks to Joao, Tama and Laura, for our infinite conversations about the humongous variant calling world; to Andrés, for always being realist, for sharing your statistical and R knowledge with me and for your support in most of the extracurricular conversations; to Sereina and Harry, for helping me to figure out my simulations while helping them out with yours, foralways offering advice and for those little details. To the single cell ladies, Sonia andNuria, for so many things, but specially for letting me in into your homes; and to Pili, for all those coffee breaks and for being so positive. To the mollusc guys, Carlos andMaria, but specially to Carlos, thanks for letting me assist you in the Genetics II practicals, it was a really nice experience; for his patience, I have finished your simulated datasets, I can give them to you now that this thesis is being delivered. To Diego, for developing SimPhy, for being so kind to explain to me all of its functionalities and parameters, and for being always available (a mail away) to answer all my doubs about it. To Merchi, because thanks to her we can focus on what we are meant to focus. This lab, would not work without her. To the tech support team, Ramón, Rubén and Fran, who helped me with my cluster issues, and never complain about my large amount of tickets, always high priority. To my supervisors, David and Sara, thanks for their guidance, knowledge, compre- hension, support and tireless patience, I would not have asked for better supervisors. David, thanks for being such a great boss, for being so direct and have your ideas so clear. Sara, thanks for being you and for turning the supervisor-student line so thin. WE would not have finished this otherwise. x I feel lucky enough to have been able to visit two labs during my PhD adventure, but I feel even luckier to have made them under the supervision of such brilliant researchers. Alan, Emily and Rute, thank you so much. Rute thanks for all your advices, and be aware, we still have a lot of work to do. Also, thanks to all the people I have got to meet during my visits Ameer, Megan, Silvia, Paula, Anders, Capser, Rasmus, Emil, Yorgos, Ida, Stine, Fleur, Renata, Eduardo and Maria. I would also like to thank my previous supervisor, David Olivieri, for his support and for suggesting me to follow this project. To my friends, whom I have not seen as much as I (and them) would have liked, and who understand the sacrifice: Cristina, Fabio, Sora and Mónica. And finally, but not least important, to my family, for their unconditional support and for always pushing me to work hard towards the consecution of my objectives. Resumen en castellano 1. Introducción La filogenética es la rama de la ciencia que estudia las relaciones evolutivas entre indi- viduos o grupos de organismos (filogenias), además de proveer de medios (métodos filogenéticos) para estimarlas. Los métodos de reconstrucción filogenética nos per- miten formular hipótesis sobre estas relaciones en forma de árboles filogenéticos. El uso de la información filogenética se ha extendido en Biología, pero también en campos múltiples y tan diversos como el lenguaje, la conservación y la medicina, entre otros. La filogenómica es un término amplio que puede ser visto como la intersección entre la evolución y la genómica. Ésta comprende varias áreas de investigación entre la biología molecular y la evolución, permitiendo el uso de datos genómicos para inferir relaciones filogenéticas y ganar información sobre los mecanismos de evolución y función de los genomas. En consecuencia, la filogenómica (y con ella, las filogenias) permiten colocar en perspectiva los estudios de genómica comparativa, enriqueciendo nuestro conocimiento sobre cómo evolucionan los genes, los genomas, las especies y las secuencias moleculares, además de ayudar a predecir cómo éstas podrían cambiar en el futuro. Los árboles filogenéticos tienen muchas aplicaciones a diferentes campos: la clasificación de organismos y el conocimiento de sus relaciones evolutivas; enla medicina forense, la evaluación de pruebas de ADN presentadas en casos judiciales; en la identificación de patógenos, donde las tecnologías de secuenciación molecular y los enfoques filogenéticos se utilizan con frecuencia para identificar los brotes de nuevos patógenos, su relación con otras especies, y, posteriormente, la posible fuente de transmisión, aportan información importante en políticas de salud pública. Por otro lado, los árboles filogenéticos nos proporcionan el marco adecuado para comparar caracteres biológicos entre distintas especies (i.e., el método comparativo), así como para la estima de parámetros evolutivos y demográficos de poblaciones y especies a distintos niveles (ver estudios filodinámicos, la teoría de la coalescencia, o estimas de diversificación y divergencia, entre muchos otras aplicaciones). xii Los árboles de genes (“gen” entendido como región del genoma) reflejan el proceso de replicación de ADN a nivel local, una copia de un gen en un locus del genoma; por ejemplo, un gen que codifica una proteína, se replica, generando nuevas ramificaciones en el áraŕbol de genes, y su copias pasan de padres a hijos. Los árboles de especies, por su parte, representan la historia evolutiva de los organismos. Estos están compuestos por nodos que representan los eventos de especiación y sus ramas, que reflejan la historia de la población entre los eventos de especiación. Las ramas del árbol de especies pueden tener asociadas un ancho, que representa el tamaño efectivo de la población y la longitud, que representa el tiempo, bien sea en años o generaciones. Es importante destacar que la historia de una región genómica no es necesariamente equivalente a la historia de las especies que la contienen, es decir, los árboles de genes no son necesariamente equivalentes a los árboles de especies.. Esta noción no es nueva, ya que la percepción de la discordancia entre árboles de genes y árboles de especies data de los 80. Sin embargo, quizás por ignorancia sobre la importancia de esta discordancia a nivel genómico, pero también por conveniencia, los árboles de genes eran considerados hasta hace muy poco aproximaciones fiables a las filogenias de especies. La discordancia entre árboles de genes y árboles de especies puede ser causada por errores sistemáticos (especificación incorrecta de los modelos) o estocásticos (inherentes a la cantidad finita de datos y el proceso de muestreo), pero también pueden ser el resultado de diferentes procesos evolutivos como la ordenación incompleta de linajes, la duplicación y pérdida de genes, y la transferencia horizontal de genes. Esto ha motivado el desarrollo de enfoques filogenéticos que tienen en cuenta la heterogeneidad de árboles de genes en la estima de árboles de especies. En lugar de equiparar árboles de genes con la historia filogenética de la especie, los nuevos enfoques consideran explícitamente las relaciones entre los árboles de genes y la historia subyacente de divergencia de las especies, proporcionando estimas directas de los árboles de especies. Un organismo modelo es aquel que usamos para estudiar fenómenos biológicos particulares, incluyendo la representación de grupos determinados de taxones. Los organismo modelo son habitualmente más simples, pequeños y manejables que aquellos organismos a los que representan. Su estudio habitualmente proporciona ventajas experimentales porque algunos de ellos pueden criarse en grandes cantidades y/o tienen tiempos de generación muy cortos, mientras que otros tienen genes similares a los de los humanos, por ejemplo para biomedicina. Todas estas características han hecho que los organismos modelo se conviertan en herramientas irremplazables en la investigación biológica y clínica. Debido a su conveniencia, la comunidad científica xiii se se ha centrado en masa a estudiarlos, y esto ha llevado a un mayor desarrollo y optimización de recursos, protocolos, métodos, tuberías de análisis bioinformáticos y herramientas para el tratamiento de los datos obtenidos. Además, muchos de sus genomas ya han sido secuenciados completamente y bien caracterizados.