Aimera.Gutierrezdıaz.2017.Pdf (6.190Mb)
Total Page:16
File Type:pdf, Size:1020Kb
Detecci´onautomatizada de peque~nos fragmentos derivados de RNAs no-codificantes expresados diferencialmente frente a la infecci´ondel virus Dengue Aimer Alonso Guti´errezD´ıaz Universidad Nacional de Colombia Facultad de Ingenier´ıa,Departamento de Ingenier´ıade Sistemas e Industrial Maestr´ıaen Bioinform´atica Bogot´aD.C., Colombia A~no2017 Detecci´onautomatizada de peque~nos fragmentos derivados de RNAs no-codificantes expresados diferencialmente frente a la infecci´ondel virus Dengue Aimer Alonso Guti´errezD´ıaz Tesis presentada como requisito parcial para optar al t´ıtulode: Magister en Bioinform´atica Directora: Ph.D. Clara Isabel Berm´udezSantana Departamento de Biolog´ıa,Universidad Nacional de Colombia. Co-Director: Ph.D. Steve Hoffmann Friedrich Schiller University Jena, Alemania L´ıneade Investigaci´on: Transcript´omicade RNA no codificantes Grupo de Investigaci´on: Grupo RNomica te´oricay computacional Universidad Nacional de Colombia Facultad de Ingenier´ıa,Departamento de Ingenier´ıade Sistemas e Industrial Bogot´aD.C., Colombia A~no2017 Lema "... Gene differences do not cause evolutionary changes in populations, they (just) register those changes." S. J. Gould (2002). "... La meta m´asdif´ıcil de alcanzar no es la riqueza ni el poder. No se trata de algo material, no es ning´unt´ıtulo de la universidad, no est´a en buscar, est´aen el ser". "Libre". Paradoxus luporum, 2014 Agradecimientos A la vida, que me ha permitido indagar en uno de sus tantos secretos. A la direcci´onde la profesora Clara Isabel Berm´udezSantana y el profesor Steve Hoffman, quienes me acompa~naron,apoyaron y orientaron permanentemente en un viaje a trav´esde un mar de datos. Al profesor Juan Carlos Gallego G´omezy Diego Alejandro Alvarez del grupo de Medici- na Molecular y de Translaci´on,por sus valioso aporte te´orico-conceptual,experimental y ´etico. A Carlos Andr´esRodriguez Salazar y al profesor Jhon Carlos Casta~noOsorio del Grupo de Inmunolog´ıaMolecular de la Facultad Ciencias de la Salud de la Universidad del Quind´ıo,quienes contribuyeron en el diagn´osticoy colecci´onde las muestras de sangre empleadas en el presente estudio. Al servicio de intercambio acad´emicoAlem´anDAAD, por la donaci´onde la infraes- tructura computacional donde se ejecut´oel presente proyecto A Jens Steuck por su noble y ejemplar gesti´ondel servidor A Luis Alfonso Mej´ıaMu~noz,Gloria Ines Agudelo Roa, Luis Alfonso Mej´ıaAgudelo y Laura Alejandra Mej´ıaAgudelo quienes me apoyaron y acogieron como un miembro m´asde su familia. A mis compa~nerosy amigos del lab: Andres Puerta Gonzalez, Jenny Ortega Rojas, Oscar Javier Escobar, Cristian Arley Velandia, Alejandro Cer´on,Ernesto Parra Rinc´on, Tatiana Garcia y Luz Stefany Botero, por compartir un espacio de formaci´onpersonal y profesional. A la nueva generaci´onde RNOmicos:´ Gabriel Hernandez, Valeria Cadena, Valentina Cobo, Astrid Olave, Edna Romero y Laura Nova. A mis amigos: Cristian Cortes, Ricardo Barrera, Axl Stivel, Mauro Adr´ıany Daniel Arias, por tantos buenos momentos. Resumen En los ´ultimosa~nos,el uso cada vez mayor de las tecnolog´ıasde secuenciaci´onde nueva gene- raci´onpara el estudio del transcriptoma ha llevado al descubrimiento de un nuevo fen´omeno biol´ogicollamado fragmentaci´onpostranscripcional funcional de ncRNAs. Varios estudios han identificado un amplio n´umerode peque~nosfragmentos derivados del procesamiento al- ternativo de ncRNAs (sfd-RNA) que var´ıanentre 16 y 40nt, cuyas fuentes son principalmente tRNAs y snoRNAs. El inter´esen los sfd-RNA se debe a su parecido estructural y funcional con los micro RNAs (miRNAs). Por ejemplo, ambos tipos de mol´eculaspueden cargarse en prote´ınasArgonauta, quienes han sido vinculadas al fen´omenode interferencia mediada por RNA. A la fecha existen diferentes pipelines y herramientas computacionales dirigidas a anotar y evaluar expresi´ondiferencial (DE) de miRNAs; no obstante, su extensi´onpara el estudio de sfd-RNAs no es del todo adecuada, debido a que la fuente de los sfd-RNAs es a su vez una secuencia de ncRNA con una funci´onalternativa, lo que implica una biog´enesisdiferente y por ende requiere estrategias computacionales propias. En particular, para el an´alisisde expresi´ondiferencial de sfd-RNAs, a diferencia de los miRNAs, existen problemas asocia- dos a la detecci´on, anotaci´ony cuantificaci´onde las lecturas asociadas al ncRNA, que en t´erminosestad´ısticos,impactan el n´umerode variables y el tama~node muestra; por ende, se requiere una estrategia de anotaci´onpropia para sfd-RNA capaz de afrontar dos compli- caciones de orden bioinform´atico.La primera de ellas reside en que las mol´eculasfuente de sfd-RNAs presentan un mayor n´umerode copias id´enticas en el genoma con respecto a los miRNAs, a pesar de ello, del conjunto de loci repetitivos no todos necesariamente se trans- criben o no todos los transcritos generados se procesan de manera alternativa para generar fragmentos funcionales. La segunda dificultad yace en discriminar las lecturas derivadas del secuenciamiento de RNAs peque~nosque evidencian la expresi´onde un fragmento funcional a la expresi´ondel ncRNA fuente; debido a que el conjunto de lecturas de un sfd-RNA est´a completamente auto-contenido en el conjunto de secuencias asignado al ncRNA fuente. Las metodolog´ıasrecientes destinadas al estudio de los sfd-RNA se centran exclusivamente en un tipo de fuente de ncRNA (principalmente tRNA) y adolecen de una baja reprodu- cibilidad en sus predicciones, dado a la omis´onde los sezgos de la alineaci´ono por el uso de m´etodos de normalizaci´ondise~nadospara genes codificantes, los cuales son m´aslargos y menos repetitivos. Con el fin de abordar las dificultades previamente descritas para la detecci´ony discriminaci´onde los patrones de expresi´onasociados con sfd-RNAs, y teniendo en cuenta que las herramientas actuales se ocupan de uno de los dos problemas o se centran exclusivamente en una especie de ncRNA, en el presente trabajo se ha dise~nado una nueva estrategia para abordar los dos problemas simult´aneamente. En primer lugar, para evaluar viii diferentes tipos de ncRNAs, se realiz´ola integraci´onde las diferentes familias a trav´esdel solapamiento entre coordenadas de ncRNAs provenientes de bases de datos como UCSC, miRBase, snoRNAbase y RNAcentral, generando un listado de coordenadas de ncRNAs no- redundantes totales, en el que se resaltan solapamientos intra e inter familias. En segundo lugar, adaptando la aproximaci´ondise~nadaen el programa BlockBuster, se utilizaron las coordenadas gen´omicasunificadas como referencia para detectar fragmentos de sfd-RNAs. Para ello, se clasificaron y organizaron las lecturas alineadas a los loci unificados teniendo en cuenta la media o coordenada central de cada lectura. Posterior a su ordenamiento por tama~nose emplearon los valores de media y desviaci´onde la primera lectura para generar una distribuci´onnormal, que es alimentada con la subsecuentes lecturas, bajo la condici´onde que su valor central pertenezca al rango de simetr´ıade la distribuci´onnormal aproximada. Los subgrupos de lecturas generadas fueron definidos como bloques de expresi´onde sfdRNAs sobre los que se evalu´oexpresi´ondiferencial. El estudio de expresi´ondiferencial de sfdRNAs y miRNAs se realiz´obasado en diecis´eisestrategias computacionales que combinan cuatro algoritmos de alineamiento y cuatro m´etodos de normalizaci´oncon el prop´ositode evaluar la reproducibilidad de una predicci´onindependientemente de los m´etodos de alineaci´ony de normalizaci´onempleados. La pipeline desarrollada fue probada con bibliotecas de small-RNAseq derivadas de l´ıneas celulares humanas infectadas por Dengue y muestras de sangre de pacientes humanos con fiebre del dengue y otros estadios febriles con el fin de dar luces a dos problemas biol´ogicosre- lacionados, los determinantes causales del dengue severo y el diagn´osticode las enfermedades febriles agudas inespec´ıficas,respectivamente. Finalmente, el enfoque desarrollado permiti´o abordar tanto los conflictos de anotaci´onde los ncRNAs como tambi´enel correcto uso es- tad´ısticode las lecturas con m´ultiplesalineamientos. Como resultado se encontr´oque ciertos loci detectados como sfd-RNAs hab´ıansido previamente reportados en otras categor´ıascomo piRNAs, adem´as177 fragmentos derivados de tRNAs y 69 snoRNAs est´anambiguamente reportados como miRNAs, piRNAs o siRNAs. Adicionalmente, en el presente trabajo se de- tect´oexpresi´ondiferencial simult´aneamente en miRNAs y sfd-RNA, algunos de estos ´ultimos descritos previamente en la infecci´onviral en humanos por el virus de la hepatitis C. Final- mente, se hall´oexpresi´ondiferencial en miRNAs y sfd-RNAs, los cuales est´anasociados con algunos genes blanco de regulaci´onespec´ıficopara s´ındromesfebriles que pueden ser ´utiles como biomarcadores de s´ındromesfebriles agudos. Palabras clave: Expresi´ondiferencial, Peque~nosncRNAs, anotaci´onde ncRNAs, Bio- marcadores s´ındromefebril, Dengue, Fragmentaci´onpostranscripcional funciona. RESUMEN ix Abstract In recent years, the increasing use of new generation sequencing technologies for trans- criptome study has led to discover a new biological phenomenon called functional post- transcriptional fragmentation of ncRNAs. Several studies have identified a large set of small ncRNA-derived fragments (sfd-RNA) with a length variation between 16 and 40nt, and which main source are tRNAs and snoRNAs. The interest in sfd-RNA is due to its structural and functional similarity with microRNAs (miRNAs). For example, both types of molecules can