Aimera.Gutierrezdıaz.2017.Pdf (6.190Mb)

Aimera.Gutierrezdıaz.2017.Pdf (6.190Mb)

Detecci´onautomatizada de peque~nos fragmentos derivados de RNAs no-codificantes expresados diferencialmente frente a la infecci´ondel virus Dengue Aimer Alonso Guti´errezD´ıaz Universidad Nacional de Colombia Facultad de Ingenier´ıa,Departamento de Ingenier´ıade Sistemas e Industrial Maestr´ıaen Bioinform´atica Bogot´aD.C., Colombia A~no2017 Detecci´onautomatizada de peque~nos fragmentos derivados de RNAs no-codificantes expresados diferencialmente frente a la infecci´ondel virus Dengue Aimer Alonso Guti´errezD´ıaz Tesis presentada como requisito parcial para optar al t´ıtulode: Magister en Bioinform´atica Directora: Ph.D. Clara Isabel Berm´udezSantana Departamento de Biolog´ıa,Universidad Nacional de Colombia. Co-Director: Ph.D. Steve Hoffmann Friedrich Schiller University Jena, Alemania L´ıneade Investigaci´on: Transcript´omicade RNA no codificantes Grupo de Investigaci´on: Grupo RNomica te´oricay computacional Universidad Nacional de Colombia Facultad de Ingenier´ıa,Departamento de Ingenier´ıade Sistemas e Industrial Bogot´aD.C., Colombia A~no2017 Lema "... Gene differences do not cause evolutionary changes in populations, they (just) register those changes." S. J. Gould (2002). "... La meta m´asdif´ıcil de alcanzar no es la riqueza ni el poder. No se trata de algo material, no es ning´unt´ıtulo de la universidad, no est´a en buscar, est´aen el ser". "Libre". Paradoxus luporum, 2014 Agradecimientos A la vida, que me ha permitido indagar en uno de sus tantos secretos. A la direcci´onde la profesora Clara Isabel Berm´udezSantana y el profesor Steve Hoffman, quienes me acompa~naron,apoyaron y orientaron permanentemente en un viaje a trav´esde un mar de datos. Al profesor Juan Carlos Gallego G´omezy Diego Alejandro Alvarez del grupo de Medici- na Molecular y de Translaci´on,por sus valioso aporte te´orico-conceptual,experimental y ´etico. A Carlos Andr´esRodriguez Salazar y al profesor Jhon Carlos Casta~noOsorio del Grupo de Inmunolog´ıaMolecular de la Facultad Ciencias de la Salud de la Universidad del Quind´ıo,quienes contribuyeron en el diagn´osticoy colecci´onde las muestras de sangre empleadas en el presente estudio. Al servicio de intercambio acad´emicoAlem´anDAAD, por la donaci´onde la infraes- tructura computacional donde se ejecut´oel presente proyecto A Jens Steuck por su noble y ejemplar gesti´ondel servidor A Luis Alfonso Mej´ıaMu~noz,Gloria Ines Agudelo Roa, Luis Alfonso Mej´ıaAgudelo y Laura Alejandra Mej´ıaAgudelo quienes me apoyaron y acogieron como un miembro m´asde su familia. A mis compa~nerosy amigos del lab: Andres Puerta Gonzalez, Jenny Ortega Rojas, Oscar Javier Escobar, Cristian Arley Velandia, Alejandro Cer´on,Ernesto Parra Rinc´on, Tatiana Garcia y Luz Stefany Botero, por compartir un espacio de formaci´onpersonal y profesional. A la nueva generaci´onde RNOmicos:´ Gabriel Hernandez, Valeria Cadena, Valentina Cobo, Astrid Olave, Edna Romero y Laura Nova. A mis amigos: Cristian Cortes, Ricardo Barrera, Axl Stivel, Mauro Adr´ıany Daniel Arias, por tantos buenos momentos. Resumen En los ´ultimosa~nos,el uso cada vez mayor de las tecnolog´ıasde secuenciaci´onde nueva gene- raci´onpara el estudio del transcriptoma ha llevado al descubrimiento de un nuevo fen´omeno biol´ogicollamado fragmentaci´onpostranscripcional funcional de ncRNAs. Varios estudios han identificado un amplio n´umerode peque~nosfragmentos derivados del procesamiento al- ternativo de ncRNAs (sfd-RNA) que var´ıanentre 16 y 40nt, cuyas fuentes son principalmente tRNAs y snoRNAs. El inter´esen los sfd-RNA se debe a su parecido estructural y funcional con los micro RNAs (miRNAs). Por ejemplo, ambos tipos de mol´eculaspueden cargarse en prote´ınasArgonauta, quienes han sido vinculadas al fen´omenode interferencia mediada por RNA. A la fecha existen diferentes pipelines y herramientas computacionales dirigidas a anotar y evaluar expresi´ondiferencial (DE) de miRNAs; no obstante, su extensi´onpara el estudio de sfd-RNAs no es del todo adecuada, debido a que la fuente de los sfd-RNAs es a su vez una secuencia de ncRNA con una funci´onalternativa, lo que implica una biog´enesisdiferente y por ende requiere estrategias computacionales propias. En particular, para el an´alisisde expresi´ondiferencial de sfd-RNAs, a diferencia de los miRNAs, existen problemas asocia- dos a la detecci´on, anotaci´ony cuantificaci´onde las lecturas asociadas al ncRNA, que en t´erminosestad´ısticos,impactan el n´umerode variables y el tama~node muestra; por ende, se requiere una estrategia de anotaci´onpropia para sfd-RNA capaz de afrontar dos compli- caciones de orden bioinform´atico.La primera de ellas reside en que las mol´eculasfuente de sfd-RNAs presentan un mayor n´umerode copias id´enticas en el genoma con respecto a los miRNAs, a pesar de ello, del conjunto de loci repetitivos no todos necesariamente se trans- criben o no todos los transcritos generados se procesan de manera alternativa para generar fragmentos funcionales. La segunda dificultad yace en discriminar las lecturas derivadas del secuenciamiento de RNAs peque~nosque evidencian la expresi´onde un fragmento funcional a la expresi´ondel ncRNA fuente; debido a que el conjunto de lecturas de un sfd-RNA est´a completamente auto-contenido en el conjunto de secuencias asignado al ncRNA fuente. Las metodolog´ıasrecientes destinadas al estudio de los sfd-RNA se centran exclusivamente en un tipo de fuente de ncRNA (principalmente tRNA) y adolecen de una baja reprodu- cibilidad en sus predicciones, dado a la omis´onde los sezgos de la alineaci´ono por el uso de m´etodos de normalizaci´ondise~nadospara genes codificantes, los cuales son m´aslargos y menos repetitivos. Con el fin de abordar las dificultades previamente descritas para la detecci´ony discriminaci´onde los patrones de expresi´onasociados con sfd-RNAs, y teniendo en cuenta que las herramientas actuales se ocupan de uno de los dos problemas o se centran exclusivamente en una especie de ncRNA, en el presente trabajo se ha dise~nado una nueva estrategia para abordar los dos problemas simult´aneamente. En primer lugar, para evaluar viii diferentes tipos de ncRNAs, se realiz´ola integraci´onde las diferentes familias a trav´esdel solapamiento entre coordenadas de ncRNAs provenientes de bases de datos como UCSC, miRBase, snoRNAbase y RNAcentral, generando un listado de coordenadas de ncRNAs no- redundantes totales, en el que se resaltan solapamientos intra e inter familias. En segundo lugar, adaptando la aproximaci´ondise~nadaen el programa BlockBuster, se utilizaron las coordenadas gen´omicasunificadas como referencia para detectar fragmentos de sfd-RNAs. Para ello, se clasificaron y organizaron las lecturas alineadas a los loci unificados teniendo en cuenta la media o coordenada central de cada lectura. Posterior a su ordenamiento por tama~nose emplearon los valores de media y desviaci´onde la primera lectura para generar una distribuci´onnormal, que es alimentada con la subsecuentes lecturas, bajo la condici´onde que su valor central pertenezca al rango de simetr´ıade la distribuci´onnormal aproximada. Los subgrupos de lecturas generadas fueron definidos como bloques de expresi´onde sfdRNAs sobre los que se evalu´oexpresi´ondiferencial. El estudio de expresi´ondiferencial de sfdRNAs y miRNAs se realiz´obasado en diecis´eisestrategias computacionales que combinan cuatro algoritmos de alineamiento y cuatro m´etodos de normalizaci´oncon el prop´ositode evaluar la reproducibilidad de una predicci´onindependientemente de los m´etodos de alineaci´ony de normalizaci´onempleados. La pipeline desarrollada fue probada con bibliotecas de small-RNAseq derivadas de l´ıneas celulares humanas infectadas por Dengue y muestras de sangre de pacientes humanos con fiebre del dengue y otros estadios febriles con el fin de dar luces a dos problemas biol´ogicosre- lacionados, los determinantes causales del dengue severo y el diagn´osticode las enfermedades febriles agudas inespec´ıficas,respectivamente. Finalmente, el enfoque desarrollado permiti´o abordar tanto los conflictos de anotaci´onde los ncRNAs como tambi´enel correcto uso es- tad´ısticode las lecturas con m´ultiplesalineamientos. Como resultado se encontr´oque ciertos loci detectados como sfd-RNAs hab´ıansido previamente reportados en otras categor´ıascomo piRNAs, adem´as177 fragmentos derivados de tRNAs y 69 snoRNAs est´anambiguamente reportados como miRNAs, piRNAs o siRNAs. Adicionalmente, en el presente trabajo se de- tect´oexpresi´ondiferencial simult´aneamente en miRNAs y sfd-RNA, algunos de estos ´ultimos descritos previamente en la infecci´onviral en humanos por el virus de la hepatitis C. Final- mente, se hall´oexpresi´ondiferencial en miRNAs y sfd-RNAs, los cuales est´anasociados con algunos genes blanco de regulaci´onespec´ıficopara s´ındromesfebriles que pueden ser ´utiles como biomarcadores de s´ındromesfebriles agudos. Palabras clave: Expresi´ondiferencial, Peque~nosncRNAs, anotaci´onde ncRNAs, Bio- marcadores s´ındromefebril, Dengue, Fragmentaci´onpostranscripcional funciona. RESUMEN ix Abstract In recent years, the increasing use of new generation sequencing technologies for trans- criptome study has led to discover a new biological phenomenon called functional post- transcriptional fragmentation of ncRNAs. Several studies have identified a large set of small ncRNA-derived fragments (sfd-RNA) with a length variation between 16 and 40nt, and which main source are tRNAs and snoRNAs. The interest in sfd-RNA is due to its structural and functional similarity with microRNAs (miRNAs). For example, both types of molecules can

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    136 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us