<<

Detecci´onautomatizada de peque˜nos fragmentos derivados de RNAs no-codificantes expresados diferencialmente frente a la infecci´ondel virus Dengue

Aimer Alonso Guti´errezD´ıaz

Universidad Nacional de Colombia Facultad de Ingenier´ıa,Departamento de Ingenier´ıade Sistemas e Industrial Maestr´ıaen Bioinform´atica Bogot´aD.C., Colombia A˜no2017

Detecci´onautomatizada de peque˜nos fragmentos derivados de RNAs no-codificantes expresados diferencialmente frente a la infecci´ondel virus Dengue

Aimer Alonso Guti´errezD´ıaz

Tesis presentada como requisito parcial para optar al t´ıtulode: Magister en Bioinform´atica

Directora: Ph.D. Clara Isabel Berm´udezSantana Departamento de Biolog´ıa,Universidad Nacional de Colombia. Co-Director: Ph.D. Steve Hoffmann Friedrich Schiller University Jena, Alemania

L´ıneade Investigaci´on: Transcript´omicade RNA no codificantes Grupo de Investigaci´on: Grupo RNomica te´oricay computacional

Universidad Nacional de Colombia Facultad de Ingenier´ıa,Departamento de Ingenier´ıade Sistemas e Industrial Bogot´aD.C., Colombia A˜no2017

Lema

”... Gene differences do not cause evolutionary changes in populations, they (just) register those changes.”

S. J. Gould (2002).

”... La meta m´asdif´ıcil de alcanzar no es la riqueza ni el poder. No se trata de algo material, no es ning´unt´ıtulo de la universidad, no est´a en buscar, est´aen el ser”.

”Libre”. Paradoxus luporum, 2014 Agradecimientos

A la vida, que me ha permitido indagar en uno de sus tantos secretos.

A la direcci´onde la profesora Clara Isabel Berm´udezSantana y el profesor Steve Hoffman, quienes me acompa˜naron,apoyaron y orientaron permanentemente en un viaje a trav´esde un mar de datos.

Al profesor Juan Carlos Gallego G´omezy Diego Alejandro Alvarez del grupo de Medici- na Molecular y de Translaci´on,por sus valioso aporte te´orico-conceptual,experimental y ´etico.

A Carlos Andr´esRodriguez Salazar y al profesor Jhon Carlos Casta˜noOsorio del Grupo de Inmunolog´ıaMolecular de la Facultad Ciencias de la Salud de la Universidad del Quind´ıo,quienes contribuyeron en el diagn´osticoy colecci´onde las muestras de sangre empleadas en el presente estudio.

Al servicio de intercambio acad´emicoAlem´anDAAD, por la donaci´onde la infraes- tructura computacional donde se ejecut´oel presente proyecto

A Jens Steuck por su noble y ejemplar gesti´ondel servidor

A Luis Alfonso Mej´ıaMu˜noz,Gloria Ines Agudelo Roa, Luis Alfonso Mej´ıaAgudelo y Laura Alejandra Mej´ıaAgudelo quienes me apoyaron y acogieron como un miembro m´asde su familia.

A mis compa˜nerosy amigos del lab: Andres Puerta Gonzalez, Jenny Ortega Rojas, Oscar Javier Escobar, Cristian Arley Velandia, Alejandro Cer´on,Ernesto Parra Rinc´on, Tatiana Garcia y Luz Stefany Botero, por compartir un espacio de formaci´onpersonal y profesional.

A la nueva generaci´onde RNOmicos:´ Gabriel Hernandez, Valeria Cadena, Valentina Cobo, Astrid Olave, Edna Romero y Laura Nova.

A mis amigos: Cristian Cortes, Ricardo Barrera, Axl Stivel, Mauro Adr´ıany Daniel Arias, por tantos buenos momentos. Resumen

En los ´ultimosa˜nos,el uso cada vez mayor de las tecnolog´ıasde secuenciaci´onde nueva gene- raci´onpara el estudio del transcriptoma ha llevado al descubrimiento de un nuevo fen´omeno biol´ogicollamado fragmentaci´onpostranscripcional funcional de ncRNAs. Varios estudios han identificado un amplio n´umerode peque˜nosfragmentos derivados del procesamiento al- ternativo de ncRNAs (sfd-RNA) que var´ıanentre 16 y 40nt, cuyas fuentes son principalmente tRNAs y snoRNAs. El inter´esen los sfd-RNA se debe a su parecido estructural y funcional con los micro RNAs (miRNAs). Por ejemplo, ambos tipos de mol´eculaspueden cargarse en prote´ınasArgonauta, quienes han sido vinculadas al fen´omenode interferencia mediada por RNA.

A la fecha existen diferentes pipelines y herramientas computacionales dirigidas a anotar y evaluar expresi´ondiferencial (DE) de miRNAs; no obstante, su extensi´onpara el estudio de sfd-RNAs no es del todo adecuada, debido a que la fuente de los sfd-RNAs es a su vez una secuencia de ncRNA con una funci´onalternativa, lo que implica una biog´enesisdiferente y por ende requiere estrategias computacionales propias. En particular, para el an´alisisde expresi´ondiferencial de sfd-RNAs, a diferencia de los miRNAs, existen problemas asocia- dos a la detecci´on, anotaci´ony cuantificaci´onde las lecturas asociadas al ncRNA, que en t´erminosestad´ısticos,impactan el n´umerode variables y el tama˜node muestra; por ende, se requiere una estrategia de anotaci´onpropia para sfd-RNA capaz de afrontar dos compli- caciones de orden bioinform´atico.La primera de ellas reside en que las mol´eculasfuente de sfd-RNAs presentan un mayor n´umerode copias id´enticas en el genoma con respecto a los miRNAs, a pesar de ello, del conjunto de loci repetitivos no todos necesariamente se trans- criben o no todos los transcritos generados se procesan de manera alternativa para generar fragmentos funcionales. La segunda dificultad yace en discriminar las lecturas derivadas del secuenciamiento de RNAs peque˜nosque evidencian la expresi´onde un fragmento funcional a la expresi´ondel ncRNA fuente; debido a que el conjunto de lecturas de un sfd-RNA est´a completamente auto-contenido en el conjunto de secuencias asignado al ncRNA fuente.

Las metodolog´ıasrecientes destinadas al estudio de los sfd-RNA se centran exclusivamente en un tipo de fuente de ncRNA (principalmente tRNA) y adolecen de una baja reprodu- cibilidad en sus predicciones, dado a la omis´onde los sezgos de la alineaci´ono por el uso de m´etodos de normalizaci´ondise˜nadospara genes codificantes, los cuales son m´aslargos y menos repetitivos. Con el fin de abordar las dificultades previamente descritas para la detecci´ony discriminaci´onde los patrones de expresi´onasociados con sfd-RNAs, y teniendo en cuenta que las herramientas actuales se ocupan de uno de los dos problemas o se centran exclusivamente en una especie de ncRNA, en el presente trabajo se ha dise˜nado una nueva estrategia para abordar los dos problemas simult´aneamente. En primer lugar, para evaluar viii diferentes tipos de ncRNAs, se realiz´ola integraci´onde las diferentes familias a trav´esdel solapamiento entre coordenadas de ncRNAs provenientes de bases de datos como UCSC, miRBase, snoRNAbase y RNAcentral, generando un listado de coordenadas de ncRNAs no- redundantes totales, en el que se resaltan solapamientos intra e inter familias. En segundo lugar, adaptando la aproximaci´ondise˜nadaen el programa BlockBuster, se utilizaron las coordenadas gen´omicasunificadas como referencia para detectar fragmentos de sfd-RNAs. Para ello, se clasificaron y organizaron las lecturas alineadas a los loci unificados teniendo en cuenta la media o coordenada central de cada lectura. Posterior a su ordenamiento por tama˜nose emplearon los valores de media y desviaci´onde la primera lectura para generar una distribuci´onnormal, que es alimentada con la subsecuentes lecturas, bajo la condici´onde que su valor central pertenezca al rango de simetr´ıade la distribuci´onnormal aproximada. Los subgrupos de lecturas generadas fueron definidos como bloques de expresi´onde sfdRNAs sobre los que se evalu´oexpresi´ondiferencial. El estudio de expresi´ondiferencial de sfdRNAs y miRNAs se realiz´obasado en diecis´eisestrategias computacionales que combinan cuatro algoritmos de alineamiento y cuatro m´etodos de normalizaci´oncon el prop´ositode evaluar la reproducibilidad de una predicci´onindependientemente de los m´etodos de alineaci´ony de normalizaci´onempleados.

La pipeline desarrollada fue probada con bibliotecas de small-RNAseq derivadas de l´ıneas celulares humanas infectadas por Dengue y muestras de sangre de pacientes humanos con fiebre del dengue y otros estadios febriles con el fin de dar luces a dos problemas biol´ogicosre- lacionados, los determinantes causales del dengue severo y el diagn´osticode las enfermedades febriles agudas inespec´ıficas,respectivamente. Finalmente, el enfoque desarrollado permiti´o abordar tanto los conflictos de anotaci´onde los ncRNAs como tambi´enel correcto uso es- tad´ısticode las lecturas con m´ultiplesalineamientos. Como resultado se encontr´oque ciertos loci detectados como sfd-RNAs hab´ıansido previamente reportados en otras categor´ıascomo piRNAs, adem´as177 fragmentos derivados de tRNAs y 69 snoRNAs est´anambiguamente reportados como miRNAs, piRNAs o siRNAs. Adicionalmente, en el presente trabajo se de- tect´oexpresi´ondiferencial simult´aneamente en miRNAs y sfd-RNA, algunos de estos ´ultimos descritos previamente en la infecci´onviral en humanos por el virus de la hepatitis C. Final- mente, se hall´oexpresi´ondiferencial en miRNAs y sfd-RNAs, los cuales est´anasociados con algunos genes blanco de regulaci´onespec´ıficopara s´ındromesfebriles que pueden ser ´utiles como biomarcadores de s´ındromesfebriles agudos.

Palabras clave: Expresi´ondiferencial, Peque˜nosncRNAs, anotaci´onde ncRNAs, Bio- marcadores s´ındromefebril, Dengue, Fragmentaci´onpostranscripcional funciona. RESUMEN ix

Abstract

In recent years, the increasing use of new generation sequencing technologies for trans- criptome study has led to discover a new biological phenomenon called functional post- transcriptional fragmentation of ncRNAs. Several studies have identified a large set of small ncRNA-derived fragments (sfd-RNA) with a length variation between 16 and 40nt, and which main source are tRNAs and snoRNAs. The interest in sfd-RNA is due to its structural and functional similarity with microRNAs (miRNAs). For example, both types of molecules can be loaded onto Argonaut proteins, which have been linked to the phenomenon of RNA- mediated interference.

To date, there are different pipelines and computational tools designed for annotate and evaluate differential expression (DE) of miRNAs; however, they are not entirely adequate for the study of sfd-RNAs, because the source of the sfd-RNAs is, in turn, a sequence of ncRNA with an alternative function, which implies a different biogenesis and therefore re- quires computational strategies for its own. In particular, for the analysis of DE of sfd-RNAs, unlike the miRNAs, there are problems associated with the detection, annotation and quan- tification of the reads associated specifically with the ncRNA, impacting statistically the number of variables and the sample size; therefore, an own annotation strategy is required for sfd-RNA, capable of facing two bioinformatic complications. First of all the source mo- lecules of sfd-RNAs have a higher number of identical copies in the genome with respect to the miRNAs, in spite of this, the total set of repetitive loci does not necessarily transcribe or processed in an alternative way to generate functional fragments. The second difficulty lies in discriminating the reads derived from the sequencing of small RNAs that presents the expression of a functional fragment different, from the expression of initial ncRNA; this, given that the set of reads of a sfd-RNA is completely contained in the sequences collection assigned to initial ncRNA.

Recent methodologies developed for sfd-RNA focus exclusively on one type of ncRNA (mainly tRNA) with a high risk of low reproducibility in their predictions, given the skewed alignment or the dependence on standardized methods designed for genes coding. In order to confront both situations, which hinder the detection and discrimination of the expression patterns associated with sfd-RNAs, and given that current tools deal with one of the two problems or focus exclusively to detect a single kind of ncRNA. In the present project we designed a new strategy to address both cases simultaneously. First, we created a list of coordinates of unified ncRNAs, from various databases such as UCSC, miRBase, snoRNAbase and RNA- central, the features integration implies face several overlapping conflicts intra- and inter- ncRNA famliy. to solve overlapping conflicts between ncRNAs. Second, using these genomic x coordinates as a reference to detect sfd-RNA candidates, from the total set of aligned reads, the reads were classified and organized taking into account the mean or central coordinate of each read. Once organized using the values of mean, a normal distribution is generated, which is fed with the subsequent reads. Exclusively with those reads that are part of the expression block, that is, with those reads whose central value belongs to the range of sym- metry of the approximate normal distribution, defined as the sum of the mean of the initial read, plus a half of the deviation standard of the same read.

Our pipeline was tested with RNAseq libraries derived from dengue-infected human cell lines and blood samples from human patients with and with other febrile con- ditions. This was done with the propose of bring ligth to two related biological problems, the causal determinants of severe dengue and the search of molecular markers for the diagnosis of acute febrile syndromes. Finally, our approach allowed us to address both the annotation conflicts of the ncRNA as well as the integration of the ncRNA, which in statistical terms consists in the definition of the number of variables and the sample space for the subsequent differential expression analyzes. As a result, it was found that certain loci defined as sfd- RNAs previously had been reported in other sncRNA categories, for example as piRNAs. Exactly 177 fragments derived from tRNAs and 69 snoRNAs have been classified into other categories, including miRNAs, piRNAs or siRNAs. Notoriously the genomic loci of these ambiguous cases are very similar, for example the piR-hsa-23289 presents the same coor- dinates as the tRF-5’-GluCTC, whose report has experimental validation. Additionally, in the present project we detected differential expression simultaneously in miRNAs and sfd- RNA, some of the latter previously described in viral in humans by the hepatitis C virus. Additionally, differential expression was found in new miRNAs and sfd-RNAs not previously reported. In a complementary way, with the analysis of differential expression in blood libraries a list of sfdRNAs and miRNAs common to the three fever syndromes studied was generated, but also a list of genes specific to each syndrome, which could be used for the development of a biomarker for the diagnosis of acute febrile syndromes.

Keywords: Differential expression, Dengue fever, Biomarkers, Small ncRNA, Annota- tion of ncRNAs, Multi-mapping reads placement problem, Post-transcriptional fun- ctional fragmentation. Contenido

1. Agradecimientos VI

2. Resumen VII

3. Objetivos 6

4. Introducci´on7

5. Marco Te´orico 11 5.1. La Materia oscura del transcriptoma y la fragmentaci´onfuncional de ncRNAs: 11 5.2. ncRNAs fuentes de peque˜nosfragmentos funcionales: ...... 18 5.3. ¿ Dos paradigmas emergentes, procesamiento de pre-ncRNAs y fragmentaci´on de ncRNA madurados ?: ...... 20 5.4. Respuesta del hu´esped ante la infecci´ondel DENV basada en ncRNAs: . . . 21 5.5. Retos computacionales y limitaciones de las soluciones tecnol´ogicasy compu- tacionales disponibles para la detecci´onde sfd-RNAs ...... 22

6. Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones existentes para ncRNAs 28 6.1. Introducci´on...... 28 6.2. Metodolog´ıay fuente de informaci´ongen´omica...... 30 6.2.1. Agrupamiento y etiquetado de lecturas redundantes ...... 40 6.3. Resultados y discusi´on ...... 41

7. Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs 55 7.1. Introducci´on...... 55 7.2. Metodolog´ıa ...... 58 7.3. Resultados y discusi´on ...... 70

8. Biomarcadores candidatos de sfd-RNAs para el diagn´osticoy pron´osticodel Dengue 90 8.1. Introducci´on...... 90 8.2. Metodolog´ıa ...... 93 8.3. Resultados y Discusi´on...... 96

9. Conclusiones 103 Contenido 1

10.Productos asociados 104

A. Anexos 105

Bibliograf´ıa 114 Lista de Figuras

5-1. Estructura de mol´eculasncRNAs fuentes de sfd-RNAs...... 14 5-2. M´ultiplestareas en las que se ha vinculado experimentalmente a los tRNAs . 16 5-3. Biog´enesisde tRFs y degradaci´onmediada por el complejo TRAMP o ruta de decaimiento r´apidode tRNAs ...... 17

6-1. Bibliotecas derivadas de la infecci´onpor el DENV2 o control negativo de infecci´onMOCK ...... 31 6-2. Bibliotecas derivadas de pacientes con diferentes diagn´osticospara s´ındrome febril agudo ...... 33 6-3. Diagrama de flujo para la generaci´onde los archivos de anotaci´onde ncRNAs. 37 6-4. Conteo total de lecturas sin procesar para los tres experimentos de secuencia- miento...... 42 6-5. Distribuci´onde tama˜nospara las bibliotecas HMECK-miRNA pre y pos re- ducci´onde redundancia ...... 43 6-6. Calidad del secuenciamiento por base pre y post reducci´onde las bibliotecas HMECK-miRNA...... 44 6-7. Distribuci´ondel contenido GC por hora y tratamiento ...... 45 6-8. Anotaci´onen mam´ıferosde la familia de miRNAs mir-1839 en miRBase . . . 54

7-1. Preprocesamiento de las bibliotecas y estrategias de alineamiento ...... 59 7-2. Anotaci´ony submuestreo de los diferentes alineamientos ...... 60 7-3. Prueba de simetr´ıapara evaluar si una lectura hace parte un bloque candidato a sfd-RNA ...... 63 7-4. Cuantificaci´onde lecturas en loci multicopia seg´unel tipo de alineador empleado 64 7-5. Descripci´onde las 16 estrategias de detecci´onde expresi´ondiferencial . . . . 68 7-6. Estad´ısticasdel alineamiento de las librer´ıasde HMECK infectadas con el virus Dengue o sin infecci´on(Mock) a loci de miRNAs...... 70 7-7. Matriz de correlaciones entre alineadores al considerar exclusivamente los de ncRNAs compartidos para los 4 alineadores...... 72 7-8. Matriz de correlaciones entre alineadores al considerar tanto los ncRNAs com- partidos como los ´unicos...... 73 7-9. Comparaci´onestad´ısticade los conteos sin discriminar fragmentos ...... 76 7-10.Comparaci´onde los bloques detectados para el tRNA-Val-AAC entre Block- buster y NBlockTester ...... 78 7-11.An´alisisde componentes principales y Coeficiente de variaci´onbiol´ogicapara la expresi´onde la totalidad ncRNAs de las bibliotecas de sangre perif´erica . 81 7-12.Mapa de calor y agrupamiento jer´arquicode los top sfd-RNAs expresados diferencialmente en las bibliotecas de muestras de sangre perif´erica...... 86 7-13.Alineamiento del cl´uster4 de tRNAs a nivel de secuencia ...... 87 7-14.Alineamiento de genes de tRNAs del cl´uster4 representados por el amino´acido que transfieren ...... 88 7-15.Conservaci´onde una de las 4 regiones ambiguas de un sfd-RNA sin anotaci´on 89 8-1. Dificultades del diagn´osticodiferencial del s´ındromefebril hemorr´agicoagudo 92 8-2. Estrategia de identificaci´onde genes blanco y b´usqueda de los t´erminosde ontolog´ıa...... 95 8-3. Agrupamiento jer´arquico a nivel de tratamiento de las bibliotecas de HEMC al analizar exclusivamente la expresi´onde miRNAs tops ...... 96 8-4. Expresi´onde miRNAs top (superior= y suboptimos (inferior) a las diferentes horas post infecci´onevaluadas ...... 99 8-5. Funciones de los genes blancos de los miRNAs DE, agrupaci´onen funciones relacionadas a la morfog´enesisvascular ...... 101 8-6. Modelo de des-estabilizaci´onde las c´elulasendoteliales mediado por miRNAs expresados ante la infecci´ondel virus DENV2...... 102 Lista de Tablas

5-1. tRNAs fuentes de fragmentos expresados diferencialmente ante las infecciones del HVC y HVB...... 15 5-2. Caracter´ısticasde los ncRNAs de tipo tRNA y snoRNA fuentes de fragmen- taci´ony sfd-RNAs asociados descritos principalmente en humano...... 19 5-3. Resumen de las propiedades descritas para los dos tipos de biog´enesis de fragmentos derivados de ncRNAs ...... 21

6-1. Secuencias descritas como pre-miRNAs con solapamiento a otras especies de ncRNAs...... 29 6-2. Calidad de la extracci´onde RNA total para las 24 bibliotecas de las l´ıneas celulares HMECK ...... 35 6-3. Calidad de la extracci´onde RNA total para las 24 bibliotecas de muestras de sangre perif´erica...... 36 6-4. Ejemplos de conflictos de anotaciones por solapamiento de tRNAs y piRNAs. 47 6-5. Conflicto de anotaciones por solapamiento de snoRNAs y piRNAs ...... 48 6-6. sncRNA con conflictos de anotaci´onentre miRNAs, piRNAs y tRFs...... 49 6-7. pre-miRNAs inmersos o sobrelapantes con longitud variable...... 50 6-8. Ejemplos de pre-miRNAs redundantes...... 52 6-9. pre-miRNAs ort´ologossin anotar en humano...... 53

7-1. Contrastes para bibliotecas derivadas del secuenciamiento de sncRNAs meno- res a 50nt y ncRNAs can´onicosde l´ıneascelulares...... 66 7-2. Contrastes para bibliotecas derivadas del secuenciamiento de sncRNAs meno- res a 50nt a partir de muestras de sangre perif´erica...... 67 7-3. Desempe˜noen la detecci´onde bloques de NBlockTester frente a BlockBuster 80 7-4. Resumen de las estad´ısticasdel top 8 de sfdRNA y miRNAs expresados dife- rencialmente en HMEC infectado con DENV2...... 83 7-5. Resumen de las estad´ısticas del top 10 de sfdRNA y miRNAs expresados diferencialmente en el escenario biol´ogicode pacientes con fiebre del Dengue. 84 8-1. Resumen de las estad´ısticasde los 6 miRNAs-top expresados diferencialmente en HMEC infectado con DENV2...... 97 8-2. Resumen de las estad´ısticasde los miRNAs sub-´optimosexpresados diferen- cialmente en HMEC infectado con DENV2...... 98 8-3. miRNAs diferencialmente expresados asociados previamente a la infecci´ondel virus Dengue...... 100 Lista de Tablas 5

A-1. Conflicto de anotaciones por solapamiento de tRNAs y piRNAs -Lista completa- ...... 107 A-2. Conflicto de anotaciones por solapamiento de snoRNA y piRNAs -Lista completa- ...... 111 Objetivos

Objetivo General Cuantificar computacionalmente peque˜nosfragmentos derivados de ncRNA, sin ambig¨uedad, con el fin de evaluar si se encuentran expresados diferencialmente en dos escenarios de in- fecci´ondel virus Dengue, en la l´ıneacelular endotelial humana (HMECK-1) y frente a la respuesta del hu´esped, en sangre perif´erica,de pacientes con fiebre del dengue.

Objetivos Espec´ıficos 1. Desarrollar una metodolog´ıade detecci´ony cuantificaci´onautomatizada capaz de dis- criminar entre peque˜nosfragmentos funci´onales de fragmentos artificiales o productos de degradaci´on,y a su vez de fragmentos funcionales derivados del procesamiento de ncRNAs maduros y derivados de transcritos precursores de ncRNAs.

2. Identificar y cuantificar los niveles de expresi´onde loci de ncRNAs computacionalmente ambiguos a nivel de locus especifico a partir del an´alisisde conservaci´onevolutiva, a nivel de los primates antropoides, del locus fuente del ncRNA sujeto a fragmentaci´on funcional.

3. Evaluar el perfil de expresi´ondiferencial de los peque˜nosfragmentos derivados de ncRNAs en dos escenarios de infecci´ondel virus Dengue, ante la infecci´ondel virus dengue 2 en la l´ıneacelular endotelial humana (HMECK-1) a diferentes horas post- infecci´ony frente a la respuesta, en sangre perif´erica,de pacientes con fiebre del dengue en diferentes grados de severidad: sin signos de alarma, con signos de alarma y severa.

4. Evaluar el potencial car´acterbiomarcador de la fiebre del Dengue, de los peque˜nos fragmentos derivados de ncRNAs expresados diferencialmente. Introducci´on

Despu´esdel auge de los proyectos de caracterizaci´ongen´omicade inicio del siglo XXI la atenci´onde los investigadores se dirige, en mayor medida, hacia el entendimiento del sig- nificado funcional de la gran cantidad de datos que generaron dichas iniciativas, lo que ha llevado a denominar esta etapa del conocimiento biol´ogicocomo la era post-gen´omica [1]. Las biomol´eculasque mayor atenci´onhan recibido en la b´usquedadel significado funcional han sido principalmente los RNA codificantes para prote´ınas,seguido por RNAs no codificantes (ncRNA) de tipo micro RNA (miRNA) y en menor medida otras especies de ncRNAs clasi- ficadas en dos grandes categor´ıasseg´unsu tama˜no, mol´eculasmayores a 200nt lncRNA (Por sus siglas en ingl´eslong-non-coding-RNA) y sncRNA (small non-coding RNA) [2, 3]. No obs- tante, gracias al desarrollo de tecnolog´ıasorientadas al secuenciamiento de alto rendimiento de RNAs (RNAseq) junto con los avances en las herramientas de an´alisisbioinform´aticoy estad´ısticocapaces de trabajar con los grandes vol´umenesde datos producidos por estas tecnolog´ıas,el panorama de investigaci´ondirigido a ncRNAs ha cambiado dr´asticamente. Por ejemplo, el aumento del espectro funcional de mol´eculasde ncRNAs hacia nuevas ta- reas no relacionadas a las funciones can´onicas,ha llevado a un nuevo concepto conocido como fragmentaci´onfuncional de ncRNAs [4, 5]. Entendido como un tipo de procesamiento molecular alternativo del ncRNA fuente, que conduce a una funci´onindependiente o di- ferente de la cl´asicaya conocida; es decir, para algunos tipos de ncRNAs, principalmente RNAs de transferencia (tRNA), RNAs peque˜nosnucleolares (snoRNA) y RNA nucleares peque˜nos(snRNA), se ha evidenciado que, de manera alternativa a la funci´oncan´onica, est´ansujetos al procesamiento en sub-fragmentos no-degradativos de forma regulada tejido y condici´onespec´ıfica.El procesamiento alternativo en peque˜nosfragmentos puede darse tanto en mol´eculas estructuradas funcionales o sobre el transcrito precursor, cuando cursa el proceso de maduraci´on.En ambos casos se generan peque˜nasmol´eculasentre 16 – 40 nt, similares a miRNAs, inicialmente descritos por [4]. Hasta la fecha se ha evidenciado que cier- tos fragmentos derivados de ncRNAs son empleados para distintos fines en el funcionamiento de la c´elula,entre ellos, el silenciamiento de mRNAs y transposones [6], o el bloqueo de la maquinaria de RNAi por competencia con miRNAs [7, 8] .

Estudios recientes, en los que se ha explorado este fen´omeno,han empezado a demostrar la importancia de los peque˜nosfragmentos derivados del procesamiento alternativo de ncRNAs, principalmente en el contexto de la infecci´onal humano del virus sincitial respiratorio (RSV) [9, 10] y los virus de la hepatitis B y C (HVB/C) [11]. En particular la serie de estudios sobre el RSV ha culminado con la identificaci´onde un gran conjunto de peque˜nosfragmentos de- rivados de tRNAs (tRFs), que incluso sorprendentemente, pueden estar m´asexpresados que los miRNAs ante la misma infecci´on[9, 10]. Adicionalmente, es importante resaltar que estos 8 4 Introducci´on estudios han logrado identificar a partir de an´alisiscomputacionales, an´alisisbioqu´ımicosy de datos de expresi´ong´enica,el primer blanco molecular, conocido como el gen APOER2, y mecanismo de regulaci´ondel tRF involucrado en su silenciamiento [10].

Por otro lado, los ´exitosde la investigaci´onbiom´edicaen un tipo especial de ncRNAs, los miRNAs, han generado grandes expectativas en torno al estudio de las posibles implicacio- nes funcionales de otras especies de ncRNAs, as´ıcomo de los tRFs. De manera ejemplar, los estudios de expresi´onde miRNAs ante infecci´ondel flavivirus hepatitis C (HVC), han con- ducido al descubrimiento y desarrollo de un tratamiento antiviral, en fase de medicamento experimental bajo el nombre de Miravirsen R [12]. Este tratamiento se basa en el empleo de oligonucle´otidosartificiales con complementariedad de bases frente al miR-122, miRNA que funciona como factor de susceptibilidad del hu´esped durante la infecci´onviral [13] . Con la aplicaci´onde este m´etodo se espera reducir la alta incidencia mundial de la hepatitis cr´onica; la cirrosis y del carcinoma hepatocelular causados por el HVC.

Otra l´ıneade investigaci´onbiom´edicainteresada en los ncRNAs, espec´ıficamente en miRNAs circulantes en biofluidos como la sangre, la linfa, y la orina, ha facilitado la identificaci´ony el empleo de biomarcadores informativos tanto para diagnosis como prognosis, en enferme- dades cardiovasculares, neurodegenerativas, c´ancery relacionadas al sistema inmune, tales como la esclerosis m´ultiple,Lupus eritematoso sist´emicoo SIDA, entre otras [14, 15, 16].

En el caso del virus Dengue, hasta la fecha no existe ning´unestudio relacionado a la expresi´on de sfdRNAs como factores de virulencia o como respuesta del hu´esped ante la infecci´on.Por ende, en el presente proyecto se desarrolla una metodolog´ıacomputacional que representa un avance en la caracterizaci´ony cuantificaci´onno ambigua de fragmentos potencialmente funcionales derivados de un amplio espectro de ncRNAs, expresados en el humano como respuesta ante la infecci´on del DENV. Adem´aslos resultados permiten establecer una base fundamental para el desarrollo de herramientas de diagn´ostico,pron´osticoy de tratamiento antiviral que permitan superar las dificultades actuales relacionadas a esta enfermedad de alto impacto econ´omico,debido a su efecto en la salud p´ublicamundial [17].

Teniendo el antecedente previo, se presenta la pregunta rectora del presente trabajo es:

¿ Cu´ales el perfil de expresi´onde los peque˜nosfragmentos derivados de ncRNA generados como respuesta ante la infecci´ondel virus Dengue en la l´ıneacelular endotelial humana, HMEC, y en pacientes diagnosticados seg´unel estado de severidad de la fiebre del dengue ?.

Para la resoluci´onde esta pregunta, en el presente estudio se enfrentaron diversas dificultades 9 computacionales que responden a la elevada complejidad biol´ogicade las mol´eculasestudia- das, en particular a tres propiedades biol´ogicasde los ncRNAs que dificultan su estudio a nivel bioinform´atico:

1. Los ncRNAs son mol´eculasque a nivel gen´omico, en el humano, presentan un n´umero considerablemente alto de copias g´enicas id´enticas, que incluso pueden llegar a estar com- partidas entre el genoma mitocondrial y nuclear. [18]

2. Aunque existen diversas clases de ncRNAs peque˜nos, a´unhoy en d´ıapersisten problemas para la anotaci´on,generando conflictos nomenclaturales para las diferentes clases de ncRNAs, en especial en situaciones de loci con m´ultiples funciones [19]. Esto genera un estado de incertidumbre sobre como nombrar secuencias que ante un determinado contexto generan un tipo de ncRNA, por ejemplo un tRNA, mientras que en una situaci´ondiferente, de dicha secuencia se deriva un miRNA. La soluci´onactual al problema es optar por conservar solo uno de los nombres, de all´ıque ciertos miRNAs provenientes de tRNAs son considerados por el mirBase como dead entries [20].

3. Los ncRNAs can´onicamente participan en diferentes procesos biol´ogicosesenciales, como maduraci´ondel RNA ribosomal, splicing alternativo, traducci´on,entre otros. Por lo que la biog´enesisy degradaci´onde estas mol´eculasse encuentran altamente regulada en el contexto celular. Al momento del secuenciamiento de fracciones de tama˜nopeque˜nopor RNAseq, es posible capturar secuencias provenientes de mol´eculasen degradaci´ono activos, funcionales o aquellas provenientes de un fragmento funcional derivado de un ncRNA enriquecido. Realizar esta discriminaci´onrepresenta por tanto un reto computacional.

4. El anterior problema se agrava por los artefactos t´ecnicosintroducidos tanto por el tipo de secuenciamiento empleado, como por la dificultad de recuperar lecturas de sncRNAs modi- ficados pos-transcripcionalmente. En cuanto al secuenciamiento, por lo general este proceso a la hora de estudiar sncRNAs se realiza de tipo lecturas sencillas (single end sequencing). Por defecto, esta t´ecnicapodr´ıaenriquecer artificialmente un bloque de lecturas dif´ıcil de discriminar de un fragmento funcional. Por ejemplo, un ncRNA can´onico,por azar, puede ser secuenciado exclusivamente en su extremo 5’ o 3’, esto junto a la limitaci´ondel tama˜nodel secuenciamiento, generar´ıabloques de lecturas que simulan el patr´onde expresi´onde un sfd- RNA. Un escenario similar es generado por el efecto de modificaciones post-transcripcionales denominadas “Road block” o bloqueadoras de camino, que, al impedir la actividad enzim´ati- ca de la RNA polimerasa, el secuenciamiento del ncRNA can´onicose interrumpe en un mismo punto generando un patr´onde lecturas que puede confundirse con un fragmento funcional; no obstante este bloque estar´ıaasociado a la presencia del nucle´otidomodificado, m´asno a un sfd-RNA [21]. 10 4 Introducci´on

5. Finalmente, la evidencia experimental generada hasta el momento en torno a los fragmen- tos funcionales derivados de ncRNAs apunta a que este tipo de mol´eculaspueden generarse a partir de ncRNAs precursores, por procesos como plegamiento alternativo de ncRNAs, as´ı como de ncRNAs maduros can´onicoo estructurados, dado por el clivaje de la sub-estructura de tipo steam o dupla de RNA [22]. El reto computacional que plantea la biog´enesisdual de sfd-RNAs recae en la dificultad de recuperar esta informaci´ona partir de lecturas derivadas del secuenciamiento por RNAseq.

Detectar y diferenciar computacionalmente cu´ales la fuente gen´omicafuncional, no ambi- gua y en qu´eestado de maduraci´onse encuentra el ncRNA del que derivan los peque˜nos fragmentos funcionales, es el principal reto abordado en la presente tesis. La resoluci´onde los problemas computacionales propuestos permiten, a nivel computacional, desarrollar una metodolog´ıasensible y espec´ıficano restringida a un subconjunto particular de ncRNAs, que es capaz de lidiar con lecturas alineadas ambiguamente. Lo que a nivel biol´ogico,permite plantear potenciales biomarcadores candidatos, que en este caso son necesarios para resolver las dificultades en el diagn´ostico,pron´osticoy tratamiento de enfermedades arbovirales como la fiebre del dengue.

Adicional a la problem´aticacomputacional y biol´ogicamencionada es importante resaltar que los aspectos te´oricosque repercuten en la interpretaci´onde la fragmentaci´onfuncional como un fen´omenobiol´ogico relevante, se encuentran a´unen construcci´on,de hecho se espera que la resoluci´onde las problem´aticascomputacionales brinden una base para expandir o precisar los aspectos te´oricos y conceptuales biol´ogicoscon los que se espera describir este fen´omeno. Marco Te´orico

5.1. La Materia oscura del transcriptoma y la fragmentaci´onfuncional de ncRNAs: El estudio de la complejidad y diversidad funcional de los ncRNAs ha alterado dram´atica- mente no solo la agenda inicialmente propuesta para la caracterizaci´onfuncional de los datos gen´omicosdisponibles, sino que, tambi´enconlleva a la re-evaluaci´onde los conceptos biol´ogi- cos que fundamentaban esta b´usqueda.En especial, los resultados del proyecto de gen´omica funcional ENCODE (Encyclopedia of DNA Elements) han permitido impulsar el desarrollo de nuevas perspectivas te´oricasy metodol´ogicascon las que se pretende describir procesos y fen´omenosno conocidos como la transcripci´onpenetrante (pervasive trancription) y el proce- so de fragmentaci´onpos-transcripcional alternativa de ncRNAs [2, 6]. Sin embargo, los nuevos desarrollos previamente mencionados a´unhacen parte de acaloradas controversias. Clark et al. (2011) [23] exponen las dos posiciones generadas a partir de la pol´emicacifra presentada en el a˜no2012 por el proyecto ENCODE, en donde se plantea que cerca del 1.2 % del genoma humano comprende secuencias codificantes para prote´ınas,pero del 97.8 % restante, el 93 % tambi´enpuede transcribirse. Este fen´omenorecibi´oel nombre de “Dark matter transcripts” a causa del desconocimiento de las funciones de dichos transcritos. En contraposici´on,autores como Van Bakel et al. (2010) [24] justifican que la elevada cifra es producto de la alta tasa de falsos positivos que se producen con las tecnolog´ıasde secuenciamiento de alto rendimiento de RNA (RNAseq); ya que de lo contrario, de no ser as´ıpertenecer´ıanal ruido biol´ogiconor- mal de fondo, que igualmente permanece sin ser comprendido. El debate continua abierto. Como consecuencia, postular y desarrollar investigaciones basadas en mol´eculas de ncRNA con funciones no convencionales, requiere de una demostraci´onrigurosa, sistem´aticacapaz de contrastar los resultados contra la hip´otesisnula del grupo de Van Bakel et al. (2010) [24].

La l´ıneade investigaci´onde aquellos autores que defienden la existencia del fen´omenode “Dark matter transcripts” explica la elevada cifra de transcritos no codificantes, bas´andose en la combinatoria, versatilidad y actividad gu´ıay catal´ıticat´ıpicade algunas mol´eculasde ncRNAs. Estas caracter´ısticasse reflejan en tres fen´omenosdescritos recientemente, que han ido ganando aceptaci´onen la comunidad cient´ıfica:El primero de ellos tiene m´ultiplesnom- bres como sobre-impresi´on,loci multifuncionales o transcritos de doble funci´on.Un ejemplo de este fen´omenoes el locus del peque˜noRNA nuclear U, el cual produce dos transcritos id´enticos a nivel de secuencia, pero que son capaces de plegarse de dos maneras diferen- tes y por tanto ejecutan funciones diferentes, ya sean como componente del spliceosoma, protegiendo mRNAs de clivajes prematuros, o como el lncRNA 7SK, regulador negativo de genes en equilibrio de marcas epigen´eticas bivalentes (o identificadas en un contexto como 12 5 Marco Te´orico activadoras, pero en contextos diferentes como represoras) [25].

El segundo fen´omenoes denominado “pervasive transcription”, concepto con el que se debate la noci´onde gen modular, esto debido a que cada vez m´as se encuentran un mayor n´umero de loci cuya estructura no responde al modelo gen´eticoestructural est´andarconformado por regiones regulatorias y regiones codificantes. En contraposici´on,una misma subregi´ong´enica de un determinado locus, puede llevar a cabo m´ultipleslabores en contextos diferentes, en particular, mediante la transcripci´onbidireccional o en ambos sentidos (Forward y Reverse); o mediante la transcripci´onde regiones reguladoras capaces de servir como piezas claves para el reconocimiento de prote´ınasa nivel de DNA, como las regiones tipo enhancer, pero que, en otro contexto molecular, pueden ser transcritas a lncRNAs y a su vez regular la expresi´onde un bloque de genes codificantes diferente [6]. Una misma regi´ontambi´enpuede ser transcrita en un mismo contexto pero al presentar solapamiento de regiones que codifican ncRNAs con loci de genes codificantes, su procesamiento determinar´afinalmente que funci´on adquiere el transcrito naciente [26]. Como ejemplo de este ´ultimo,en el genoma humano el locus del miRNA 1306 se encuentra completamente inmerso en el exon 2 del gen DGCR8 [27]. Adicionalmente, otro fen´omeno biol´ogicoque aumenta la diversidad de transcritos de ncRNAs, consiste en la existencia de m´ultiplessitios cr´ıpticosde procesamiento de intrones [28], es decir regiones alternativas a los puntos de splicing can´onicos,que pueden se˜nalizar sitios alternos, que genera transcritos novedosos [28].

La dimensi´onque alcanza la transcripci´onde mol´eculasno codificantes supera los limites cl´asicosestablecidos por el estudio de genes de prote´ınas,ya que, incluso las regiones de baja complejidad o altamente repetitivas pueden ser transcritas, generando en este caso un tipo de mol´eculasinvolucradas en la maquinaria de silenciamiento mediada por RNA (RNAi) , subclasificadas dentro de la familia de los piRNA (Piwi-interacting RNAs), denominados RasiRNA (Repeat associated small interfering RNA) [29]. Finalmente este concepto ha lle- vado a la comunidad cient´ıficaa reconocer que existe m´asde un sitio de inicio y fin de la transcripci´onen determinados genes, como tambi´enm´ultiplessentidos en los que se puede expresar un mismo gen [6].

Un tercer fen´omenoadicional expande a´unm´asel espectro funcional de especies de ncRNAs, llevando a considerar estas mol´eculascomo ejecutoras de m´ultiplestareas. Todos los ncRNAs para llevar a cabo sus funciones can´onicassufren un proceso de maduraci´ony localizaci´ona nivel celular; no obstante, con el descubrimiento del fen´omenode fragmentaci´onfuncional, los ncRNAs pueden ser funcionales tanto en estado precursor como maduro, dependiendo del contexto celular. Este proceso de fragmentaci´onfuncional se logra a partir del clivaje directo y regulado de estas mol´eculas,de las cuales derivan nuevas especies de peque˜nosncRNAs 5.1 La Materia oscura del transcriptoma y la fragmentaci´onfuncional de ncRNAs: 13 cuyas funciones no est´anrelacionada a la actividad can´onica del ncRNA fuente [6, 8]. De hecho, recientemente con el aumento de los estudios experimentales, diversas regularidades han emergido en torno al proceso de fragmentaci´onpos-transcripcional, llevando a conside- rar que la fragmentaci´onde ncRNAs no solo se realiza para producir peque˜nas secuencias intermediaras de la degradaci´on,sino que tambi´enpuede generar, de manera alternativa, fragmentos estables y funcionales, que no derivan de cortes aleatorios por artificios experi- mentales, y que mucho menos representan un vestigio evolutivo incapaz de eliminarse por la ausencia de presiones selectivas, dado a que los loci de ncRNAs con funciones no can´onicas son regiones con un tasa evolutiva bastante alta, tanto as´ıque existen variaciones en n´ume- ro de copias en las poblaciones humanas, en particular para el caso de los loci de tRNAs [30].

En detalle las principales regularidades y evidencias que refutan la hip´otesisnula en torno a la transcripci´onpenetrante o la fragmentaci´onfuncional, es decir, las evidencias que per- miten negar que estos transcritos solo est´anasociados con la degradaci´onde los ncRNAs can´onicoso son s´oloruido de fondo del secuenciamiento son:

1. Los peque˜nosfragmentos derivados de ncRNA (sfd-RNAs) son productos estables y dis- cretos que var´ıansu tama˜noseg´unel ncRNA fuente, y tambi´enen ocasiones, dependiendo del lugar en donde se corta la mol´eculaoriginal [31]. En t´erminosgenerales, se estima que el tama˜nopromedio de los sfd-RNAs var´ıaentre 16-40nt en tama˜no,asemej´andoseal tama˜node miRNAs convencionales; adem´aslos fragmentos derivan de ncRNAs con estructuras simila- res a las mol´eculasprecursoras de miRNAs [8], es decir, presentan estructuras de tipo hairpin o subregiones de RNA bicatenario, como se ilustra en los diferentes ejemplos recopilados en la figura 5-1.

2. El aumento de la producci´ony expresi´onde sfd-RNAs no est´arelacionado con la cantidad de loci gen´omicosdisponibles que codifiquen para un mismo ncRNA sujeto a fragmentaci´on, como tampoco depende, en el caso particular de los peque˜nosfragmentos derivados de tRNAs (tRFs), del sesgo cod´onico-es decir del empleo selectivo de uno o m´ascodones que codifican para un mismo amino´acido-,como lo demostr´oSelitsky et al. (2015) [11], quienes encontraron que, por ejemplo el tRNA-ValAAC-1-2, lector del cod´onGUU (presente un total de 448.607 veces en un conjunto de 40’662.582 codones 1.1 %) genera una mayor cantidad de fragmentos que el tRNA-ValCAC-1-9, el cual lee el cod´onGUG quien es mucho m´asabundante (2.8 %) [11](Tabla 5-1), como cabr´ıaesperar si los fragmentos fueran producidos por procesos de degradaci´ony decaimiento de ncRNAs. En cambio, aquellos ncRNAs sujetos a fragmentaci´on funcional parecen contener motivos espec´ıficosque podr´ıangobernar su expresi´oncomo lo sugiere Selitsky et al. (2015) [11], quienes identificaron el siguiente motivo conservado en los 10 loci de los tRNAs fuente de los fragmentos m´asabundantemente expresados ante la infecci´ondel HVC y HVB: 14 5 Marco Te´orico

tcGcCT-[Anticodon]-ACgCg

Figura 5-1.: Estructura de mol´eculasncRNAs fuentes de sfd-RNAs.: La mayor´ıade las mol´eculasfuentes de sfdRNAs reportados a la fecha presentan un plegamiento tipo hairpin o tipo miRNA. Ejemplo de la estructura del tRNA-Asp generada incluyendo 20 nucle´otidos adicionales al extremo 3’, dado a que se ha reportado fragmentos que derivan de dicha regi´on[11]. Los fragmentos snoRF-U15A y ACA45 han sido identificados y caracterizados funcionalmente como miRNAs en Brameier et al. (2010) [32]. El fragmento snRF-U6 fue identificado en Li et al. (2012)[33]. Imagen generada empleando RNAstructure [34]. Nota: El tRF-5’ no fue reportado para este tRNA, solo se presenta con fines ilustrativos de este tipo de fragmentos que se origina a partir de otras especies de tRNAs

3. Los sfd-RNAs pueden derivarse de la fragmentaci´onde transcritos sobre-expresados sin madurar, es decir previo o durante la biogenesis del ncRNA, o de manera posterior a es- te proceso, a partir del procesamiento alternativo de especies estructuradas o maduras de ncRNAs. Adem´as,la generaci´onde sfd-RNAs puede darse de manera tejido espec´ıficoy con- 5.1 La Materia oscura del transcriptoma y la fragmentaci´onfuncional de ncRNAs: 15

Tabla 5-1.: tRNAs fuentes de fragmentos expresados diferencialmente ante las infecciones del HVC y HVB. Se muestran siete de los diez loci reportados por Selitsky et al. (2015) [11] . Aquellos tRFs m´asexpresados no son necesariamente los que tienen un sesgo de uso o un n´umerode copias gen´omicasmayor, num´ericamente la correlaci´onentre el n´umerode fragmentos derivados de un tRNA versus el sesgo cod´onicoes 0.32 y 0.41 para el n´umerode copias. En la tabla se logra apreciar que tRNAs con bajo n´umerode copias g´enicasy bajo sesgo cod´onicopueden generar un elevado n´umerode tRFs, como es el caso del tRNA ValAAC-1-2.

Fuente de fragmentaci´on Expresi´on N´umerode Sesgo tRNA promedio loci cod´onico( %) GlyGCC-1-1 0,37714 10 2,77 ValCAC-1-8 0,14856 15 2,81 ValAAC-1-2 0,06101 1 1,1 GluCTC-1-1 0,03631 8 3,96 LysCTT-2-1 0,01871 3 3,19 ValCAC-1-9 0,01554 1 2,81 GluCTC-7-1 0,01515 8 3,96 dici´onespec´ıfica,por ejemplo, durante estr´es,proliferaci´oncelular, c´ancer,infecci´onviral, entre otras condiciones [18]. Incluso ciertos sfd-RNAs se expresan de manera m´asabundante que los miRNAs caracterizados para las condiciones evaluadas [11, 35]. De manera ilustra- tiva, Castellano et al. (2015) [35] demostraron que la proporci´onde lecturas alineadas a regiones tRNA del genoma, derivadas del mismo tejido de un mismo set experimental del mosquito Anopheles gambiae, cambia de un valor de 0 (0 % de un total de cerca de ocho mi- llones de lecturas promedio), en hembras alimentadas sin sangre, a un valor de tres millones y medio de lecturas (6 % de un total de 5 millones ochocientos lecturas promedio) cuando las hembras son alimentadas con sangre. De manera inesperada, en el mismo experimento las lecturas alineadas a loci de miRNA no sufren un cambio semejante, a pesar de las funciones reguladoras de estas mol´eculas,pasando de un total de cuatrocientos ochenta mil lecturas (representa un 6 %) a un valor de trecientos cincuenta mil lecturas (6 %) para las mismas muestras [35].

4. La funci´onbiol´ogicade los sfd-RNAs se considera desacoplada espacial y temporalmente al rol convencional de las mol´eculasfuente [36], por lo que presentan funciones propias, que se asemejan en ciertos aspectos a los miRNAs, pero no son id´enticas. De hecho, existen varios tipos de funciones diferentes reportadas para subclases de sfd-RNAs espec´ıficos,como aque- llos derivados de tRNAs: un subtipo de estas mol´eculas,el tRF-1 promueve la proliferaci´on celular de c´elulascancer´ıgenas,al parecer, al competir por la maquinaria de interferencia de RNA reduciendo su eficiencia [37]. Mientras que otras subclases, si interact´uancon compo- 16 5 Marco Te´orico nentes cruciales de la maquinaria de interferencia de RNAs, e incluso presentan reglas de interacci´ontRF-mRNA blanco semejantes a las de miRNAs [38]. En la figura 5-2 se ilus- tran las m´ultiplesfunciones tanto de los tRNAs maduros como de las peque˜nasmol´eculas generadas por su fragmentaci´onfuncional.

Figura 5-2.: M´ultiples tareas en las que se ha vinculado experimentalmente a los tRNAs. Cada funci´ones ejecutada ante condiciones particulares y puede ser diferenciada en funci´onde los efectos generados en la expresi´onde ciertos genes, en la tasa de traducci´on o mediante la identificaci´onde las interacciones que presenta un determinado tRNA [36]. Ilustraci´onpropia basada en Kirchner et al. (2015) [36]

5. Al igual que los miRNAs, en la biog´enesisde los sfd-RNAs parecen estar involucradas las endonucleasas Drosha y Dicer, junto con otras enzimas como Angiogenina, RNasa P o tRNasa Z, las cuales no est´aninvolucradas en el procesamiento de pre-miRNA y tampoco 5.1 La Materia oscura del transcriptoma y la fragmentaci´onfuncional de ncRNAs: 17 participan directamente en las rutas de degradaci´onde RNAs pero si en la biogenesis de otros ncRNAs (Megel C. et al. 2015). En la 5-3 se ilustran tanto las enzimas involucradas en la degradaci´onde los tRNAs como aquellas involucradas en la biog´enesisde los fragmentos funcionales.

6. Finalmente el fen´omenode fragmentaci´onfuncional de ncRNAs se ha evidenciado pr´acti- camente en cada rama del ´arbol de la vida, pero principalmente en organismos modelo como el rat´on,la mosca de la fruta, Arabidopsis thaliana, el protozoo Giardia lamblia, Tetrahyme- na thermophila, las levaduras Saccharomyces pombe y S. cerevisiae, la bacteria Streptomyces coelicolor y la arquea Haloferax volcanii [18, 5].

Figura 5-3.: Biog´enesis de tRFs y degradaci´onen la mediada por el complejo TRAMP o en la ruta de decaimiento r´apidode tRNAs. Se ilustra adicionalmente la biog´enesisdel miRNA derivado del tRNA-Ile miR-1983. Ilustraci´onpropia basada en Megel et al. (2015) [31]. 18 5 Marco Te´orico

5.2. ncRNAs fuentes de peque˜nosfragmentos funcionales: A partir de estudios de expresi´ondiferencial utilizando librer´ıasproducidas por RNA-seq se ha logrado identificar, usando herramientas de an´alisisbioinform´atico,una gran cantidad de especies de ncRNAs cuya expresi´ones enriquecida en ciertas condiciones, las cuales incluso han sido confundidas y anotadas en bases de datos como miRNAs [19]. Actualmente las especies de RNA sujetas a fragmentaci´onque han sido m´asdocumentadas, en orden de me- nor a mayor frecuencia son: RNA nucleares peque˜nos(snRNA), RNAs ribosomales (rRNA), vault RNAs (vRNAs), Y RNAs (yRNAs), peque˜nosRNAs nucleolares (snoRNA), y RNAs de transferencia (tRNAs) [39]. Un resumen de las principales caracter´ısticaspor cada una de las anteriores especies se presenta en la tabla 5-2.

La descripci´onde subtipos de sfd-RNAs fue propuesta por Kumar et al. (2014) [38] y Chen C. & Heard (2013) [39] a partir del an´alisisde transcriptomas humanos, con los que lograron discriminar poblaciones de fragmentos separados por tama˜nosdiscretos, ademas del punto de fragmentaci´on,el cual consiste en el corte de una regi´onespec´ıficadel ncRNA, por lo que se clasifica a un sfd-RNA en funci´onde si su punto de corte fue m´ascerca a la regi´on 5’ de la mol´eculafuente o la regi´on3’, si su origen es intermediario se designa al sfd-RNA como i. Gr´aficamente pueden visualizarse los subtipos de fragmentos de algunos tipos de ncRNA en la figura 5-3. En la tabla 5-2 se omite deliberadamente sfd-RNAs derivados de mRNAs que no entran en traducci´on,sino que se pliegan de manera similar a un pri-miRNA [6], tales como los reportados por Burroughs et al. (2011) [40], en cuyo trabajo describen tres RNA mensajeros fuente de fragmentos potencialmente funcionales, los cuales fueron predichos computacionalmente a partir del an´alisisde lecturas generadas del secuenciamien- to de RNA inmunoprecipitado con anticuerpos anti AGO 1,2 y 3. Es importante se˜nalar la diferencia entre peque˜nosRNAs de tipo sfd-RNAs derivados de mRNAs de los siRNA (small interefence RNA), mientras que los primeros requieren de una mol´eculafuente capaz de plegarse en forma de hairpin, los siRNAs son peque˜nosRNAs que derivan de un RNA bicatenario conocidos como dsRNAs (double strand RNAs).

Para ahondar en los peque˜nosfragmentos de RNA derivadnos de mRNAs o RNA codifi- cantes, un caso particular son los fragmentos derivados del mRNA del gen CYP46A1, estos presentan una longitud de 25nt y provienen de la regi´onex´onica,mientras que de los mRNAs de los genes CLTC y WEE1 derivan fragmentos de 27nt cuya fuente es la regi´onex´onica anti-sentido. Ambos fragmentos forman estructuras similares a hairpins y la secuencia semi- lla predicha es evolutivamente conservada en vertebrados [40]. 5.2 ncRNAs fuentes de peque˜nos fragmentos funcionales: 19 Sm 100 corte Varias snRfs 16 - 18 20 - 24 25 - 27 Tejidos familias motivos Splicing Sitios de AGO1(+) DICER(-) de mRNA DGCR8(-) AGO3 (+) smasRNAs Desconocida reproductivos - 3 200 rRFs Traducci´on Desconocida Desconocida 2-3 200 Vault vRFs vRNA rRNA snRNA svRNAs proteinas Ribonucleo- Desconocida Desconocida Desconocida Desconocida 269 C/D g´enico Nop56 16 - 20 16 -20 16-20 pseudo sdRNAs ncRNAs miR-like snoRNA AGO1(+) AGO2(+) fibrillarina Box C/D Maduraci´on -uridinaci´on Dyskerin(+) DICER(+/-) Silenciamiento 2 (5’ C y 3’ D) Drosha/DGCR8(-) 112 16-19 21 -24 g´enico Nop56 H/ACA sdRNAs miR-like snoRNA AGO1(+) AGO2(+) fibrillarina ncRNAs2’- Maduraci´on Dyskerin(+) O-metilaci´on DICER(+/-) 2 a 3 (steams) Silenciamiento Box H/ACA L´ıneagerminal L´ıneagerminal M´ultiplestejidos M´ultiplestejidos Drosha/DGCR8 (-) 2? 20 mtRF tRNA M´ultiple tRF5/3* tRF5/3* tRF5/3* mt-tRF Similar a Similar a Similar a Similar a tRF5/3 * Traducci´on mitocondrial 2 610 viral M´ultiple tRF1/2 de RNAi AGO1(-) AGO2(-) Primer en Traducci´on AGO3(-/+) Interferencia AGO4 (-/+) pre-tRF-3U/5L retrotranscripci´on 2 610 trans 31 - 40 15-22 20 - 30 tRh 5/3 M´ultiple traducci´on Traducci´on Citoplasma Citoplasma tRF-5A/3A AGO 1-4 (-) tiRNA 5/3 Bloqueo de la Silenciamiento Angiogenina(+) RNaseZ (+) Captura de elF4E 5 610 PhyM U2 (p) Nucleo 76 - 96 76 - 96 100 - 200 72 60 - 300 60 - 300 100 121, 156, 5070 150 M´ultiple tRF5/3 14 -16(a) 22 -24(b) 28 - 30(c) AGO2 (-) AGO1(+) AGO3(+) AGO4(+) Traducci´on Citoplasma tRF-5D/3T 18(a) 22 (b) DROSHA (-) DICER (+/-) tRNA maduro tRNA maduro pre-tRNA Silenciamiento Citoplasm´atica Citoplasm´atica Nuclear Mitocondrial Nucl´eolo Nucl´eolo Citoplasma Citoplasma N´ucleo g´enicomiR-like Angiogenina(+) . : Caracter´ısticasde los ncRNAs de tipo tRNA y snoRNA fuentes de fragmentaci´ony sfd-RNAs asociados Loci fuente Fuente Tama˜no ncRNAs tRFs snoRFs con AGO fragmento Sinonimos Biog´enesis Asociaci´on fuente (nt) Sub -clases N´umerode Funci´onM. Tama˜noM. Funci´ondel Localizaci´on del fragmento fragmentos (nt) mol´eculafuente Enriquecimientos Tabla 5-2 descritos principalmente en humano. 20 5 Marco Te´orico

Leyenda tabla 5-2: Nomenclatura acu˜nadapara los principales tipos de fragmentos. a, b y c: Subclases de 5’tRFs y 3’tRFs. +, - +/- y p: Presenta evidencias de la participaci´onde la enzima en dicho proceso a favor, en contra, de los dos tipos y es probable, respectivamente. ?: Posiblemente existan las misas subcategor´ıasasociadas a los tRFs nucleares. * Ning´unestudio ha discriminado espec´ıficamente las propiedades de mt-tRFs debido a la presencia de secuencias id´enticas a las mitocondriales en el genoma nuclear. Siglas: tRF-D /-A/-U/-L, Until D-loop; -T, T-loop; -A, Anticod´on-loop; -U, RNA pol II signal y –L, 5’ leader regi´on.tiRNA, tRNA-derived stress-induced fragments. tRH, tRNA halves. sdRNA, snoRNA-derived RNAs. Referencias: [8, 40, 39, 41, 42, 43].

La clasificaci´onpresentada en la tabla 5-2 de los diferentes subtipos seg´unla clase de ncRNA fuente estar´ıasujeta a futuros cambios, ya que es posible que se subestime la diversidad de estas mol´eculasal considerar alguno de los dos paradigmas que se introducir´ana continua- ci´on:

5.3. ¿ Dos paradigmas emergentes, procesamiento de pre-ncRNAs y fragmentaci´onde ncRNA madurados ?:

En general la descripci´onde sfd-RNAs al depender de diferentes nomenclaturas, ha reca´ıdo en la proliferaci´onde esquemas confusos [31]. Megel et al. (2015) [31] resaltan que en la nomenclatura emergente para los sfd-RNAs existe ambig¨uedad;ya que al describir un sfd- RNAs no se hace referencia al estadio de procesamiento de la mol´eculafuente, siendo este procedimiento necesario ya que pueden darse dos escenarios. En un primer caso, un frag- mento puede originarse por la transcripci´oninterrumpida del locus de la mol´eculafuente o a partir de la fragmentaci´ondel transcrito de la mol´eculafuente sin madurar en el interior del n´ucleo.Un ejemplo de ello, esta en el caso del denominado tRF-1 (en adelante pre-tRF-3’U como es sugerido en Megel et al. (2015) [31]). Este sfd-RNA se origina de la regi´on3’ del transcrito precursor del tRNA-SerUGA y de manera interesante se observa que su posici´on inicial es una secuencia reconocida como sitio de corte de la RNasa Z (es decir este fragmento hace parte de la secuencia trailer del locus del tRNA en menci´on),mientras que en la parte final, este sfd-RNA porta una se˜nalque marca la terminaci´onde la transcripci´ondel tRNA fuente por parte de la RNA Pol III, las cuales pueden ser UUUUU, UUCUU, GUCUU, o AUCUU [43].

El segundo escenario consiste en la fragmentaci´onde ncRNAs madurados y que han ter- 5.4 Respuesta del hu´esped ante la infecci´ondel DENV basada en ncRNAs: 21 minado su proceso de biog´enesis,es decir que han sido previamente sometidos a eventos de corte y empalme de intrones, adici´onde modificaciones pos-traduccionales y, en el caso de los tRNAs, al corte de los extremos 5’ leader y 3’ trailer, junto con la adici´onde los nu- cle´otidosCCA a su extremo 3’ terminal. En resumen, las huellas de cada una de estas rutas biosint´eticasse presentan en la tabla 5-3 [43, 44, 45, 31].

Tabla 5-3.: Resumen de las propiedades descritas para los dos tipos de biog´enesis de fragmentos derivados de ncRNAs

Fragmentos derivados de ncRNA pre- Fragmentos derivados de ncRNA es- cursores tructurados Su tama˜nooscila entre 15 a 30nt Su tama˜noparece superar los 30nt Producidos en condiciones fisiol´ogicasnor- Relacionados al fen´omenode regulaci´onde males ncRNA inducida por estr´es Regulaci´ona nivel de motivos en el DNA Regulaci´on independiente del DNA (Epi- gen´etica) Competencia por la maquinaria de RNAi Funciones similares a miRNA (interact´uan con AGO) o bloque de la traducci´on No requieren de modificaciones post- Requieren de modificaciones post- transcripcionales transcripcionales Localizados al interior del n´ucleo Localizados en el citoplasma Sufren procesos de plegamiento diferente Se procesan a partir de estructuras plegadas

5.4. Respuesta del hu´esped ante la infecci´ondel DENV basada en ncRNAs: Pocos son los estudios vinculados a las infecciones virales en el humano basados en especies de ncRNAs diferentes a los miRNAs; sin embargo se destaca el estudio de Murray et al. (2014) [46] quienes describen la importancia de algunos snoRNAs como factores de suscep- tibilidad ante la infecci´onde un variado set de virus, incluyendo al virus del Dengue y el virus de la influenza A. Esta observaci´onse concluy´oempleando un conjunto de l´ıneascelu- lares mutantes sometidas a infecci´onviral, a las que se evaluaba superveniencia ante un reto inmune [46]. En dicho estudio se identific´oun total de 11 loci de snoRNAs, cuya disrupci´on logra otorgar resistencia a la infecci´ondel virus dengue espec´ıficamente, y en menor medida, 22 5 Marco Te´orico resistencia simult´aneamente a un gran espectro de virus incluyendo al flavivirus. Hasta el momento no se han realizado investigaciones para vincular esta observaci´oncon la genera- ci´onde fragmentos funcionales a partir, ya sea de la expresi´ony posterior fragmentaci´on del transcrito inmaduro de los snoRNAs, o del procesamiento de las estructuras maduras de estas mol´eculas.

Con relaci´ona la investigaci´onde la respuesta del hu´esped, usando como marcadores miR- NAs expresados frente a la infecci´ondel DENV, recientemente se ha publicado un estudio de expresi´ondiferencial empleando micro-arreglos de miRNAs, en el que a partir de mues- tras de sangre de pacientes infectados con DENV en diferentes estados de la infecci´ony de muestras de personas saludables como control, encontraron que los miRNAs miR-625-3p, -767-5p, -1200 y -299-3p est´ansobre expresados en pacientes con un cuadro febril asociado al DENV [47].

5.5. Retos computacionales y limitaciones de las soluciones tecnol´ogicasy computacionales disponibles para la detecci´onde sfd-RNAs

Actualmente la investigaci´ondel fen´omenode fragmentaci´onfuncional de ncRNAs cuenta con diversas estrategias que procuran ajustar metodolog´ıasbioinform´aticasdisponibles, pa- ra enfrentar las problem´aticascomputacionales, dadas por la complejidad biol´ogica de los ncRNAs [18, 48]. A la fecha tres herramientas disponibles enfrentan diferentes problemas, tDRmapper [49], es una herramienta para alinear, cuantificar y anotar tRFs, a partir de una estrategia de m´ultiplesalineamientos y re-alineamientos de secuencias derivadas de experi- mentos de RNAseq frente al espacio de secuencias de tRNAs, con miras a recuperar tRFs derivados tanto de secuencias precursoras (alineamientos exactos), como de tRNAs maduros (m´ultiplesre- alineamientos tolerantes de deleciones y apareamientos err´oneos-mismatch-). Las falencias identificadas de dicha herramienta por autores como Telonis et al. (2016) [48], dieron lugar a dos estrategias computacionales adicionales, tRFfinder [50] y MINTMap [51], el principal problema identificado de la herramienta tDRmapper consiste en que la eficiencia, en t´erminosde sensibilidad, precisi´ony especificidad no es lo suficientemente alta, ya que al evaluar exclusivamente el espacio de tRNAs, es decir el conjunto total de loci de tRNAs bona fide del genoma, reduce la especificidad del an´alisisal aumentar la probabilidad de detectar falsos positivos; lo anterior se debe al hecho de que al omitir el contexto gen´omico no se pueden eliminar lecturas que alinean ambiguamente tanto a loci de tRNAs funcionales como a pseudogenes de tRNAs que son secuencias similares a tRNAs o tRNA incompletos 5.5 Retos computacionales y limitaciones de las soluciones tecnol´ogicasy computacionales disponibles para la detecci´onde sfd-RNAs 23 pero que han perdido regiones reguladoras que impiden su procesamiento y expresi´on.Para resaltar la dimensi´ondel problema de sensibilidad de tDRmapper, es importante resaltar que estas subcadenas de nucle´otidosno asociados con tRNA funcionales pueden llegar a sumar un total de 716 sub-regiones en el genoma humano y pueden ser confundidas con secuencias del espacio de tRNAs, cuya diferencia solo esta en que presentan longitudes mayores a 50nt pero menores a 72nt, valor promedio de longitud de los tRNAs, como se reporta en la base de datos de RepeatMarker para el ensamblaje 19 del genoma humano [48].

Tanto tRFfinder [50], como MINTMap [51] han sido dise˜nadaspara filtrar lecturas que alinean fuera del espacio de secuencias de tRNAs bona fide. Las principales diferencias de estos algoritmos residen en que, para el caso de tRFfinder, esta herramienta presenta un sistema de puntaje para discriminar apareamientos err´oneoso mismatch que coinciden con sitios de modificaci´onpostranscripcional, de aquellos mismatch probablemente generados por artificios t´ecnicoso variabilidad biol´ogica(SNPs) [50]. La tercera herramienta MINT- Map [51] a diferencia de tDRmapper, realiza alineamientos a la totalidad del genoma, pero no filtra las secuencias con un origen ambiguo, como lo realiza tRFfinder, en cambio marca dichas lecturas como candidatas a falsos positivos, sin embargo evita el an´alisisde modifica- ciones pos-transcripcionales.

Como se logra apreciar las soluciones a estas dificultades no est´anintegradas en una sola herramienta, adem´asno presentan una estrategia para resolver los problemas de ambig¨uedad a la hora de designar una ´unicafuente de fragmentos con alineamientos m´ultiplesexactos, por tal motivo es importante plantear soluciones a estas dificultades como requisito para una soluci´oncomputacional con valores de sensibilidad y especificidad lo suficientemente altos para dar confiabilidad a la anotaci´onde sfd-RNAs.

Requisitos de una metodolog´ıaoptima para el estudio de sfd-RNAs

1. Alinear lecturas de forma m´ultipley exacta al genoma total: para el estudio de sfd-RNAs es imperante considerar como blanco del alineamiento todo el genoma, es decir rea- lizar una b´usquedaexhaustiva, en vez del empleo de un conjunto de secuencias espec´ıficasde ncRNAs; esto como se mencion´opreviamente con el fin de evitar el conteo de lecturas capa- ces de alinear tanto al conjunto de secuencias de ncRNAs como a sub-regiones similares pero no relacionadas al espacio de secuencias de ncRNAs. Adicionalmente Telonis et al. (2016) [48] advierten que se puede correr el riesgo de alinear lecturas generadas del secuenciamiento de ncRNAs maduros a regiones en el genoma que simulan las modificaciones de los ncRNAs, notoriamente los autores ejemplifican esta situaci´oncon dos secuencias particulares:

(1) ACTTCTAATTCAAA 24 5 Marco Te´orico

(2) CTCACGGAACCTCCA

La primera secuencia en la versi´onhg19 del genoma humano se encuentra en 99 posiciones gen´omicasexactas fuera del conjunto de secuencias de tRNAs, pero es, a su vez id´entica a la uni´onentre los exones del tRNA-ArgTCT. La segunda secuencia est´aun total de 421 veces fuera del espacio de tRNAs, pero es la secuencia del extremo 3’ del tRNA-GlnCTG maduro. Estas dos situaciones no son ejemplos aislados, secuencias de 16 meros que finalizan en CCA est´anun total de 2643 veces en el genoma humano, pero son tambi´enla secuencia de termi- naci´onde 480 tRNAs. De manera m´asdram´atica497 loci en el genoma humano reflejan, con diferentes grados de similitud, secuencias de tRNA maduros, de los cuales 351 representan una copia de alguno de los 22 tRNAs mitocondriales, 103 son una copia de alguno de los 508 tRNA nucleares bona fide y los 43 restantes se asemejan a pseduogenes de tRNAs [18]. Si el fin es aumentar la especificidad, es decir demarcar correctamente el conjunto de verdaderos sfd-RNAs, el alineamiento debe ser exacto y m´ultiple, etiquetando en el proceso lecturas que alinean a regiones que no pertenecen al espacio de ncRNAs, pero que presentan bastante similitud a un ncRNA.

Igualmente, los alineamientos no deben restringirse al genoma nuclear, se debe contemplar tambi´enaquellos ncRNAs codificados tanto en el genoma nuclear como mitocondrial, lo cual no es usualmente aplicado, ya que herramientas de anotaci´onde ncRNAs de tipo tRNAs, como tRNA-SCAN, ignoran deliberadamente tRNA mitocondriales codificados en el n´ucleo [18]. Considerar las anotaciones para ambos genomas es necesario ya que la funcionalidad de algunos ncRNAs no dependen de su lugar de origen, es decir en la c´elulaun tRNA no es discriminado en funci´ondel genoma que lo codific´o,puesto que 7 de 20 tRNAs codifica- dos en la mitocondria, presentan copias id´enticas en el genoma nuclear y sus productos de transcripci´onpueden ser parte del transcriptoma global. [52].

2. Resolver ambig¨uedadesen las lecturas con m´ultiplesalineamientos: las he- rramientas convencionales de alineamiento y cuantificaci´on,no contemplan dentro de sus par´ametros,opciones que permitan identificar determin´ısticamente la totalidad de regiones id´enticas a las que puede ser alineada una lectura. Johnson et al. (2016) [53] demuestran la baja incorporaci´onde lecturas con m´ultiplesalineamientos de dos de los alineadores m´as empleados, BWA [54] y Bowtie [55], alineadores que, como estrategia de recuperaci´onde lecturas con m´ultiplesalineamientos presentan dos comportamientos: la primera forma de proceder, es la funci´onest´andarque consiste en ignorar estas lecturas; mientras que la segun- da manera que debe ajustarse con ciertos par´ametros,consiste en seleccionar, de un conjunto de lecturas alienadas a m´ultiplessitios gen´omicosaleatoriamente un locus representativo co- mo blanco del alineamiento. 5.5 Retos computacionales y limitaciones de las soluciones tecnol´ogicasy computacionales disponibles para la detecci´onde sfd-RNAs 25

Otros alineadores como SeqBuster [56] distribuyen el n´umerode lecturas con alineamien- tos ambiguos de manera ponderada, en funci´onde la distancia a la posici´oninicial de la lectura con respecto al inicio del loci ambiguo, no obstante este tipo de soluciones funciona bastante bien para RNAs codificantes, pero no para los ncRNAs cuyos niveles de ambig¨uedad pueden llegar a ser bastante altos [53]. Un caso bastante dram´aticoes descrito en [18] quienes mencionan que el tRNA AspGTC, cuya secuencia es:

TCCTCGTTAGTATAGTGGTtAGTATCCCCGCCTGTCACGCGGGAGACCGGGGTTCAATTCCCCGACGGGGAG

Se encuentra un total de 11 veces en la versi´on19 del genoma humano, distribuidos de la siguiente manera: 5 en el cromosoma 1, 2 en el cromosoma 6, 3 en el cromosoma 12 y 1 vez en el cromosoma 17. La longitud del locus descrito supera los valores de longitud usuales para an´alisisde ncRNAs, por lo que una lectura de 30 nt generada a partir del secuenciamiento del extremo 3’ del tRNA AspGTC, no solo puede alinear a las 11 posiciones previamente mencionadas, sino en realidad a 13, debido a que dos nuevos loci del tRNA AspGTC 3-1 y 4-1 comparten esta sub-regi´oncomplementaria a la lectura:

Asp-GTC-2-(1-11) ...CCCCGCCTGTCACGCGGGAGaCCGGGGTTCGATTCCCC... Asp-GTC-3-1 Y 4-1 ...CCCCGTCTGTCACGCGGGAGaCCGGGGTTCGATTCCCC... El incremento previo de sitios totales a los que se alinea una lectura proveniente del se- cuenciamiento de RNAs solo es detectado dentro de un esquema de b´usquedadeterminista m´ultiple,lo cual permite reflejar el incremento de loci con alineamientos para una misma lectura al permitir alg´un error de apareamiento, lo que a su vez se traduce en el aumento de la probabilidad de detectar falsos positivos. Frente a esta situaci´onJohnson et al. (2016) [53], proponen como soluci´onla incorporaci´onde un algoritmo basado en una regularidad biol´ogicade los ncRNAs fundamentada en que, usualmente, la expresi´onde estas secuencias se origina en sitios con una vecindad rica de ncRNAs o ncRNAs en cl´uster,de tal manera que ante un caso de ambig¨uedadde alineamiento como el ejemplo previamente descrito el uso de la herramienta desarrollada por estos autores ShortStack, privilegiar´ıaaquellas regiones con m´ultiplesncRNAs del mismo tipo. Por ejemplo, continuando con la anterior situaci´on planteada, si los 5 loci del tRNA-AspGTC est´anlo suficientemente cerca en el cromosoma 5, se tomar´ıaesta posici´oncomo el locus representativo del tRNA-AspGTC, asign´andolea dicha regi´onun conteo ´unico,en vez de presentar en t´erminos estad´ısticos,cinco variables independientes con conteos redundantes.

Adicionalmente deben tomarse tambi´enmedidas especiales a la hora de la cuantificaci´on de lecturas alineadas a loci de ncRNAs. De hecho algunas estrategias de manejo de lecturas con m´ultiplesalineamientos resuelven la ambig¨uedadcomputacional en este punto, como la suite Cufflinks [57]. En esta suite de herramientas la posici´onrepresentativa de un conjunto de loci ambiguos se escoge en funci´onde aquellos loci con mayor abundancia inicial, con un 26 5 Marco Te´orico mayor valor de longitud inferida y con menor grado de sesgos en t´erminosde los procesos de secuenciamiento como fragmentaci´ony retro-transcripci´on.No obstante esta herramien- ta presenta el mismo problema al manejar ncRNAs como SeqBuster, dado a que el set de lecturas que alinea a las diferentes regiones ambiguas presenta muy pocas variaciones, o en sentido practico es el mismo, dada la identidad de cada regi´on[53], evitando privilegiar una exclusiva fuente de las lecturas.

Adicional al anterior problema, la mayor´ıade programas para an´alisisde expresi´ondife- rencial presentan un sesgo relacionado al tipo de mol´eculaspara las que fueron dise˜nados, la mayor´ıaest´anenfocados en la cuantificaci´onde lecturas derivadas del secuenciamiento de mRNAs, donde la lectura es siempre inferior al tama˜nototal del loci fuente, la cuantificaci´on en estos casos se basa en solapamiento de las coordenadas de la lectura con las coordenadas del loci fuente, m´asno en la inclusi´onestricta de la lectura dentro del rango de coordenadas de su loci fuente, num´ericamente, si la fuente de la lectura presenta las coordenadas 5 a 500 y la lectura 3 a 30, esta es contada en las herramientas cl´asicas.La extensi´onde este tipo de conteo para el estudio de mol´eculasembebidas aumenta fuertemente la tasa de falsos positivos, gr´aficamente: Asp-GTC-2-(1-11) TCCTCGTTAGTATAGTGGTgAGTATCGGGGTTCGATTCCCCGACGGGGAG Lectura 1 CGGGGTTCGATTCCCCGACGGGGAG Lectura 2 TATAGTGGTgAGTGTCGGGGTTCGATT Lectura 3 TCCTCGTTAGTATAGTGGTgAGTGT

A la hora de cuantificar las lecturas generadas por RNAseq del ejemplo anterior, si la he- rramienta empleada para dicho proceso se basa en conteo por solapamiento de rangos, al cuantificar los fragmentos generados por la fracci´on3’ del tRNA-GTC, como es usual en los programas dise˜nadospara la cuantificaci´onde mRNAs, tanto la lectura 1 como la lectura 2 har´ıanparte del mismo conteo. Esto dado a que, en ambos escenarios la lectura es menor a una de las coordenadas definidas para el fragmento funcional, la lectura 1 esta totalmente comprendida por las coordenadas del fragmento, mientras que en la lectura 2, solo la coor- denada de finalizaci´onesta incluida en el rango, no obstante esto basta para ser considerada como un hit, puesto que en el caso del secuenciamiento de mRNAs, los limites de las lecturas est´ansujetos a variar por fen´omenoscomo splicing alternativo [58].

3. Tolerar errores en el alineamiento y sfd-RNAs derivados de mol´eculaspre- cursoras o maduras: las consideraciones planteadas previamente para el alineamiento m´ultipleexacto elevan principalmente la especificidad del an´alisisde sfd-RNAs, corriendo el riesgo de reducir dr´asticamente los niveles de sensibilidad del an´alisis,es decir aumentar´ıatal vez demasiado, el n´umerode falsos negativos (como argumenta Sethupathy en la respuesta a Telonis et al. (2016)[48]. Empleando exclusivamente un an´alisisque permita m´ultiplesalinea- mientos de manera exacta se eliminar´ıanaquellas lecturas provenientes de ncRNAs maduros, 5.5 Retos computacionales y limitaciones de las soluciones tecnol´ogicasy computacionales disponibles para la detecci´onde sfd-RNAs 27 dado a los procesos de modificaci´onpos-transcripcional que sufren. Este procedimiento eli- minar´ıalecturas que puede corresponder a fragmentos funcionales. Como estrategia para su recuperaci´onpuede emplearse un m´etodo mixto, que recupere las secuencias no alinea- das mediante la b´usquedaexacta, junto con aquellas secuencias alineadas a loci gen´omicos que asemejan a ncRNAs maduros. Una vez recuperadas pueden re-alinearse mediante un alineamiento m´ultiple exacto, pero esta vez, usando como blanco una base de datos que simule la maduraci´onde los ncRNAs bona fide, es decir que carezca de regiones intr´onicas y contenga adiciones nucleot´ıdicas, como la secuencia 3’CCA o 5’G en los tRNA de histidina.

Las secuencias que despu´esde los anteriores procedimientos no han logrado alinearse se emplear´ıanpara una ´ultimaestrategia de re-alineamiento, esta vez tolerando errores en con- tra de la base de datos de ncRNAs maduros, siguiendo la metodolog´ıadispuesta en Findeiss et al. (2011) [59]. De esta manera pueden recuperarse lecturas con errores de secuenciamiento en las posiciones que coinciden con modificaciones pos-transcripcionales, permitiendo clasi- ficar estas lecturas como derivada, probablemente, de ncRNAs maduros.

4. Discriminar ncRNAs precursoras o maduras degradadas biol´ogicamente o ar- tificialmente: otro componente que se debe tener en cuenta para mejorar los niveles de sen- sibilidad y especificidad en el an´alisiscomputacional de sfd-RNAs, es la discriminaci´onentre fragmentos funcionales o derivados del procesamiento alternativo de ncRNAs y fragmentos derivados de la degradaci´onbiol´ogicao t´ecnicade ncRNAs, es decir, peque˜nas secuencias que no construyen bloques de expresi´onsimilares a los encontrados en miRNAs, sino que, por el contrario representan un barrido biol´ogico (dado por al degradaci´ono decaimiento de estas mol´eculas)o un ruido de fondo relacionado a la t´ecnicasecuenciamiento, la cual emplea un paso de degradaci´ono shotgun aleatorio de secuencias largas.

La anterior tarea puede llevarse a cabo por medio de la implementaci´onde herramientas computacionales de an´alisisde bloques de expresi´on,tales como Blockbuster [60] y la herra- mienta auxiliar a esta ´ultimadeepBlockAlign [61] o, analizadores de bloques de expresi´on ya implementados para el an´alisisde fragmentos funcionales de ncRNAs como APART [62] y FlaiMapper [63]. En particular, [61] lograron demostrar el agrupamiento de bloques deri- vados de diferentes especies de ncRNAs, es decir por ejemplo los autores encontraron que algunos bloques de tRNAs o snoRNAs se agrupan o sobreponen con bloques de miRNAs, de tal manera que dicha similitud le confiere a estos bloques un car´acterde sfd-RNA candidato. Por tanto un perfeccionamiento del reconocimiento de patrones de lecturas en bloque permi- tir´ıa,por ende, discriminar de una misma regi´onlecturas derivadas tanto de ruido biol´ogico o ruido t´ecnicode lecturas que constituyen un fragmento funcional. Caracterizaci´onde las bibliotecas de RNAseq e integra- ci´onde las anotaciones existentes para ncRNAs

6.1. Introducci´on Los ncRNAs son mol´eculasque a nivel gen´omicopresentan un elevado grado de redundancia al ser elementos multicopia, de hecho algunos genes no codificantes son enmascarados en los an´alisisde detecci´onde regiones repetitivas, lo cual significa a su vez que pueden estar pre- sentes en un n´umeroconsiderablemente alto de copias g´enicas.A diferencia de los elementos repetitivos convencionales, algunos genes de tipo ncRNA pueden llegar a estar distribuidas tanto en el genoma mitocondrial como en el nuclear [18]. Por mucho tiempo se ha pensado que este n´umerotan elevado de copias en las que se presentan los ncRNAs implica que estas mol´eculasjuegan roles m´asall´ade los can´onicamente descritos. En especial en los ncRNAs de tipo tRNA su elevado n´umerode copias contrasta con el n´umeronecesario de tRNAs requeridos para el proceso de traducci´on,esto dado a que en estas mol´eculasse presenta el efecto wooble en el anticod´on,el cual consiste en que el ´ultimonucle´otidodel anticod´on del tRNA no requiere complementariedad tipo Watson y Crick, por ejemplo el anticod´on GAG del tRNA-Leu puede reconocer tanto el cod´onCUC, como el cod´onCUU gracias a un alineamiento “tambaleante.o de tipo wooble entre el ´ultimonucle´otido C del tRNA y el nucle´otido U del RNA mensajero. Este fen´omenoen teor´ıareducir´ıael n´umerode tRNAs y anticodones necesarios para el proceso de traducci´onde un valor de 61 a 32 como m´ınimo [64]. Si la funci´onde los tRNAs fuera exclusivamente en ser mol´eculasde transferencia de amino´acidos,el n´umero de genes m´ınimoser´ıade 32; sin embargo el genoma humano alber- ga un total de 613 tRNAs bona fide (hg19) con variaciones poblacionales interesantes, como demuestra uno de los resultados del proyecto de los 1000 genomas, en el que se evidencia un total de 24 secuencias nuevas de tRNAs presentes en m´asde 1 % de la poblaci´ony de 76 nuevas secuencias presentes en mas del 0.2 % de todos los individuos, indicando la din´amica evolutiva de este tipo de ncRNAs [30].

La diversidad de secuencias de los ncRNAs no esta restringida solamente a los tRNAs, de hecho los snoRNAs y los rRNAs presentan tambi´enlas mismas propiedades, un elevado n´umerode copias id´enticas para realizar funciones que podr´ıandesempe˜narsecon un menor n´umerode repeticiones en el genoma y lo m´asinteresante es que pueden presentar funciones que los har´ıancatalogar dentro de dos categor´ıasdiferentes de ncRNA simult´aneamente, co- mo se ilustra en la tabla 6-1. En la tabla 6-1 se logra apreciar algunas sub-secuencias de un mismo ncRNA que pueden funcionar como snoRNAs o como pre-miRNas. Ahora bien, este fen´omenono est´arestringido a los snoRNAs, recientemente Hasler et al. (2016) [65] demos- traron que la prote´ınaLa (Lupus autoantigen) funciona como una chaperona de ncRNAs, 6.1 Introducci´on 29 en especial de tRNAs dependiendo del contexto de se˜nalizaci´oncelular. Esta prote´ınapuede conducir un transcrito precursor de un tRNA a la ruta de maduraci´oncan´onicade miRNAs, favoreciendo un proceso de formaci´onde tRFs.

Tabla 6-1.: Secuencias descritas como pre-miRNAs con solapamiento a otras es- pecies de ncRNAs. El n´umerode pre-miRNAs vigentes con solapamientos a tRNAs ha decrecido dado a las criticas de [66], sin embargo se ilustran en [19]. (Olp = Overlapping nucleotides) pre-miRNA Genomic loci Sense ncRNA Genomic coordi- Sense Olp nate hsa-mir-1248 chr3:186504461- + HBI-61 chr3:186504463- + 103 186504566 186504641 hsa-mir-3607 chr5:85916314- + SnorD-138 chr5:85916322- + 70 85916392 85916385 hsa-mir-3651 chr9:95054740- - SnorA-84 chr9:95054742- - 87 95054829 95054875 hsa-mir-1291 chr12:49048227- - ACA-34 chr12:49048164- - 74 49048313 49048301 hsaP-mir- chr15:83424758- + ACA-45 chr15:83424696- + 65 1839 83424821 83424823 hsa-mir-6516 chr17:75085499- + ACA-47 chr17:75085388- + 76 75085579 75085575 hsa-mir-3653 chr22:29729147- - SnorD-125 chr22:29729151- - 105 29729256 29729247 hsa-mir-664b chrX:153996871- + ACA-36 chrX:153996802- + 63 153996931 153996934 hsa-mir-4521 chr17:8090263- + tRNA-Ser- chr17:8090184- + 2 8090322 GCT 8090265

Teniendo en cuenta este tipo de fen´omenosevolutivos que conllevaron a la existencia de redundancia de copias de un mismo ncRNA, las dificultades computacionales presentes al analizar regiones con m´ultiplescopias para un mismo ncRNA en el genoma se incrementan en diferentes niveles, que van desde el proceso de filtrar las secuencias en funci´onde su origen gen´omico,as´ıcomo tambi´endurante la asignaci´ony cuantificaci´onde un grupo de lecturas que puede conllevar a violar suposiciones b´asicasde los modelos de expresi´ondiferencial. Por tanto, para lidiar con este tipo de problemas es importante contar con un archivo de anotaci´onintegrado para todas las clases de ncRNAs, en especial de sncRNA, los cuales han ido aumentando no solo a nivel de familia, miRNAs, siRNAs, piRNAs sino tambi´enen a que 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 30 existentes para ncRNAs cada vez se descubren nuevos tipos sncRNAs [67]. Sin embargo, la carencia de este tipo de informaci´onintegrada se debe principalmente al elevado n´umerode conflictos tanto de las anotaciones propias a cada clase como a los problemas que aparecen a la hora de integrar la informaci´on,tales como: redundancia de loci, solapamientos o ausencia de la anotaci´on correcta del n´umerode copias.

Sin una anotaci´onintegrada para ncRNAs puede llegarse f´acilmente a un estado de in- certidumbre sobre la anotaci´onde una secuencia particular, y a su vez a la sobredimensi´on del n´umerode variables a analizar durante un an´alisisde expresi´ondiferencial tal y como lo resalta Langenberger et al. (2011) [19]. De hecho a´unen la ´ultimaversi´ondisponible del mirBase [68] algunos miRNAs son considerados como entradas muertas dado a que est´an inmersos en loci de tRNAs. Notoriamente uno de los casos m´asinteresantes lo representa la familia de miRNAs miR-1274, la cual fue eliminada de los miRNAs vigentes por suge- rencia de [66], debido a que la secuencia madura, miR-1274, esta inmersa en el tRNA Lys. Resulta interesante que esta secuencia se hab´ıareportado como miRNA no s´oloen humanos sino tambi´enen Mus musculus, Pan troglodytes y Pongo pygmaeus, en donde igualmente se encuentran inmersas en el tRNA Lys ort´ologoentre las especies.

6.2. Metodolog´ıay fuente de informaci´ongen´omica

Fuentes de informaci´ongen´omica

Para el presente estudio se emplearon tres bibliotecas producto del secuenciamiento de miR- NAs o sncRNAs generadas en el proyecto de Colciencias titulado “RNA no codificantes, posibles biomarcadores de la progresi´ondel dengue: nueva estrategia en medicina molecular y de translaci´onen la lucha contra el dengue” por parte de la colaboraci´onentre los grupos de investigaci´onde Inmunovirolog´ıaMolecular (GYMOL) de la Universidad de Antioquia a cargo del D. Juan Carlos Gallego, el grupo de inmunolog´ıacelular y molecular de la Uni- versidad del Quind´ıoa cargo del D. Jhon Carlos Casta˜noy el grupo de RN´omicaTe´orica y computacional de la Universidad Nacional de Colombia a cargo de la D. Clara Isabel Berm´udez.La metodolog´ıaexperimental requerida para el aislamiento del RNA previa al proceso de preparaci´onde bibliotecas y secuenciamiento tanto para miRNAs (ncRNAs me- nores a 50nt) y sRNAs (ncRNAs mayores a 50nt y menores a 200nt) fue basada en un dise˜no experimental propuesto por el grupo Inmunovirolog´ıaMolecular (GYMOL) de la Universi- dad de Antioquia a cargo del D. Juan Carlos Gallego. Los lineamientos generales de este dise˜nofueron: 6.2 Metodolog´ıay fuente de informaci´ongen´omica 31

Bibliotecas provenientes de la infecci´onde la linea microvascular endotelial HMECK La cepa del virus dengue serotipo 2 de Nueva Guinea (DENV-2 NGS) fue donada por Mar´ıa Elena Pe˜naranday Eva Harris (Sustainable Sciences Institute and University of California, Berkeley. USA). Los cultivos del virus DENV-2 NGS se realizaron en c´elulashumanas de la microvasculatura endotelial 1 (HMEC-1, por sus siglas en ingl´esHuman dermal Microvascu- lar Endothelial Cell line 1) que fue dado por Francisco Candal (Centers of Disease Control and Prevention CDC -Atlanta, GA, USA). Como control se emplearon las mismas l´ıneasce- lulares sin infectar. En la figura 6-1 se ilustra el dise˜noexperimental para el secuenciamiento de RNAs peque˜nosde las muestras previamente descritas

Figura 6-1.: Bibliotecas derivadas de la infecci´onpor el DENV2 o control negativo de infecci´onMOCK. Posterior a la infecci´oncon el DENV2 se realiz´ola extracci´onde RNA total en 4 diferentes periodos de tiempo, 3, 12, 24 y 48 horas. Del mismo set experimental se secuenciaron dos poblaciones diferentes de RNAs no codificantes, la fracci´onde sncRNA en rojo (mayores a 50nt y menores a 200nt) y una fracci´onde sncRNAs en gris (menores a 50nt), dentro de los que se incluyen a los miRNAs

El objetivo del dise˜noexperimental ilustrado en la figura 6-1 fue separar en dos conjuntos experimentales la fracci´onpeque˜nade RNAs de tama˜nomenor a 50 nt (correspondiente a 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 32 existentes para ncRNAs sfdRNAs, miRNAs y secuencias degradadas biol´ogicamente) de una fracci´onde RNAs de tama˜nomayor cercano a 200nt (con tama˜nosque var´ıanentre 50 y 200 nt) que se asumen corresponden a secuencias can´onicasde los ncRNAs. De tal manera que, si la fragmentaci´on de un tRNA se desencadena ante la infecci´ondel virus Dengue, en la biblioteca con las lecturas peque˜nas(miRNA-seq) se lograr´adetectar expresi´ondiferencial al contrastar el bloque de expresi´onfrente a los controles de la misma hora. En orden de corroborar que dicho patr´on es observado por la fragmentaci´ondel ncRNA, y no por un incremento aleatorio de las lecturas asociadas a dicho ncRNA, se evalu´oel nivel de expresi´onbasal del ncRNA fuente, tanto en las bibliotecas generadas para la misma hora y la misma condici´on,es decir con infecci´ondel virus, pero que sufrieron un paso adicional de filtro por tama˜no, es decir en las bibliotecas generadas por la separaci´onde mol´eculascon una longitud mayor a los 50nt (de la fracci´onque contiene RNAs de tama˜nosque var´ıanentre 50 y 200 nt) .

Bibliotecas provenientes de muestras de sangre perif´erica

Las muestras de sangre se obtuvieron por el trabajo directo del grupo de inmunolog´ıacelular y molecular de la Universidad del Quind´ıoa cargo del D. Jhon Carlos Casta˜no,a partir de pacientes con infecci´ondel virus dengue confirmada por niveles de IgM, IgG, aislamiento viral y PCR. El diagn´osticose realiz´oa partir de la revisi´onde los s´ıntomas generales, osteo- musculares, oculares y hemorr´agicoscon el fin de discriminar, para cada paciente, los tres estados de severidad de la fiebre del dengue: sin signos de alarma, con signos de alarma y dengue severo. Para la extracci´onde sangre perif´ericase emplearon un total de 4 muestras por cada estado febril. Como control se utilizaron muestras de sangre perif´ericade cuatro pacientes sanos junto con muestras de pacientes infectados con un cuadro febril no relacio- nado al dengue, como rickettsiosis y leptospirosis. En resumen en la figura 6-2 se ilustra el dise˜noexperimental para el secuenciamiento de RNA peque˜node las muestras previamente descritas

Extracci´ondel RNA de los experimentos de l´ıneascelulares

El proceso de extracci´onde RNA estuvo a cargo del grupo de investigaci´onde Inmunoviro- log´ıaMolecular (GYMOL) de la Universidad de Antioquia. El RNA total fue aislado de las c´elulasHMEC-1 infectadas con DENV2 NGS y no infectadas (mock) a 3, 12, 24 y 48 horas post-infecci´on,para cada ensayo se emplearon 3 replicas, generando un total de 24 muestras discriminado en funci´ondel tama˜node secuenciamiento como se ilustra en la selecci´onde tama˜nosdel gel de la figura 6-1 para el caso de los experimentos sobre l´ıneascelulares. La extracci´ondel RNA total se realiz´ousando el kit de extracci´on Total RNA Purification Plus Kit (NORGEN, Thorold, ON, Canad´a).La calidad y cantidad de RNA fue medida usando Nanodrop Spectrophotometer (ND-1000; Nanodrop Technologies, Wilmington, DE, USA). 6.2 Metodolog´ıay fuente de informaci´ongen´omica 33

La integridad del RNA (RIN, RNA Integrity Number) fue medida usando 2100 Bioanalyzer (Agilent inc). S´olomuestras con un RIN ≥ 7 fueron consideradas para el secuenciamiento. No obstante, previo al secuenciamiento se solicit´oal proveedor separar las fracciones de RNA correspondientes a sncRNA y ncRNAs can´onicosrespectivamente. En resumen en la tabla 6-2, se logra apreciar los valores de calidad asociados a cada muestra previo a la separaci´on y secuenciamiento de las dos fracciones de sncRNAs.

Figura 6-2.: Bibliotecas derivadas de pacientes con diferentes diagn´osticospara s´ındromefebril agudo. Se realiz´oextracci´onde RNA total para 4 pacientes con diagn´osti- co para Dengue sin signos de alarma (DWOS), 4 con Dengue con signos de alarma (DWWS), 4 con Dengue severo (SD), junto con 8 pacientes con s´ındromesfebriles agudos con sintoma- tolog´ıasimilar al dengue como Leptospirosis (LP) y Rickettsiosis (RK), mas 4 Muestras de sangre control o sin s´ındromefebril. Para este conjunto de bibliotecas solo se secuenci´ola fracci´onque corresponde a sncRNAs, es decir RNA menor a 50nt, donde se espera recuperar miRNAs y otras especies de sncRNAs. 6T = 6 tratamientos, 4R = 4 replicas.

De la tabla 6-2 puede apreciarse que la calidad del RNA, medida por la proporci´onA260/280, esta dentro del rango para RNA ∼2.0, es decir no hay contaminaci´onpor DNA, exceptuando 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 34 existentes para ncRNAs las muestras 19 y 22. En cuanto a la proporci´onauxiliar A260/A230, la cual indica presencia de contaminantes de tipo carbohidratos o fenoles, los valores para una muestra con RNA puro oscilan entre 2.0 -2.2, lo que permite concluir que un gran n´umerode muestras presentan este tipo de contaminaci´on.

Extracci´ondel RNA de los experimentos de sangre perif´ericade pacientes y controles

El RNA total fue aislado de muestras de sangre perif´ericade pacientes con los tres distintos grados de severidad de la fiebre del dengue, personas sanas o sin infecci´ony pacientes con s´ındromefebril causado por Rickettsia y por Leptospira, como se ilustra en la figura 6-2. Para cada tratamiento se emplearon 4 replicas. Para esta fase se emple´oel kit de extracci´on Qiagen RNeasy. Para este tipo de experimento solo se secuenci´ola franja de RNAs corres- pondiente a miRNAs y otros sncRNAs. De tal manera que el total de bibliotecas para esta fase del estudio se restringi´oa 24.

En cuanto al an´alisisde calidad previo al secuenciamiento para las muestras de sangre perif´ericapuede apreciarse en la tabla 6-3 que la totalidad de las muestras presentan un valor superior a 2.0 para la proporci´onde absorbancia a 260nm/280nm, lo cual indica una alta concentraci´onde RNA y baja cantidad de impurezas de tipo DNA. Los valores asociados a la proporci´on260/230 son inusualmente bajos, lo cual indica una alta concentraci´onde contaminantes que absorben luz en la fracci´onde 230nm.

Secuenciamiento de RNA peque˜no

El secuenciamiento de RNAs fue realizado por servicio con la compa˜n´ıaExiqon Services, Denmark. Se utilizaron 500 nanogramos de RNA total de cada muestra. Las bibliotecas se prepararon usando NEBNEXT Multiplex Small RNA Library Prep Set de Illumina (New England Biolabs Inc.). Cada muestra de RNA fue convertida a cDNA y pre-amplificada por PCR (pre-PCR). Despu´esde 15 ciclos de pre-PCR las bibliotecas fueron purificadas en co- lumnas de QiaQuick y evaluados por Bioanalyzer 2100 de alta sensibilidad con DNA chip (Agilent Inc.). Las muestras fueron cuantificadas con qPCR, y posteriormente fueron secuen- ciadas en el equipo Illumina NextSeq 500. El dise˜noexperimental para el secuenciamiento est´abasado en m´ultiplesmuestras por l´ıneade secuenciamiento; empleando un total de 3 l´ıneas.En la l´ınea1 se dispuso el Set experimental HMEC-1 50pb, en la l´ınea2 se dispuso el set experimental HMEC-1 75pb y en la l´ınea3 se dispuso el set experimental de pacientes y muestras de sangre de personas sanas, esto con el fin de disminuir el ruido t´ecnicoa la hora de la comparaci´onestad´ıstica.En total por l´ınease dispusieron 24 bibliotecas dispuestas seg´unla condici´onexperimental. 6.2 Metodolog´ıay fuente de informaci´ongen´omica 35

Tabla 6-2.: Calidad de la extracci´onde RNA total para las 24 bibliotecas de las l´ıneas celulares HMECK: Para cada muestra se ilustra la informaci´onrelacionada a la concentraci´ontotal de RNA, el volumen de muestra, el valor de contaminaci´onde DNA y el valor de contaminaci´onde otras sustancias Sample Sample ID ng/µl µl A260/A280 A260/A230 Number 1 3d4 76 9.19 2.11 2.07 2 3d5 48 14.58 2.14 1.17 3 3d6 61.3 11.42 2.12 1.77 4 3m4 105 6.65 2.00 1.51 5 3m5 56 12.50 2.12 1.00 6 3m6 77.2 9.07 2.08 1.53 7 12d4 129 5.42 2.06 1.71 8 12d5 85.00 8.24 2.10 1.27 9 12d6 81 8.64 2.09 1.94 10 12m4 87 8.01 2.09 1.83 11 12m5 81 8.64 2.11 1.84 12 12m6 58 12.07 2.11 1.82 13 24d4 132 5.32 2.14 2.00 14 24d5 79.20 8.84 2.12 1.85 15 24d6 72.40 9.67 2.15 2.04 16 24m4 91 7.73 2.12 1.90 17 24m5 58.00 12.07 2.04 1.38 18 24m6 70.00 10.00 2.13 1.86 19 48d4 29 24.14 1.99 1.26 20 48d5 70.7 9.90 2.00 1.60 21 48d6 81.3 8.61 2.13 1.90 22 48m4 100 7.00 1.92 1.16 23 48m5 78.4 8.93 2.14 1.82 24 48m6 79.5 8.81 2.11 1.72 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 36 existentes para ncRNAs

Tabla 6-3.: Calidad de la extracci´onde RNA total para las 24 bibliotecas de muestras de sangre perif´erica: Para cada muestra se ilustra la informaci´onrelacionada a la concentraci´ontotal de RNA, el volumen de muestra, el valor de contaminaci´onde DNA y el valor de contaminaci´onde otras sustancias Sample Sample ID ng/µl µl A260/A280 A260/A230 Number 1 DWOS13 40 17.50 2.21 0.27 2 DWOS146 38 18.23 2.39 0.20 3 DWOS23 39 17.95 2.28 0.27 4 DWOS90 24 29.17 2.21 0.25 5 DWWS100 47 15.05 2.25 0.30 6 DWWS111 56 12.54 2.23 0.39 7 DWWS122 67 10.42 2.20 0.24 8 DWWS51 26 27.34 2.47 0.18 9 HD1 47 14.89 2.21 0.24 10 HD2 30 23.33 2.39 0.13 11 HD3 36 19.44 2.12 0.56 12 HD4 34 20.59 2.20 0.39 13 LP102 25 28.00 2.15 0.37 14 LP115 26 26.82 2.41 0.11 15 LP92 20 35.00 2.20 0.39 16 LP99 25 28.23 2.38 0.19 17 RK138 25.80 27.13 2.27 0.19 18 RK74 21 33.33 2.22 0.38 19 RK85 24 29.17 2.47 0.18 20 RK97 23 30.43 2.39 0.12 21 SD103 100 7.00 2.16 0.60 22 SD107 30 23.33 2.23 0.38 23 SD108 72 9.72 2.18 0.37 24 SD71 42 16.67 2.23 0.30 6.2 Metodolog´ıay fuente de informaci´ongen´omica 37

Integraci´onde las anotaciones para diferentes fuentes de ncRNAs Las coordenadas gen´omicasde ncRNAs consideradas para la anotaci´onde las lecturas alinea- das al genoma humano versi´onhg19 (UCSC liberado en febrero del 2009) [69], derivaron del empleo de las secuencias reportadas en las bases de datos miRBase v21 [68], snoRNABase v3 [70], 11.0, en especial para las secuencias correspondientes a los vault RNAs (vRNAS) [71], Ensembl r75 [72] y la compilaci´onde secuencias para tRNAs [73] y para otras categor´ıas de ncRNAs siguiendo las anotaciones del grupo Chen et al. (2012) [74]. Gr´aficamente se re- presentan las diferentes fuentes de informaci´onen la figura 6-3. Una vez descargados los archivos fasta, empleando un script en bioperl se procedi´oa filtrar aquellas secuencias que no est´anasociadas al humano. Adicionalmente se extrajeron los identificadores de cada se- cuencia junto con la informaci´onde la longitud asociada. Se emple´ola herramienta Blastclust [75] con par´ametrosde identidad y alineamiento estrictos (-p F –S 95 –L.9) con el fin de formar grupos de secuencias con alta similitud, con las cuales se estandariz´ola nomenclatura de la secuencias, etiquetando aquellos grupos con nomenclatura problem´atica,es decir que pueden generar ambig¨uedad en los an´alisiscomputacionales posteriores.

Figura 6-3.: Diagrama de flujo para la generaci´onde los archivos de anotaci´on de ncRNAs: Estrategia de integraci´onde anotaciones de ncRNAs a partir de secuencias bruta. Adicionalmente se ilustran los c´odigosy programas empleados a la hora de resolver los conflictos de solapamiento y redundancia. Los servidores en negro ilustran archivos en formato fasta y en naranja archivos en formatos de anotaci´ongff3 o BED.

Se emple´olocalmente BLASTn [76] con un valor e de 1e−5 usando como blanco (query) las secuencias de ncRNAs filtradas y como subject o base de datos la versi´ondel genoma 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 38 existentes para ncRNAs humano hg19. Solo se tomaron las coordenadas de secuencias alineadas con identidad del 100 % y aquellos hits cuya longitud del query y subject fuese id´entica. Estas coordenadas se usaron para definir el espacio de coordenadas de ncRNAs bona fide. Posteriormente se gener´oun archivo de anotaci´onconsolidado en formato BED. Gr´aficamente se ilustra este procedimiento en la Figura 6-3.

Con miras a recuperar todos los sitios fuente de un ncRNA tambi´ense toleraron resul- tados cuya identidad fuese del 100 % pero en las que existieran peque˜nasvariaciones en la longitud, dado que la definici´onde los l´ımitesde las caracter´ısticasde un locus, ya sea de ncRNA o de genes codificantes, no es siempre clara. Para este procedimiento se acu˜nola me- todolog´ıay nomenclatura de ncRNA-lookalikes basada en el trabajo de Telonis et al. (2015) [73], solo que, a diferencia del previo autor, la b´usquedade secuencias afines no se restringi´o a tRNAs.

Resoluci´onde los conflictos entre coordenadas de ncRNAs Con el conjunto de secuencias agrupadas en cl´usteresobtenidas por el programa blastclust y junto con las salidas de las diferentes b´usquedas de blast, se generaron archivos en formato BED, quienes sirvieron de entradas para diferentes etapas de procesamiento dise˜nadaspara reducir los loci redundantes. Para ello se gener´oun ´unicoidentificador por cl´uster, al cual se le asignaron todas las subregiones a las que alinean los elementos que componen el cl´uster.De igual manera, para aquellas caracter´ısticasno redundantes, tambi´ense destacaron aquellas ubicaciones repetitivas no reportadas en los archivos de anotaci´onde las bases de datos fuentes de las secuencias, de tal manera que se logr´oetiquetar la totalidad de repeticiones o copias de cada caracter´ısticaa escala gen´omica.Posterior a la resoluci´onde redundancias, los archivos BED se sometieron a una b´usquedasensible a la orientaci´ondel alineamiento y de solapamientos e intersecciones intra-ncRNAs. Para este procedimiento se emplearon scripts dise˜nadosen perl, junto con la suite Bedtools, en especial las herramientas mergeBed e IntersectBed [77]. Es importante resaltar que mediante este procedimiento se detectaron ncRNAs que presentan sub-regiones repetitivas con respecto a su contexto gen´omico.Este mismo procedimiento se realiz´oa nivel inter-ncRNA, despu´esde unir los diferentes archivos BED derivados del an´alisisde los archivos fasta para cada familia de ncRNA, fue posible detectar casos de loci con pluralidad funcional, caracter´ısticasde ncRNAs sobrepuestos y cl´usteresde ncRNAs de diferentes clases, a parte de generar un archivo de anotaci´onintegrado para las diferentes clases de sncRNAs. 6.2 Metodolog´ıay fuente de informaci´ongen´omica 39

Caracterizaci´onde las bibliotecas y an´alisis de calidad

De cada biblioteca se realiz´oun an´alisisde calidad empleando el software FastQC [78] para posteriormente, mediante scripts dise˜nadoslocalmente en lenguaje R, se pudieran analizar en conjunto la totalidad de bibliotecas por tratamiento, discriminadas por las siguientes variables de calidad: distribuci´onde las lecturas por tama˜no,calidad del secuenciamiento, contenido GC y contenido de nucle´otidosindeterminados o N. Con los resultados de ca- lidad consolidados y agrupados por experimento y condici´onse evaluaron regularidades y tendencias referentes a aumento del contenido GC, aumento de la fracci´oncorrespondiente a miRNAs o sfdRNAs en funci´ondel tiempo y del tratamiento, entre otros.

En la propuesta de estandarizaci´ony optimizaci´ondel preprocesamiento requerido para an´alisisde miRNAs de Tam et al. (2015) [79], los autores no tomaron en cuenta las recomen- daciones advertidas por el grupo de Van Gurp et al. (2013) [80], en torno al hecho de que en el secuenciamiento de RNAs los primeros nucle´otidossecuenciados para cada lectura no corresponden realmente al inicio de la mol´ecula secuenciada, sino que, m´asbien correspon- den al enriquecimiento de kmeros por artificios t´ecnicoscomo el uso de hex´amerosaleatorios como cebadores de la retro-transcripci´ono generados por el empleo de transposones a la hora de la fragmentaci´onde las lecturas. Teniendo en cuenta esta informaci´on,junto con los an´alisisde calidad a nivel de bibliotecas agrupadas, en particular la informaci´onsobre enri- quecimiento de bases por secuencia y contenido de kmeros, se hall´oun valor m´ınimode bases iniciales generadas aparentemente por azar, no obstante dicho valor no fue empleado para realizar un corte masivo y preliminar, dado a que no todas las lecturas presentan este en- riquecimiento, dicho proceso se aplic´osobre las lecturas no alineadas en la primera instancia.

Adicionalmente de los an´alisisde calidad se obtuvieron las secuencias sobre-representadas para la totalidad de bibliotecas para, posteriormente, extraer las secuencias adaptadoras con un mismo conjunto de secuencias.

Limpieza de adaptadores y pre-procesamiento de las bibliotecas

Existen m´ultiples herramientas disponibles en el campo bioinform´aticodise˜nadaspara el corte de adaptadores de lecturas derivadas del secuenciamiento de RNA; no obstante, a la hora de su dise˜nose tomaron en cuenta caracter´ısticaspropias de las secuencias de RNAs largos tipo mRNAs o de transcritos codificantes, que no son necesariamente aplicables a la hora de secuenciar y de limpiar bibliotecas de secuenciamiento de sncRNAs ya que en los transcritos de genes no codificantes peque˜nosexiste la particularidad de que la longitud del secuenciamiento es mayor que la longitud del sncRNA, lo cual aumenta la frecuencia de adaptadores 3’ durante el secuenciamiento [81]. Aunque existen herramientas disponibles 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 40 existentes para ncRNAs que enfrentan esta problem´atica,como Kraken [82], que emplea un algoritmo de reconoci- miento de adaptadores a partir de sobre-representaci´on,dicho programa presenta el riesgo de eliminar secuencias derivadas de transcritos de miRNAs o tRNAs que presentan un elevado grado de copias en el genoma, es por esto que que para resolver este tipo de dificultades derivadas de la naturaleza repetitiva de los ncRNAs en la presente tesis se desarroll´ouna herramienta local escrita en perl, provisionalmente denominada miRNAsaver. miRNAsaver emplea la lista de secuencias de adaptadores obtenida en el an´alisisde ca- lidad y realiza una b´usquedaiterativa con diferentes sub-secuencias del adaptador a ser filtrado de tama˜nodecreciente a trav´esde su alineamiento con blast al genoma humano, es decir, si se encuentra que una secuencia corta (6 a 7 nucle´otidoscomo m´ınimo)hace parte de un adaptador, esta se alinea al genoma humano, si no se encuentra un hit de longitud y tama˜noexacto dicha secuencia se utilizar´apara el corte de adaptadores, en caso contrario se descarta que la secuencia sea un adaptador. La primera salida del programa es una lista de adaptadores ordenada de mayor a menor longitud, la cual es empleada para cortar en dicho orden de manera determinista las lecturas que presenten la misma secuencia en su extremo 3’. Como material anexo (anexo A) incluimos un ejemplo de corte de adaptadores de una lectura derivada del secuenciamiento de un miRNA, empleando uno de los mejores cortados de adaptadores Trimmomatic con el fin de ilustrar las falencias de las herramientas disponibles a la hora de analizar bibliotecas derivadas del secuenciamiento de sncRNAs [83].

6.2.1. Agrupamiento y etiquetado de lecturas redundantes

Una vez removido los adaptadores de manera exacta y exhaustiva, la herramienta miRNA- saver toma la secuencia de nucle´otidosy la secuencia de calidad asociada de cada lectura para realizar un proceso de reducci´onde redundancia, es decir, aquellas lecturas que presenta exactamente la misma lectura son reducidas a un mismo tag (secuencia representativa de un conjunto de secuencias redundantes), sin perder la informaci´onde calidad asociada, ya que esta informaci´ones representada estad´ısticamente por la medida de tendencia central que escoja el usuario.

Como la informaci´onde calidad de cada lectura ser´aempleada para detectar patrones de modificaci´onpos-transcripcionales, en la presente tesis se opt´opor escoger una medida de tendencia central sensible a los extremos, el valor promedio. Finalmente para cada base de un tag se tiene una secuencia de calidad, donde cada car´acter representa el valor promedio de calidad para dicha posici´on.Si un ncRNA modificado pos-transcripcionalmente es fuente de sfdRNAs las posiciones que sufren dicha modificaci´onpresentaran valores at´ıpicamente bajos en su contexto, si muchas lecturas derivadas del secuenciamiento de dicho fragmento 6.3 Resultados y discusi´on 41 tienen la misma modificaci´onen la misma posici´on,su agrupamiento y el calculo del valor promedio de calidad base por base arrojar´aun valor de calidad bajo y an´omalocon respecto a su vecindad.

El procedimiento de reducci´onde secuencias redundantes implementado en miRNAsaver permite reducir el consumo de recursos computacionales en los proceso subsecuentes en t´erminostanto del almacenamiento como en la velocidad del procesamiento, puesto que el n´umerode lecturas diferentes sufre una fuerte reducci´on.

6.3. Resultados y discusi´on

An´alisisde calidad y pre-procesamiento

Los an´alisisest´andarde calidad de las bibliotecas provenientes del secuenciamineto de RNA fueron realizados para las 48 bibliotecas secuenciadas para dos poblaciones diferentes de sncRNA, a su vez discriminadas en funci´onde dos tratamientos para el mismo tipo de l´ınea celular HMECK a cuatro diferentes tiempos de infecci´oncon virus Dengue2 o sin infecci´on (Mock). Desde este punto en adelante la nomenclatura empleada para designar las bibliote- cas derivadas del secuenciamiento de sncRNA menores a 50nt ser´a miRNA libraries, mayores a 50nt sRNA libraries. En cuanto al tratamiento, c´elulasHMECK infectadas con Dengue a lo largo de los diferentes tiempos se usar´ala nomenclatura 3d, 12d, 24d y 48d mientras que para los tratamientos sin infecci´onse usar´ala nomenclatura 3m, 12m, 24m y 48m. El mismo procesamiento fue desarrollado para las 24 bibliotecas de muestras de sangre que de ahora en adelante ser´andenominadas como patients libraries, las cuales constan de 12 pa- cientes diagnosticados para los tres diferentes estados de severidad de la fiebre del Dengue, Sin signos de alarma (DWOS), con signos de alarma (DWWS) y dengue severo (SD), 4 para Ricketiosis (RK), 4 para Leptospirosis (LP) y 4 Controles.

El tama˜node cada biblioteca puede observarse en la figura 6-4 donde logra evidenciarse que, para el caso de las bibliotecas derivadas de las muestras de pacientes, son de tama˜nobastante homog´eneo;mientras que las mayores diferencias radican en las bibliotecas secuenciadas a partir del RNA total de las l´ıneascelulares. Posterior a los an´alisisde calidad la totalidad de bibliotecas fueron procesadas empleando miRNAsaver, el primer procedimiento que realiza esta herramienta consiste en remover en orden descendiente los adaptadores, empleando el archivo de secuencias adaptadoras generadas en el an´alisisde calidad, los adaptadores halla- dos al representar sub-cadenas del adaptador provisto por el servidor del secuenciamiento, deben ser evaluados para confirmar que son secuencias artificiales o ausentes en el genoma humano. una vez realizado esto miRNAsaver realiza una b´usquedarecursiva y exacta con 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 42 existentes para ncRNAs dicha lista de adaptadores, en t´erminosde cortar secuencias s´olosi hay coincidencia total de la longitud del adaptador con la lectura blanco, evitando as´ıeliminar secuencias de inter´es biol´ogico,como ocurre con los cortadores de adaptadores tradicionales (anexo A).

Figura 6-4.: Conteo total de lecturas sin procesar para los tres experimentos de secuenciamiento. En la figura logra apreciarse el comportamiento de las replicas de cada experimento, se puede notar que las bibliotecas de pacientes son bastante homog´eneas, mientras que para las bibliotecas de > 50nt (sRNA) y con un tama˜node secuenciamiento < 50nt (miRNA)existe una gran heterogeneidad, en donde se alcanzan a identificar 4 valores at´ıpicos.

Posteriormente con las lecturas sin los diferentes adaptadores, se someten a un filtro de longitud, el criterio empleado es preservar solo las lecturas con una longitud mayor o igual a 15nt. Preservando lecturas de este tama˜no,miRNAsaver procede a reducir la redundan- cia de las bibliotecas conservando la informaci´onde calidad asociada. La redundancia que caracteriza los datos de secuenciamiento de sncRNA es bastante alta [81], este hecho se evi- denci´otambi´enen los datos empleados en el presente trabajo, como puede verse en la figura 6-5. para las librer´ıasde HMECK/miRNA el tama˜node las bibliotecas se ve fuertemente reducido tanto a nivel del tama˜nodel archivo como en el n´umerode lecturas, no obstante ca- da tag conserva la informaci´onde cuantos lecturas redundantes se han reducido en dicho tag.

Si bien existen herramientas disponibles para la reducci´onde duplicados a nivel del for- mato fastq, dichas no conservan satisfactoriamente la informaci´onasociada a la secuencia de calidad, de all´ıque, se dise˜nouna herramienta que realiza estos dos procedimientos de acuerdo a las necesidades anal´ıticasde nuestros datos, esto es de manera independiente a 6.3 Resultados y discusi´on 43 la longitud de la secuencia, sin tolerancia de errores y capaz de conservar la informaci´onde calidad de toda la muestra de lecturas reducidas. Empleando la herramienta desarrollada se logra observar en la figura 6-6 la reducci´onde las bibliotecas HMECK <50nt conservando a su vez la informaci´onde calidad para cada base redundante. De manera interesante se observa que la reducci´onde lecturas redundantes y el uso de la media como medida de ten- dencia central de los valores de calidad permiten revelar patrones de baja calidad an´omalos, como se observa en las posiciones 12 a 14 de las librer´ıasde miRNA a las 48 horas. Como la informaci´onde baja calidad de secuenciamiento puede estar asociada a la presencia de modificaciones post-transcripcionales [59], los patrones que se logran ver para las regiones previamente se˜naladas,o para la mayor´ıade las bases <30nt en la figura 6-6 pueden ser atribuidos a que son sitios sujetos a modificaciones post-transcripcionales, ya que no est´an en la zona com´unmente asociada con errores de secuenciamiento, es decir 3’ terminal.

Figura 6-5.: Distribuci´onde tama˜nospara las bibliotecas HMECK-miRNA pre y pos reducci´onde redundancia. El tama˜node las bibliotecas al aplicar el algoritmo de reducci´onrepresenta menos del 10 %, de manera interesante el patr´onde frecuencias de lecturas redundantes sigue una distribuci´onde ley de potencias, es decir muchos tags con pocas secuencias y pocos con elevadas cifras. 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 44 existentes para ncRNAs

Figura 6-6.: Calidad del secuenciamiento por base pre y post reducci´onde las bibliotecas HMECK-miRNA. Las barras en blanco representan la dispersi´ondada por las 3 replicas por hora para el tratamiento de c´elulas HMECK sometidas a la infecci´ondel virus DENV2; mientras que las barras en gris oscuro representan a las c´elulasno infectadas o c´elulasMOCK. La raya roja representa el limite de calidad recomendado. Previo a la reducci´onde las bibliotecas logra notarse valores de baja calidad en las posiciones 14 y 15, el efecto de estos valores sobre la calidad se incrementa despu´esde la reducci´onde las bibliotecas ya que la informaci´onde calidad empleada para estas bibliotecas basa la calidad de cada base en el promedio, medida bastante sensible a los valores extremos. 6.3 Resultados y discusi´on 45

Contenido GC y riqueza de especies ncRNAs

El contendido de GC en experimentos de RNAseq usualmente es un indicador de la riqueza de genes tanto codificantes como de tipo ncRNAs, no obstante en datos de secuenciamiento est´anmayoritariamente asociados a una riqueza alta de especies como tRNAs o rRNAs [84]. Cuando ocurre esta situaci´onel valor medio del %GC se desv´ıahacia valores superiores al 50 %, de manera interesante en las bibliotecas empleadas en el presente estudio, tomando como referencia a las bibliotecas HMECK-miRNA se aprecia un sesgo hacia valores superiores al 50 % (6-7). Al comparar esta propiedad entre diferentes tratamientos se logra apreciar un patr´onde deslizamiento de la densidad hacia porcentajes altos en los tratamientos de infecci´onpor DENV2 al transcurso del tiempo, en particular a las 12 y 24 horas, a las 48 horas en las c´elulasinfectadas por DENV2 la densidad de %GC retorna a su posici´oncentral retomando el patr´onobservado para las 3 primeras horas post-infecci´on.

Figura 6-7.: Distribuci´ondel contenido GC por hora y tratamiento. La mayor´ıade las bibliotecas presentan dos picos, uno cercano a un valor de 35 % y el segundo de 62 %, de mayor inter´espara los subsecuentes an´alisis 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 46 existentes para ncRNAs

Integraci´onde las anotaciones de ncRNAs

La anotaci´on de familias de miRNAs, tRNAs y snoRNAs en bases de datos p´ublicases un proceso computacionalmente problem´atico.Jorjani et al. (2016), Telonis et al. (2015) y Ko- zomara & Griffiths (2013) [85, 73, 86] sugieren que en las bases de datos de sncRNAs se ha creado ambig¨uedada la hora de clasificar estas mol´eculas,cada autor hace menci´onde los diferentes problemas a la hora de anotar miRNAs, tRNAs y snoRNAs respectivamente. Por resaltar uno de ellos, Telonis et al. (2015) [73] ha expuesto que durante muchos a˜nosen la investigaci´onde expresi´onde RNAs se ha ignorado el potencial funcional de tRNAs mitocon- driales, a causa de la incapacidad de las herramientas t´ıpicasde anotaci´onde estas mol´eculas y de secuenciamiento, ya que est´anrestringidas a considerar exclusivamente como bona fide aquellas mol´eculascon patrones estructurales eucariontes, omitiendo deliberadamente aque- llas estructuras o plegamientos de tipo procarionte, del cual los tRNAs mitocondriales hacen parte, a pesar de que en estos se ha evidenciado patrones de expresi´ontejido espec´ıfico. No obstante, estos problemas son de tipo intra-familia de ncRNA, las dificultades aumen- tan cuando se desea cruzar las diferentes anotaciones disponibles para las distintas familias de ncRNAs, es decir cuando se desea realizar un estudio transversal [66], en estos casos se ha encontrado secuencias que presentan funciones duales, usualmente estas situaciones se resuelven seg´unlos prejuicios conceptuales del autor, es decir no se eval´uasi la regi´on es ambigua a nivel experimental, sino que se opta por conservar la funci´on tradicional [66, 19].

En la presente investigaci´onal buscar exhaustivamente la totalidad de anotaciones del n´ume- ro de copias en las que puede presentarse un ncRNA se logr´oproponer un esquema de integraci´ondonde independientemente del n´umerode copias de un mismo ncRNA, este pre- sentar´ael mismo nombre en cada una de las coordenadas ambiguas, en caso de que existan solapamiento entre loci de familias diferentes de ncRNAs, se procedi´oa integrar los dos genes en un mismo locus, con un ´uniconombre, por lo que se anotan como posibles loci multi-funcionales o regiones con problemas de clasificaci´on. De estos casos se hall´oun total de 177 conflictos de anotaci´on entre tRNAs y piRNAs (ver tabla 6-4 y anexo A-1), adem´as de 69 entre snoRNAs y piRNAs (ver tabla 6-5 y anexo A-2).

Es posible que lo que este ocurriendo en estos casos de conflictos sea que dado el contexto temporal de la investigaci´onque le otorg´oel nombre al sncRNA, una misma mol´eculareciba dos nombres diferentes en funci´onde las categor´ıade ncRNA con la que se describi´o,puesto que dentro de los conflictos encontrados entre piRNAs y tRNAs, curiosamente las coordena- das de los piRNAs y su longitud simulan la de fragmentos derivados de tRNA recientemente publicados (v´easela tabla 6-6); sin embargo, no es posible descartar del todo que dichas regiones sean multifuncionales, pues se resalta el caso extremo de un locus con triple sola- 6.3 Resultados y discusi´on 47 pamiento, entre un miRNA (hsa-mir-4521), un tRNA (tRNA-Ser-GCT) y tres fragmentos funcionales derivados de este ncRNA, ademas de un piRNA (piR-hsa-26589), estos conflictos se resumen en la tabla 6-6.

tRNA Locus coordinate Sense piRNA Locus coordinate Sense Op IleGAT chrX:3833271- - piR-hsa-28184 chrX:3833313- - 31 3833344 3833344 SerAGA chr8:96281885- - piR-hsa-28590 chr8:96281935- - 31 96281966 96281966 MetCAT chr8:124169470- - piR-hsa-32492 chr8:124169466- - 26 124169542 124169492 AlaAGC chr8:67026424- + piR-hsa-28390 chr8:67026423- + 30 67026496 67026453 TyrGTA chr8:67026223- + piR-hsa-6840 chr8:67026276- + 30 67026311 67026306 GlnCTG chr6:28909378- - piR-hsa-28527 chr6:28909420- - 29 28909449 28909449 AlaAGC chr6:28763741- - piR-hsa-28421 chr6:28763780- - 31 28763812 28763811 AlaAGC chr6:28831462- - piR-hsa-28419 chr6:28831501- - 31 28831533 28831532 AlaTGC chr6:28726141- - piR-hsa-11256 chr6:28726146- - 26 28726212 28726172 ArgCCG chr6:28710729- - piR-hsa-12423 chr6:28710730- - 32 28710801 28710762

Tabla 6-4.: Ejemplos de conflictos de anotaciones por solapamiento de tRNAs y piRNAs Al cruzar las coordenadas entre tRNAs y piRNAs, en una b´usquedasensible a la orientaci´on,se ha encontrado que un gran n´umerode piRNAs co-localizan en las posiciones de las que derivan tRFs de tipo 5’ o 3’. Op:Overlapping

Estudios posteriores son requeridos para precisar la verdadera funci´onde dicha regi´on.Sin embargo, es posible que presente estos cuatro diferentes tipos de expresi´ondado por un contexto tisular-celular espec´ıfico,como piRNA dicha secuencia se expresa en tejido germinal [87], mientras que los fragmentos funcionales se han visto expresados en diferentes tipos de carcinomas [88], es decir al parecer dicha regi´onpodr´ıaexpresar cada tipo de sncRNA en funci´onde un contexto de regulaci´onparticular. 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 48 existentes para ncRNAs

snoRNA Locus coordinate Sense piRNA Genomic loci Sense Op SNORA63 chr7:64791632- + piR-hsa-5301 chr7:64791719- - 30 64791729 64791749 SNORA64 chrX:114779969- + piR-hsa-19303 chrX:114779950- + 30 114780049 114779980 HBII-419 chr10:70514928- + piR-hsa-317 chr10:70514963- + 30 70514995 70514993 ACA54 chr11:2985000- - piR-hsa-26803 chr11:2985097- - 26 2985123 2985123 HBII-166 chr11:46783938- - piR-hsa-26758 chr11:46784020- - 26 46784049 46784046 ACA42 chr1:155889699- - piR-hsa-26819 chr1:155889807- - 31 155889833 155889838 U15A chr11:75111434- + piR-hsa-24775 chr11:75111435- + 30 75111582 75111465 ACA3 chr11:8705773- + piR-hsa-1359 chr11:8705773- + 32 8705903 8705805

Tabla 6-5.: Conflicto de anotaciones por solapamiento de snoRNAs y piRNAs. Al cruzar las coordenadas entre snoRNAs y piRNAs se ha encontrado que un gran n´umero de piRNAs co-localizan en las posiciones 5’ inicial o 3’ terminal del snoRNA. Op:Overlapping

Por ejemplo, una explicaci´onprobable es que esta regi´onfuncione como un moR (microRNA offset) [60], no obstante se requiere un estudio adicional con el enfoque integral desarrollado en el presente estudio sobre las bibliotecas empleadas a la hora de la definici´onde estas regiones para evaluar si esta categor´ıade ncRNA puede emplearse.

Dos casos adicionales de conflictos de anotaci´onpara un piRNA y un fragmento funcional derivado de un tRNA ameritan una menci´onespecial, el primero de ellos es el solapamiento del fragmento 5’-tRF-GluCTC, ampliamente estudiado y validado experimentalmente [9] con el piRNA piR-hsa-23289. Adicional a ´estecaso se encontr´oque registros de miRNAs elimi- nados del miRBase (aun disponible como death miRNAs) solapan con tRFs reportados, de all´ıque el presente estudio permite re-evaluar el estado de dichas anotaciones (ver la tabla 6-6). 6.3 Resultados y discusi´on 49

Tabla 6-6.: sncRNA con conflictos de anotaci´onentre miRNAs, piRNAs y tRFs. Al cruzar las coordenadas entre tRNAs, piRNAs y miRNAs se ha encontrado que un miRNA vigente que co-localiza con el tRNA-Ser-GCT (Ver tabla 6-1) est´ainmerso en una regi´on densa y con conflictos de anotaci´on,donde se reporta un piRNA y a su vez tres especies de tRFs derivados del tRNA all´ıpresente. Adicionalmente se ilustra el miRNA eliminado del miRbase identico al 3’-tRF-LysTTT. ncRNA Locus Source fragment chr17: 8186945 - 8187004 hsa-miR-4521 [68] chr17: 8090183 - 8090213 piR-hsa-26589 [74] chr17: 8090184 - 8090208 5’-tRF-25 [88] chr17: 8090218 - 8090234 i’-tRF-0001 [88] chr17: 8090238 - 8090265+3 3’-tRF-31 [88] chr6: 28715526 - 28715596 hsa-mir-1274a [68] chr6: 28715579 - 28715593+3 3’-tRF-LysTTT-76 [88]

Resoluci´onde conflictos de anotaci´on La familia de ncRNAs con mayor problemas de anotaci´onson los miRNAs [89], de all´ıque a continuaci´onse resalten los diferentes pasos seguidos para abordar este tipo de ncRNAs desde una perspectiva enfocada enresolver las demandas del an´alisisde expresi´ondiferencial, es decir, lo que se busca es reducir el n´umerode variables equivalentes, y por ende el tama˜no de muestra redundante, con el fin de ajustar este tipo de mol´eculasa las suposiciones b´asicas de los modelos de distribuci´onnecesarios para evaluar expresi´ondiferencial.

Problemas nomenclaturales de los ncRNAs, caso miRBase La base de datos publica miRBase presenta un c´odigonomenclatural bastante complicado [89], el cual no pretende comprender o relacionar ninguna propiedad biol´ogicaen el nombre de un tipo de miRNA, lo ´unicoque se pretende incluir en el c´odigonomenclatural de los miRNAs es la similaridad de la secuencia madura para diferentes secuencias pre-miRNA y el n´umero de copias de las mol´eculasprecursoras o pre-miRNA conllevando a una definici´onde familia de miRNA. Es decir, para un mismo miRNA maduro derivado de dos pre-miRNAs similares se le otorga el mismo n´umerojunto a un sufijo alfab´etico.Un representante de esta situaci´on es el hsa-mir-203a y el hsa-mir-203b; mientras que si dos precursores diferentes expresan una misma secuencia madura estos se diferencian por un valor num´erico,como ejemplo est´an los pre-miRNA hsa-mir-129-1 y hsa-miR-129-2. Las complicaciones de este esquema a la hora de cuantificar lecturas con m´ultiplesalineamientos son bastante altas, debido a que se 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 50 existentes para ncRNAs cuantificar´atantas veces como se encuentre repetido en el genoma la caracter´ısticafuente, por lo que en t´erminosestad´ısticos,significa que el tama˜node la muestra de lecturas es indebidamente alto dado a que se cuenta el mismo conjunto de lecturas tantas veces como copias en el genoma disponga un determinado ncRNA. Para evitar este tipo de problemas, se asignar´auna misma etiqueta a aquellas secuencias precursoras de una misma secuencia maura, de esta manera se reduce el numero de variables de n copias a 1, y por ende se cuenta s´olouna vez el mismo conjunto de lecturas que alineen a las diferentes regiones ambiguas, un esquema de resoluci´onse ilustra en la tabla 6-7. De manera interesante un esquema similar hab´ıasido previamente propuesto por Ben et al. (2012) [90], con miras a enfrentar el mismo problema.

Tabla 6-7.: pre-miRNAs inmersos o sobrelapantes con longitud variable. Las reglas nomenclaturales del miRBase asignan una letra o n´umeroa cada instancia de un pre-miRNA en el genoma, no obstante no discrimina cuando el numeral se asigna a secuencias id´enticas o no, en este caso para evitar manipular la misma fuente de miRNAs con nombres diferentes se le asigna un nombre ´unico,ya sea en situaci´onde autocontenido en un mismo locus o por identidad a otro pre-miR, pero complementario reverso. hsa= humano, bta = Bos taurus miRNA pre-mir- pre-mir included I% Length Sense family clus (bp) 103a-clus-1 hsa-mir-103a-1 ; hsa-mir-103b-1 mir-103 100 77; 61 +;- 103a-clus-2 hsa-mir-103a-2 ; hsa-mir-103b-2 mir-103 100 77; 61 +;- 122-clus hsa-mir-122 ; hsa-mir-3591 mir-122 100 84; 72 +;- 126-clus hsa-mir-126 ; hsaP-mir-126-lk mir-126 100 84; 56 +;- 129-clus hsa-mir-129-2 ; hsaP-mir-129 mir-129 100 89; 64 +;- 1295a-clus hsa-mir-1295a ; hsa-mir-1295b mir-1295 100 78; 59 +;- 203a-clus hsa-mir-203a ; hsa-mir-203b mir-203 100 109; 85 +;- 214-clus hsa-mir-214 ; hsa-mir-3120 mir-214 100 109; 80 +;- 152-clus hsa-mir-152 ; hsaP-mir-2957 mir-152; bta-mir- 100 86; 70 +;- 2957 199b-clus hsa-mir-199b ; hsaP-mir-3604 mir-199; bta-mir- 100 109; 72 +;- 3604

En la tabla 6-7 se evidencian diversas situaciones presentadas a la hora de reducir la am- big¨uedadcomputacional de los miRNAs. Uno de los casos m´asconfusos se encuentra para los miRNAs reducidos en las categor´ıas103a-clus-1 y 103a-clus-2, donde los miRNAs presentan secuencias precursoras diferentes, pero generan una misma secuencia madura, de all´ıque reciben una misma letra (a) pero dos n´umeros diferentes, hsa-mir-103a-1, hsa-mir-103a-2. Estos dos miRNAs son id´enticos al complementario reverso de otros dos miRNAs que presen- 6.3 Resultados y discusi´on 51 tan el mismo patr´onde nomenclatura hsa-mir-103b-1 y hsa-mir-103b-2, es decir presentan la misma secuencia madura entre s´ıpero sus secuencias precursoras son diferentes, de all´ıque reciben dos letras diferentes. Gr´aficamente, se ilustra las secuencias correspondientes a estos miRNAs: en rojo se resalta la secuencia del miRNA maduro, en negro las dem´assecuencias del precursor y CR significa secuencia complementaria reversa:

hsa-mir-103a-1 TACTGCCCTCGGCTTCTTTACAGTGCTGCCTTGTTGCATATGGATCAAGCAGCATTGTACAGGGCTATGAAGGCATT hsa-mir-103b-1 (CR) CAGCTTCTTTACAGTGCTGCCTTGTTGCATATGGATCAAGCAGCATTGTACAGGGCTATGA hsa-mir-103b-1 TCATAGCCCTGTACAATGCTGCTTGATCCATATGCAACAAGGCAGCACTGTAAAGAAGCCG hsa-mir-103a-2 TTGTGCTTTCAGCTTCTTTACAGTGCTGCCTTGTAGCATTCAGGTCAAGCAGCATTGTACAGGGCTATGAAAGAACC hsa-mir-103b-2 TCATAGCCCTGTACAATGCTGCTTGACCTGAATGCTACAAGGCAGCACTGTAAAGAAGCTG hsa-mir-103b-2 (CR) CAGCTTCTTTACAGTGCTGCCTTGTAGCATTCAGGTCAAGCAGCATTGTACAGGGCTATGA Otro escenario de reducci´oninteresante se observa para el agrupamiento en las etiquetas 122-clus y 214-clus, en los cuales se evidencia que el esquema de clasificaci´onde mirBase no cumple con la regla de nomenclaturar todos los miRNAs que generan la misma secuen- cia madura con el mismo n´umero ra´ız.Por este motivo para evidenciar que estos miRNAs producen la misma secuencia madura recurrimos al empleo de una columna adicional que ilustre la familia a la que pertenece cada miRNA, de all´ıque los miRNA hsa-mir-214 y hsa- mir-3120 pertenecen a la misma familia (es decir codifican la misma secuencia madura), a pesar del nombre, pero tambi´enrepresentan la misma secuencia, dispuesta en dos sentidos u orientadas en dos v´ıasdiferentes. Finalmente, el ´ultimocaso de reducci´onse da al recuperar miRNAs ort´ologos no anotados en el humano, pero que est´anen otras especies y a su vez dentro de la misma familia de secuencias de miRNA madura

Si bien cada miRNA puede presentar una coordenada gen´omicadiferente y un patr´onde expresi´on´unico,si la tecnolog´ıade secuenciamiento aplicada no es sentido-espec´ıfica[91], al momento de alinear secuencias cortas al genoma, una misma lectura alinear´ıasimult´anea- mente, en el mejor escenario, a dos de los anteriores loci de miRNAs (si fuese una secuencia derivada del secuenciamiento del miRNA maduro alinear´ıaa las cuatro posiciones diferen- tes). De hecho, es probable que por esta misma raz´onexistan los problemas de nomenclatura asociados con miRNAs, la anotaci´onde miRNAs a partir del secuenciamiento no sentido- espec´ıfico no presenta la resoluci´onsuficiente para discriminar de donde deriva un miRNA maduro en los casos presentados en la tabla 6-7. De all´ıque proponemos un esquema de reducci´onde los casos de ambig¨uedad,empleando una misma etiqueta, lo cual a la hora del an´alisisestad´ısticonos evitar´asobredimensionar el tama˜node la muestra, gracias a emplear un solo conjunto de lecturas por variable o ncRNA analizado. 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 52 existentes para ncRNAs

El esquema de nomenclatura del miRBase presenta un problema adicional que se hace notable a la hora de integrar anotaciones a partir de bases de datos externas, este problema se evidencia f´acilmente con el miRNA hsa-mir-548, el cual ostenta el c´odigonomenclatural m´ascomplejo, ya que en el genoma, seg´unmiRBase [85] se encuentra un total de 74 copias g´enicas,por lo que para su nomenclatura se var´ıa el alfabeto desde a hasta az, es decir existen m´ultiplesvariaciones a nivel de la secuencia madura, pero tambi´ena nivel de la secuencia precursora con un promedio de variaci´onde 2 hairpin, es decir el esquema de nomenclatura varia de a -1 o -2 hasta az -1 o -2. No obstante, al realizar la anotaci´onlocal se encontraron un total de 70 copias realmente diferentes, la reducci´onse debe a que varios loci de este miRNA codifican en los dos sentidos de la transcripci´ondentro del mismo set de coordenadas gen´omicas.El problema hasta ahora con este miRNA no s´oloreside en las complicaciones nomenclaturales, sino que al cruzar con otras bases de datos el numero de copias g´enicasdiferentes ascendi´oa 102 secuencias distribuidas en un total de 322 copias en el genoma. Con el m´etodo de resoluci´onaplicado se logr´onomenclaturar las copias id´enticas independientemente de su nombre original y su sentido, una peque˜namuestra de estos se ilustra en la tabla 6-8.

Tabla 6-8.: Ejemplos de pre-miRNAs redundantes. En caso de duplicaciones exactas, se evit´omanejar nombres diferentes para secuencias id´enticas como se ilustra con el miRNA 6511. El caso del miRNA 548 es un caso especial, es un pre-miRNA que par diferentes re- giones gen´eticaspresenta doble codificaci´on,para este tipo de problemas miRBase asigna un nombre diferente a cada hebra, sin embargo para los prop´ositosdel presente proyecto se asig- naron etiquetas diferentes solo en caso de presentar variaciones en la secuencia significativas, reduciendo aquellas secuencias complementarias reversas a una sola etiqueta. Tag name miRbase name Genomic coordinate Sense hsa-mir-548-r-l1 hsa-mir-548d-1 chr8: 124360274-124360370 - hsa-mir-548-r-l1 hsa-mir-548aa-1 chr8: 124360274-124360370 + hsa-mir-548-r-l2 hsa-mir-548z chr12: 65016289-65016385 - hsa-mir-548-r-l2 hsa-mir-548c chr12: 65016289-65016385 + hsa-mir-548-r-l3 hsa-mir-548aa-2 chr17: 65467605-65467701 - hsa-mir-548-r-l3 hsa-mir-548d-2 chr17: 65467605-65467701 + hsa-mir-6511-r-l1 hsa-mir-6511a-1 chr16: 15019794-15019860 + hsa-mir-6511-r-l1 hsa-mir-6511a-2 chr16: 16418445-16418511 + hsa-mir-6511-r-l1 hsa-mir-6511a-3 chr16: 16462733-16462799 + hsa-mir-6511-r-l1 hsa-mir-6511a-4 chr16: 18437870-18437936 -

Finalmente la estrategia de anotaci´onempleada permiti´orecuperar miRNAs no anotados para el genoma humano pero que presentan identidad del 100 % con secuencias de miRNAs 6.3 Resultados y discusi´on 53 definidas para otras especies, estos miRNAs fueron incluidos ya que probablemente se han omitido por la dificultad del sistema de nomenclatura, adem´asde que el reporte de expresi´on en las bibliotecas trabajadas soportar´ıasu inclusi´onen la secci´onde la especie humana. En resumen se presentan aquellas miRNAs con ort´ologosno anotados para el genoma humano en la tabla 6-9. De manera interesante, el miRNA que hemos denominado hsaP-mir-1898 se encuentra anotado para los clados de Carnivora, Perissodactyla y Rodentia, pero no se ha anotado en el miRBase para el clado de los primates [20], como se ilustra en la figura 6-8, no obstante su ortolog´ıafue previamente reportada en humanos por [27], pero hasta la fecha no se hab´ıademostrado que la secuencia ort´ologahumana presentara expresi´on. En el presente estudio se logra evidenciar que este locus puede expresar miRNAs en humano, en especial ante una infecci´onviral, ya que tanto en las bibliotecas de sangre perif´ericacomo en l´ıneas celulares se evidenci´oexpresi´on.No obstante es importante aclarar que en las bibliotecas de pacientes se encontr´oque esta expresado diferencialmente para 12 de las 16 estrategias de detecci´onde expresi´ondiferencial, en particular su expresi´ones dr´asticamente reducida en pacientes diagnosticados para el s´ındromefebril de Leptospirosis, que con m´asdetalle se presentar´aen el Capitulo 7.

ortholog pre-mir non-hsa pre-mir hsaP-mir-9 rno-mir-9b-1 hsaP-mir-7178 mml-mir-7178 hsaP-mir-570 ptr-mir-570 hsaP-mir-2985 oan-mir-2985 hsaP-mir-1268 ppy-mir-1268 hsaP-mir-1898 eca-mir-1898 hsaP-mir-7188-lk mml-mir-7188 hsaP-mir-3604 bta-mir-3604-2 hsaP-mir-126-lk mmu-mir-126b hsaP-mir-1893 aja-mir-1893

Tabla 6-9.: pre-miRNAs ortologos sin anotar en humano. Nomenclatura asociada a miRNAs putativos, o miRNAs no anotados para el genoma humano en la versi´on19 del miRBase [20] 6 Caracterizaci´onde las bibliotecas de RNAseq e integraci´onde las anotaciones 54 existentes para ncRNAs

Figura 6-8.: Anotaci´onen mam´ıferos de la familia de miRNAs mir-1839 en miR- Base: Ubicaci´onfilogen´eticadel ort´ologohumano miRNA-1839 reportado por Godnic et al. (2013) [27], ausente en las anotaciones para los primates en miRBase 21 [20], seg´unesta base de datos solo se encuentra exclusivamente en los clados se˜naladoscon la barra vertical roja. El ´arbol filogen´etico se adapt´ode Springer et al. (2004) [92]. Detecci´onde bloques de expresi´onde peque˜nosfrag- mentos derivados de ncRNAs

7.1. Introducci´on Recientemente el inter´espor el estudio del fen´omenode fragmentaci´onfuncional de ncRNAs ha ido en constante aumento tanto a nivel experimental como a nivel computacional; de hecho a la fecha existen diversas estrategias encaminadas espec´ıficamente hacia el estudio de las mol´eculasinvolucradas. No obstante son numerosos los retos que deben enfrentar estas herramientas para la correcta predicci´onde peque˜nosfragmentos derivados de ncRNAs de los cuales se destacan los siguientes:

1. Los ncRNAs son mol´eculasque a escala gen´omica,en el genoma humano, presentan un elevado grado de redundancia, en otras palabras, un n´umeroconsiderablemente alto de co- pias g´enicas,que incluso pueden llegar a estar compartidas entre el genoma mitocondrial y nuclear, como es el caso de los denominados tRNAs-lookalikes [18]; pese a ello, la presencia de m´ultiplescopias no significa necesariamente que todas las regiones se transcriban. Inde- pendiente de esto, la alta repetitividad de estas mol´eculasse traduce, a la hora del an´alisis bioinform´atico,en problemas de ambig¨uedaden la determinaci´ondel sitio ´unicode origen de un fragmento funcional derivado de un ncRNA, cuando se emplean bibliotecas de RNAseq, lo que a su vez conlleva a ignorar suposiciones b´asicasde los m´etodos estad´ısticosempleados en el an´alisisde expresi´ondiferencial, en cuanto a que cada variable o caracter´ısticagen´etica es independiente [56]. De hecho los alineadores m´ascom´unmente empleados, se desarrollaron basados en el alineamiento de secuencias poco repetitivas como los RNAs codificantes, por lo que, para la manipulaci´onde lecturas con m´ultiplessitios de alineamiento, presentan tres comportamientos usualmente gobernados por par´ametroscon valores asignados por defecto: Eliminar estas lecturas del an´alisis. Seleccionar aleatoriamente de un conjunto de m´ultiplessitios gen´omicascandidatos un sitio representativo como fuente, siendo esta estrategia la m´asempelada en el an´alisis de tRNAs Considerar a cada sitio como un locus independiente [53] No obstante, existen dos estrategias disponibles que procuran evitar los problemas que con- llevan las operaciones previas, una estrategia reside en ponderar cada loci seg´unel n´umero de posiciones ambiguas, por lo que este m´etodo distribuye las lecturas equitativamente a lo largo de todo el conjunto de loci id´enticos. Desde otra perspectiva, otras estrategias, mucho m´assofisticadas, emplean la idea de distribuci´onusada en el m´etodo anterior pero de una manera probabil´ısticadependiente de la ubicaci´onde las lecturas ambiguas, privilegiando 56 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs aquellos loci que alinearon dichas lecturas desde la posici´oninicial, este es el caso de la herramienta computacional SeqBuster [56] o privilegiando aquellas regiones con una mayor cobertura en las coordenadas iniciales, con un mayor valor de longitud inferida y con menor grado de sesgos introducidos en la preparaci´onde las bibliotecas, que impactan o dejan pa- trones de calidad asociados a la fragmentaci´onpor transposones o a la retro-transcripci´on, considerados en el caso de la herramienta Cufflinks [57]. Si bien estos m´etodos han demostra- do un manejo m´asadecuado de lecturas con alineamientos m´ultiplesprovenientes de datos del secuenciamiento de mRNAs, los principios en los que se basan no solucionan tan efi- cazmente los problemas en el manejo de sncRNAs [53], dado a que el n´umerode loci de ncRNAs ambiguos es bastante alto, y no existen subregiones internas no ambiguas, es decir no son los dominios los responsables de la parolog´ıa, sino por el contrario, toda la secuencia, como ejemplo se encuentra el caso de las 11 posiciones gen´omicasid´enticas en las que se encuentran los loci del tRNA AspGTC de 72nt de longitud.

La problem´aticaque genera el empleo de las estrategias previamente descritas se ve re- flejado en el momento de la aplicaci´onde los diferentes m´etodos estad´ısticosempleados para el an´alisisde expresi´ondiferencial, empezado incluso por la normalizaci´onde los conteos de las lecturas por biblioteca, proceso esencial a la hora de mitigar el efecto del tama˜node la librer´ıao el efecto de la l´ıneade secuenciamiento [79]. Las estrategias anteriores impactar´ıan sobre este procedimiento ya que, si el total de lecturas que presentan m´ultipleshits para un mismo ncRNA, se escoge s´oloun sitio representativo, ya sea este elegido al azar o con alg´un criterio probabil´ıstico,se alterar´ıala distribuci´onde las lecturas por caracter´ısticay por tratamiento, esto al sobredimensionar los valores del conteo de lecturas para el ncRNA en cuesti´on,adem´asde que se reducir´ıael n´umerode variables estudiadas. Si, por el contrario se opta por tomar el conteo de las lecturas ambiguas y distribuirlo en el total de posiciones ambiguas, de manera equitativa o sesgada, se altera igualmente la distribuci´onde las lectu- ras, pero esta vez subestimando el n´umerode lecturas; adem´asde que se ampl´ıael n´umero de variables de estudio [56, 53]. Sobre esta ´ultimaestrategia es importante resaltar que, para situaciones muy problem´aticas,donde se presentan m´asde 72 sitios ambiguos (como se men- cion´oen el capitulo anterior para el miRNA-548), esta estrategia reducir´ıadram´aticamente la densidad de lecturas alineadas por locus ncRNA, adem´asde generar distribuciones de lecturas bastante an´omalas.

2. Una complicaci´onbiol´ogicaadicional agudiza el anterior problema computacional y con- siste en que, en el genoma nuclear pueden presentarse copias no-id´enticas de ncRNAs, pero bastante similares y no funcionales denominadas pseudogenes; no obstante, este tipo de se- cuencias tambi´enlas podemos como consecuencia de cambios en las regiones adyacentes al ncRNA, por mutaciones disruptivas en las regiones reguladores. En cualquier escenario, la anotaci´onde pseudogenes a´unno ha sido finalizada en la mayor´ıade ncRNAs [93]. As´ıel 7.1 Introducci´on 57 an´alisiscomputacional de este fen´omenopuede incluir estas regiones como blanco del mapeo de lecturas, y por ende en los an´alisissubsiguientes, agravando a´unm´aslas complicacio- nes en el an´alisisestad´ısticogeneradas por la inclusi´onde loci ambiguos o con m´ultiples alineamientos.

3. Un tercer reto computacional es generado tanto por la complejidad biol´ogicadel fen´omeno de fragmentaci´onmulti-funcional del transcrito de ncRNA, como por las limitaciones actua- les de las t´ecnicas de secuenciamiento. Debido a que los ncRNAs son mol´eculascon m´ultiples funciones a nivel celular, su regulaci´on,en t´erminosde generaci´ony degradaci´on,es un pro- ceso esencial, capaz de asegurar el balance entre transcripci´ony decaimiento del transcrito, asegurando la homeostasis celular, transformando tanto mol´eculasmaduras o precursoras de ncRNA de manera aparentemente aleatoria en peque˜nosfragmentos [94]. El problema de detectar y discriminar la fragmentaci´onaleatoria de la funcional de las mol´eculasde ncRNA fuentes se ha propuesto como un problema NP-dif´ıcilpor el grupo de Blazewicz et al. (2011) [95], quienes a su vez, plantearon un algoritmo heur´ısticocapaz de generar resultados de alta calidad. Sin embargo la posibilidad de detectar y clasificar fragmentos correspondientes a la degradaci´onde un ncRNA en bibliotecas de datos reales est´asujeta a la probabilidad de que la duraci´onde estos fragmentos sea lo suficientemente alta como para permitir su recuperaci´onen la preparaci´onde bibliotecas, y por tanto puedan ser secuenciados, es decir, que para implementar la soluci´onpropuesta por estos autores, se debe recurrir a un dise˜no experimental que permita prolongar la vida media de las mol´eculas intermediarias de la degradaci´onde un ncRNA. En resumen, se puede sugerir que las lecturas provenientes de estos fragmentos, derivadas por degradaci´on,podr´ıanser m´asf´acilmente discriminadas si el secuenciamiento se acompa˜narade una estrategia experimental que lidie con los tiempos de degradaci´on[95], como ´esteno es el caso de las bibliotecas con las que contamos, se debe proponer una aproximaci´onalternativa.

4. Un nivel adicional de confusi´onproviene de los procedimientos de secuenciamiento de RNA. En primera instancia, la longitud de las lecturas producidas por las tecnolog´ıasde alta cobertura en el secuenciamiento es limitada, mol´eculasno fragmentadas biol´ogicamen- te para ser secuenciadas deben someterse a degradaci´onenzim´aticao f´ısica,lo cual genera fragmentos de diferentes longitudes, muchas de las cuales pueden ser similares a las repor- tadas para los fragmentos funcionales. Una segunda fuente t´ecnica que genera dificultades computacionales en la detecci´onde fragmentos proviene de los sesgos t´ecnicosintroducidos por modificaciones post-transcripcionales denominadas “Road block” o bloqueadoras de ca- mino, tales como las metilaciones sobre los nucle´otidos m1A58, m3C32, m1G9 y m1G37 de los tRNAs, denominadas de esta manera debido a que interrumpen aleatoriamente la retro- transcripci´on,es decir durante la obtenci´onde cDNA a partir de los RNA libres. Dada la naturaleza aleatoria, no todo proceso de transcripci´onreversa se ve interrumpido por estas 58 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs modificaciones, pero si se generan un buen n´umerode fragmentos artificiales que simulan los fragmentos funcionales [96].

5. Finalmente la biog´enesisde los fragmentos funcionales es un proceso poco descrito, sin embargo se ha demostrado que tanto ncRNAs precursores como ncRNAs estructurados o ma- duros son fuentes de fragmentaci´onfuncional, ´esto,en t´erminoscomputacionales, se traduce en una complicaci´onadicional, dado que la cuantificaci´ony descripci´onde los fragmentos funcionales, de manera precisa, requiere discriminar ncRNA precursores, de ncRNAs que ha sido sometidos a varios procesos de maduraci´oncomo: corte de intrones y empalme de exones; adici´on,modificaci´ony edici´onde nucle´otidos[18].

7.2. Metodolog´ıa

Alineamiento de las lecturas al genoma humano de referencia hg19 Para el alineamiento de las secuencias se emple´oel genoma humano de referencia versi´on hg19 [69]. Como herramientas computacionales se emplearon tres software de alto desempe˜no para el alineamiento de sncRNA: Bowtie [55], BWA [54] y segemehl [97]. Para los dos prime- ros alineadores se emplearon los par´ametrosrecomendados para el alineamiento de miRNAs sugeridos en Tam et al. (2015) [79]; no obstante, en Tam et al. (2015) [79] se ignora el efecto de loci de miRNAs multicopias, por lo que para bowtie se emple´oun par´ametroadicional para tolerar el m´ultiplealineamiento con un m´aximode 500 posiciones ambiguas. Para se- gemehl los par´ametrosempleados fueron: e-value de 10, valor recomendado para secuencias cortas, sin tolerancia a error en la semilla del alineamiento local, con una precisi´ondel 100 % y permitiendo el alineamiento simult´aneoa 500 posiciones diferentes. Se emple´oun cuarto software de alineamiento Bowtie 2 [98], el cual como no puede ser controlado para intole- rancia de mismatch, sumado a que presenta alineamientos gap-tolerantes, no es apropiado para an´alisisde miRNAs, sin embargo permite hallar aquellos sitios sujetos a modificaciones postranscripcionales [79]. De esta manera, su empleo informa aquellas lecturas derivadas de sfd-RNAs maduros, porque estos fragmentos son generados a partir de ncRNAs que presen- tan modificaciones postranscripcionales, adiciones nucleot´ıdicasy en algunas ocasiones corte de intrones.

En t´erminosgenerales se desarrollar´ondos estrategias de alineamiento con las que, al igual que en el trabajo de Selitsky et al. (2015) [49], permite clasificar el estado de maduraci´on de la mol´eculafuente probable de sfd-RNAs, gr´aficamente este procedimiento se ilustra en la figura 7-2. Ante el primer alineamiento se recuperan tres tipos de salidas, alineamientos exactos, alineamientos permisivos o con errores por parte del alineador Bowtie2 y las secuen- cias que no pudieron alinearse de manera exacta. Estas secuencias se someten a un trimming 7.2 Metodolog´ıa 59 de la regi´on5’, siguiendo las recomendaciones del grupo Van Gurp et al. (2013) [80], quienes demostraron que las secuencias derivadas del secuenciamiento de RNA acumulan nucle´otidos con buenos valores de calidad pero insertados por aritificios de la t´ecnica.Debido a que los alineamientos realizados en la primera estrategia son exactos, la presencia de dichas secuen- cias imped´ıadetectar la fuente de la lectura, una vez procesadas para eliminar 8 nucle´otidos en la regi´on5’ de cada lectura, por tanto ´estasfueron re-alineadas al genoma humano. Los resultados de esta segunda estrategia se clasificaron nuevamente en las tres categor´ıaspre- viamente mencionadas, en esta ocasi´onun tercer alineamiento fue realizado con las lecturas no alineadas, pero contra un conjunto de secuencias generados in silico, cuya generaci´onse describe a continuaci´on.

Figura 7-1.: Preprocesamiento de las bibliotecas y estrategias de alineamiento: Pre-procesamiento de las bibliotecas previo a los dos tipos de alineamientos. Para el primer alineamiento de tipo m´ultipley exacto, se emplearon las lectura no redundantes sin adap- tadores 3’. En la estrategia 2 se toman las lecturas no alineadas del primer procedimiento y se someten a miRNAsaver para eliminar 8 nucle´otidosde la regi´on5’, posteriormente estas lecturas se re-alinean tanto al genoma humano hg19 como a un archivo de secuencias de tRNAs madurados in silico. 60 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Maduraci´onin silico de secuencias de tRNAs

Para la detecci´onde tRNAs sujetos a modificaciones como corte de intrones y empalme de exones, junto con la adici´ondel tr´ımeroCCA en el extremo 3’ o el mon´omerode G en los tRNAs de Histidina [99], se construy´oun archivo multi fasta, al que denominamos mncRNA (ncRNA maturated), a partir de la maduraci´on in silico de los 640 loci de tRNAs del genoma humano hg19. Para ello se adicion´ocomputacionalmente al extremo 3’ de cada cadena de tRNA, los nucle´otidosCCA, y para el caso de los tRNA His se simul´oel proceso de adici´on de Guanina en el extremo 5’. Adicionalmente, se eliminaron las secuencias intr´onicas para los loci de tRNAs sometidos a splicing alternativo, empleando las coordenadas reportadas en los archivos de anotaci´ongen´omicade la base de datos tRNAdb [100].

Figura 7-2.: Anotaci´ony submuestreo de los diferentes alineamientos: Con el ar- chivo de anotaciones integradas de ncRNAs, m´aslos archivos de alineamiento de cada expe- rimento se procedi´oa solapar cada lectura en unidades tipo “contig”, con el fin de facilitar la anotaci´onde los alineamientos. Este proceso se realiz´opara realizar el submuestreo de las lecturas alineadas, separando por una parte las lecturas que alinean a loci de miRNAs , y por otra parte a loci de otros sncRNAs.

Uni´on,anotaci´ony clasificaci´onde los alineamientos

Una vez recuperados los diferentes archivos de alineamiento, para los an´alisissubsecuentes, cada lectura no redundante del formato de alineamiento bam fue transformada a formato bed, a partir del cual un solapamiento de coordenadas puede tratarse empleando la herramienta MergeBed [77], as´ıes posible unir las diferentes lecturas en tags de mayor tama˜no,similar al proceso de un ensamblaje de transcriptoma guiado por un genoma de referencia. Este 7.2 Metodolog´ıa 61 procedimiento se realiza con el motivo de anotar la totalidad de ncRNAs empleando el archivo consolidado generado previamente, y con la anotaci´onse realiza, posteriormente, se obtiene la clasificaci´onde las lecturas alineadas en ncRNAs no-miRNAs y miRNA. Una vez est´anclasificadas las lecturas alineadas se procede a detectar cuales de ´estasforman patrones de expresi´ontipo bloques asociados a sfdRNAs.

Detecci´onde bloques de expresi´onde sfd-RNAs

Para la detecci´onde bloques de expresi´onse modific´oel algoritmo de detecci´onde bloques de Blockbuster [60], generando una funci´onalterna a la que denominamos NBlockTester (Normality block tester). Esta aproximaci´ondepende del archivo de anotaciones de ncRNAs integrado generado previamente (ver cap´ıtulo6), con el cual se clasifican las lecturas ali- neadas al genoma humano para cada locus de ncRNA. Con un filtro de tama˜nos que solo tolera lecturas de 15 a 30nt, valor descrito para los sfd-RNAs, se disminuye la probabilidad de presentar lecturas asociadas a las mol´eculasfuentes can´onicas.Posteriormente se procede a un ordenamiento de menor a mayor y con estas lecturas se calcula un valor µu o punto medio de la lectura inicial u, empleando para ello la formula µu = (bu + au)/2, donde au y bu corresponden al punto de inicio y final de la lectura u respectivamente. Dicho valor es empleado para organizar el conjunto de lecturas por ncRNA de tal manera que, con la primera lectura u0 se genera una distribuci´onnormal ψ0 con media igual a µ0 o punto medio 2 de la lectura y con varianza σu definida por σu = (bu − au)/2.

La diferencia introducida en NBlockTester reside en que esta aplicaci´onaprovecha la pro- piedad de simetr´ıade una distribuci´onnormal, dada por la unimodalidad o cercan´ıaentre las medidas de tendencia central, para evaluar si la segunda lectura u1 hace parte o no del mismo bloque de lecturas definido por la distribuci´on ψ0. Para probar esta propiedad se genera en primera medida un rango de simetr´ıa sr0, sr0 = µu0 + σu0 ∗ 1/2, posterior a esto se genera una nueva distribuci´on ψ1 con las lecturas u0 y u1, empleando en esta ocasi´onel 1 Pn valor de la media del set total de lecturasx ˆ0 = n i=1 xi, en vez del valor µu0 con el que se construy´ola distribuci´on ψ0. Con esta nueva media se eval´uasu distancia al valor µu0 , si son lo suficientemente cercanas como para mantener la simetr´ıade la distribuci´on,es decir six ˆ0 < sr0, las dos lecturas har´ıanparte de una misma distribuci´on,,la distribuci´on µu1 , con la que se seguir´aevaluando si las lecturas siguientes formar´anun bloque de expresi´on. Gr´aficamente se observa la prueba de cercan´ıade medias en la figura 7-3. Si las dos lecturas hacen parte de una misma distribuci´on ψu , el nuevo rango de simetr´ıase obtiene a partir 1 q 1 Pn 2 del calculo de la desviaci´onest´andarconvencional σu1 = n−1 i=1(xi − xˆ) donde xi re- presenta las coordenadas de inicio y final respectivamente xi = aui , bui , aui+1 , bui+1,...,aun , bun . i.e., este proceso se repite hasta quex ˆ > sr o se evalu´ela ´ultimalectura por ncRNA. 62 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Finalmente para que una distribuci´onsea considerada un bloque de expresi´oncandidato a sfd-RNA, ´estadebe superar un umbral de 50 lecturas, es decir preservar la simetr´ıade la distribuci´ona lo largo de la incorporaci´onde nuevas lecturas m´asde 50 veces, esto junto con un filtro adicional de que el bloque detectado debe estar presente en al menos dos bibliotecas replicas seg´unel tiempo post-infecci´ono seg´unla severidad de la enfermedad, dependiendo del experimento que se someta a este procedimiento.

Una vez una distribuci´onsupere los diferentes filtros aplicados en NBlockTester, los valores de las coordenadas gen´omicasque se reportaran para el bloque candidato a sfdRNA ser´an obtenidos a partir de la convoluci´onde la moda de cada coordenada, es decir el valor m´as frecuente de la coordenada inicial y final representar´anal bloque de expresi´on,esto debido a que, por la naturaleza de la distribuci´onnormal, si se tomar´anlos valores extremos como coordenadas del bloque, las dimensiones del mismo podr´ıanaumentar dram´aticamente. 7.2 Metodolog´ıa 63

Figura 7-3.: Prueba de simetr´ıapara evaluar si una lectura hace parte un blo- que candidato a sfd-RNA. NBlocktester inicia con un conjunto de lecturas por ncRNA ordenadas por el valor µi de menor a mayor. Con la lectura u0, en particular su valor µ0, junto al valor de σu0 , obtenido al calcular el valor de la distancia entre las dos coordenadas a0 y b0 de la lectura, se obtiene una distribuci´onnormal ψ0, como medida de normalidad se emplea el impacto sobre la simetr´ıade la distribuci´on,de all´ıque esta se calcula como la suma entre µ0 y σu0 , sobre 2. Una vez calculados estos valores, las coordenadas de la lectura u0 y u1 son empleadas para hallar un nuevo valor de tendencia centralx ˆ0, este ´ultimoes el valor empleado para evaluar si al introducir la lectura u1, el rango de simetr´ıaes alterado, en caso de quex ˆ0 este cercano a µ0, las dos lecturas har´anparte de una misma distribuci´on ψ1, en caso contrari´oel proceso se repite eliminando la lectura u0 y construyendo una nueva distribuci´oncon u1. 64 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Detecci´ony cuantificaci´onde microparalog´ıaen bloques de sfd-RNAs con m´ultiples copias

Una vez construido los bloques candidatos de expresi´onde sfd-RNAs candidatos, ya que diferentes sfd-RNAs pueden derivar de un mismo ncRNA, cada bloque lleva un nombre no relacionado a su fuente, esto con el fin de evaluar sin sesgos nomenclaturales redundancia de bloques, o microparalog´ıa entre diferentes ncRNAs, como tambi´enentre diferentes copias id´enticas para el mismo ncRNA. Por ejemplo, a nivel de tRNAs ocurre que isocodificadores diferentes presentan subregiones id´enticas, asociadas por ejemplo al extremo 5’, un caso notable se encuentra para los tRNAs mitocondriales tRNAmt CysGCA y TryGTA (los cuales tambi´enest´anrepresentados con copias id´enticas en el n´ucleo),donde la subregi´onubicada en el extremo 5’ de 30 nucle´otidoses id´entica para ambos tRNAs.

Figura 7-4.: Cuantificaci´onde lecturas en loci multicopia seg´unel tipo de alinea- dor empleado: Para la cuantificaci´onde alineamientos generados por alineadores m´ultiples exactos, con el fin de obtener los conteos de lecturas para una ´unicaregi´onrepresentativa se tomaron todas las lecturas ambiguas, y s´ololas que estaban compartidas en la totalidad de posiciones se cuantificaron, gr´aficamente en el ejemplo el ncRNA-1a es id´entico al ncRNA-1b, pero por el contexto gen´omico,ncRNA-1b presenta m´asalineamientos, no obstante para el conteo del locus ncRNA-1a s´olose tomaron las lecturas comunes. En el segundo escenario, si el alineador selecciona aleatoriamente el blanco de una lectura con m´ultiplesalineamientos, para la cuantificaci´on,dado a que las lecturas quedan distribuidas, todas se suman para obtener el valor del locus representativo, incluyendo aquellas que presentan alineamientos por el contexto gen´omico.

Detectar este tipo de escenarios es necesario para evitar sobre-dimensionar el n´umerode 7.2 Metodolog´ıa 65 variables realmente diferentes, de all´ıque una vez halladas las regiones que presentan ”mi- croparalog´ıa”sedebe seleccionar un ´unicobloque representativo, de manera independiente de ncRNA; continuando con el ejemplo anterior, en caso de que derivara un sfdRNA de la regi´onrepetida de los dos tRNAs, el procedimiento de detecci´onde microparalog´ıaescoger´ıa exclusivamente una regi´onrepresentante, identificar cual es la fuente m´asprobable es una tarea que se abordara en el siguiente cap´ıtulo.

La detecci´onde ”microparalog´ıa”,dada a las caracter´ısticasdescritas previamente de los alineadores, requiere un procedimiento espec´ıficorelativo al tipo de alineador empleado. Si el alienador empleado no realiza alineamientos m´ultiples,como Bowtie2 o BWA, se debe colectar todas los conteos de los bloques par´alogos,esto dado a que estos alineadores dis- tribuyen al azar cada lectura en el conjunto de loci ambiguos. Para el caso de Segemehl y Bowtie se debe recolectar el n´umerototal de lecturas alineadas al espacio de bloques am- biguos y seleccionar s´oloel conjunto de lecturas que se repite de manera transversal en la totalidad de loci ambiguos. De esta manera, aunque podemos sobre-dimensionar el n´umero real de lecturas derivados de una regi´onmulticopia, se evita la redundancia del conteo, que lleva a un aumento del tama˜node las bibliotecas y por ende a afectar de manera general la normalizaci´onde los conteos cada ncRNA evaluada.

An´alisisde expresi´ondiferencial

Para evaluar las diferencias en los perfiles de expresi´onse emple´oel software edgeR [101]. Esta funci´onfue dise˜nadapara realizar an´alisisde abundancia diferencial para datos basa- dos en conteo, modelados empleando una distribuci´onbinomial negativa, ´utilpara cuando existen una marcada variabilidad entre las replicas, los par´ametrosdel modelo son estimados por m´aximaverosimilitud [101].

Para los dos conjuntos de bibliotecas de las l´ıneascelulares se establecieron un total de 4 contrastes por hora y tratamiento, representados en la tabla 7-1 m´as6 contrastes din´amicos, donde se evaluaron cambios entre diferentes horas para cada sfd-RNA candidato, normali- zando los conteos o niveles de expresi´onde los ncRNAs en los tratamientos de infecci´onviral frente a los valores sin infecci´on(DENV-MOCK), de tal manera que se compar´ola expre- si´onnormalizada para un mismo sfd-RNA en una misma condici´onen los contrastes: 3hpi (DENV-MOCK) vs 12hp (DENV-MOCK), 3hpi vs 24hpi, 3hpi vs 48hpi, 12hpi vs 24hpi, 12hpi vs 48hpi y finalmente 24hpi vs 48hpi.

El esquema de contrastes seguido para las bibliotecas derivadas de las muestras de san- gre perif´ericade pacientes eval´uatanto cambios puntuales de cada s´ındrome febril frente a 66 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Tabla 7-1.: Contrastes para bibliotecas derivadas del secuenciamiento de sncRNAs menores a 50nt y ncRNAs can´onicosde l´ıneascelulares: Representa- ci´ontabular de los contrastes por hora, tratamiento y biblioteca de la figura 6-1. Canonical ncRNAs Hours post-infection sncRNAs libraries libraries (hpi) (lower than 50nt) (bigger than 50nt) 3 DENV-infection MOCK DENV-infection MOCK 12 DENV-infection MOCK DENV-infection MOCK 24 DENV-infection MOCK DENV-infection MOCK 48 DENV-infection MOCK DENV-infection MOCK las muestras de personas sin enfermedad, como tambi´eneval´uacambios en la progresi´onde la severidad de la enfermedad para el caso de la fiebre del Dengue, de all´ıque la estructura de contrastes para estas bibliotecas es m´ascomplejo, una representaci´onde los tres tipos de contrastes seguidos se observa en la tabla 7-2.

Los conteos para cada biblioteca fueron normalizados empleando cuatro m´etodos de norma- lizaci´onadecuados para el an´alisisde datos de miRNA seq [79], conteo por mill´on(CPM), m´etodo b´asicoque consisten en tomar el n´umero de lecturas de la caracter´ısticadada y di- vidirlo por el tama˜nototal de la biblioteca, para posteriormente multiplicarse por 1 mill´on. El m´etodo Trimmed mean of M values (TMM), que es un m´etodo de normalizaci´onque introduce un factor de correcci´onpara transcritos ya sea sobre-expresados o con expresi´on muy baja, por lo que ¸corta”losvalores extremos para posteriormente calcular una media con los datos restantes [102] el tercer m´etodo utilizado denominado Relative Log Expression (RLE), normaliza cada conteo por el valor del tama˜node biblioteca efectivo, es decir se calcula la media geom´etricadel conteo para cada ncRNA, empleando un factor de escala que depende de la proporci´on de lecturas totales por caracter´ısticasobre el tama˜node la librer´ıa[103]. Finalmente el cuarto m´etodo de normalizaci´onempleado fue UpperQuantile (UPQ), en el cual se asume que no existe expresi´ondiferencial para ninguna caracter´ıstica y para ello ajusta equitativamente a la distribuci´onde lecturas de todas las caracter´ısticas que presentan m´asde una lectura al remover el percentil 75 de cada distribuci´on[104]. 7.2 Metodolog´ıa 67

Tabla 7-2.: Contrastes para bibliotecas derivadas del secuenciamiento de sncRNAs menores a 50nt a partir de muestras de sangre perif´erica: Esquema de los tres tipos de contrastes realizados para las bibliotecas de ncRNA-seq derivadas de muestras de sangre perif´erica.El primer esquema es el contraste b´asicopara detectar sfd- RNAs asociados a los diferentes s´ındromesfebriles. Un segundo cuadro de contrastes busca detectar los sfd-RNAs que est´anprogresivamente des-regulados o cuya expresi´onse promue- ve al aumentar la severidad de la fiebre. Finalmente el ultimo conjunto de contrastes eval´ua la especificidad de las predicciones halladas en funci´ondel tipo de s´ındromefebril. Fever-related expression Tested condition Control condition DENV-severity expression DWOS HD Tested condition Contriol condition DWWS HD SD − HD DWWS − HD SD HD SD − HD DWOS − HD LP HD DWWS − HD DWOS − HD RK HD DENV-specific expression Tested condition Control condition SD − HD LP − HD SD − HD RK − HD DWWS − HD LP − HD DWWS − HD RK − HD DWOS − HD LP − HD DWOS − HD RK − HD

An´alisisde reproducibilidad

En resumen combinando los diferentes m´etodos de alineamiento junto con los m´etodos de normalizaci´on,siguiendo los lineamientos de Tam et al. (2015) [79], se generaron un total de 16 estrategias de b´usqueda computacional de expresi´onde expresi´ondiferencial 7-5.A diferencia de los anteriores autores, el prop´ositoprincipal de todas estas estrategias es pro- poner un m´etodo que evalu´ela reproducibildad de cada predicci´onhallada con expresi´on diferencial a cambio de escoger un s´olom´etodo. Permitiendo al tener un criterio adicional al valor de veces de cambio (Fold Change) sobre el soporte de cuales m´etodos de mapeo y de normalizaci´onvalidan la expresi´onde un sfd-RNA de inter´es.La principal motivaci´onde realizar esta aproximaci´onradica en que cada algoritmo puede representar una estrategia optima propia, y por ende detectar mediante el an´alisisde expresi´ondiferencial, ncRNAs con propiedades particulares. 68 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Escoger un s´olom´etodo optimo puede llevar a errores, de hecho el grupo de Tam et al. (2015) [79] seleccional al alineador BWA como el m´etodo ´optimo,cuando ´estecarece de la capacidad de realizar alineamientos m´ultiples o tolerantes de errores de apareamiento. En la presente tesis se emplearon cuatro alineadores con el fin de aprovechar la diversidad algor´ıtmicade cada alineador para hallar diferentes tipos de sfd-RNAs, principalmente teniendo en cuentan las diferentes fuentes probables de las que derivan: ncRNAs maduros, de ncRNAs multicopia y de ncRNAs precursores. Para el primer caso se emplearon las caracter´ısticasde b´usqueda no exacta de Bowtie2, para el segundo caso se aprovecharon las propiedades de b´usqueda m´ultipley exacta de Bowtie y Segemehl, mientras que en en ´ultimocaso se privilegiaron las predicciones derivadas de la b´usquedaexacta simple de BWA. De all´ıque, a cada sfd-RNA hallado con expresi´ondiferencial se le otorg´oun puntaje de reproducibilidad en funci´ondel n´umerode estrategias en las que se encuentra validada su expresi´ondiferencial, gr´aficamente se ilustra la combinatoria de estrategias en la figura 7-5.

Figura 7-5.: Descripci´onde las 16 estrategias de detecci´onde expresi´ondiferen- cial: Preprocesamiento de las bibliotecas previo a los dos tipos de alineamientos. Para el primer alineamiento de tipo completo m´ultiple y exacto

Resoluci´onde la ambig¨uedadde loci multicopia a partir del an´alisisde bloques microsint´enicos

A la fecha las diversas herramientas dise˜nadaspara el estudio de sfd-RNAs no enfrentan la ambig¨uedadde designar la(s) fuente(s) m´asprobables de un sfd-RNA derivado de un ncRNA con una alta repetitividad en el genoma, ya que, en especial lo que concierne con el estudio de tRNAs, la manera de proceder ante el problema de la ambig¨uedad de fuente es acumular las lecturas para un tRNA representativo a nivel de anticod´on.En especial para el estudio de sfd-RNAs derivados de tRNAs herramientas como tDRmapper [49] o MINTMAP [51] re- 7.2 Metodolog´ıa 69 portan como fuente del fragmento a un tRNA a nivel de anticodon, m´asno de isocodificador o gen individual, por ejemplo los dos tRNAs con mayor cantidad de fragmentos en el estudio de Selitsky et al. (2015) [11] son en realidad regiones ambiguas a las que incluso denominaron tRNA-Gly-[C/G]CC y tRNA-Va-[A/C]AC, para resaltar los diferentes loci gen´omicosque le dan origen a dichos fragmentos.

Loher et al. (2017) [51] sit´uala verdadera dimensi´onde este problema a nivel de repeti- tividad de una secuencia tipo tRF a lo largo no solo al espacio de secuencias de tRNAs, sino a todos los posibles sitios del genoma, de all´ıque cuando encuentran una secuencia con ca- racter´ısticastipo sfd-RNA que presenta alineamientos tanto a tRNAs como a otras regiones, no resuelven la ambig¨uedad,sino que catalogan a la secuencia como un posible falso positivo.

A diferencia de las aproximaciones anteriores, en la presente investigaci´onpara enfrentar el problema de ambig¨uedadde sfd-RNAs derivados, no s´olode tRNAs, sino de ncRNAs en general, recurrimos a “la luz de la evoluci´on”.La idea utilizada es principalmente la de seleccionar del conjunto de loci ambiguos aquella secuencia que presente un elevado grado de conservaci´onevolutiva a nivel de un bloque de microsint´enia.En otras palabras, aquella copia que este en un contexto gen´omicocompartido en diversas especies ser´ala fuente m´as probable de un sfd-RNA, dado a que es muy posible que al ser compartida las regi´ondel locus por un ancestro com´unremoto al humano se pueda asumir que dicha regi´onpresenta la se˜nalizaci´ongen´eticanecesaria para la biogen´esisde sfd-RNAs.

Para la aplicaci´onmetodol´ogica de esta soluci´onse requiri´opartir de relaciones de orto- log´ıade la familia de ncRNA resueltas. Gracias a Velandia et al. (2016) [105] se desarroll´o una metodolog´ıacapaz de resolver relaciones de ortolog´ıapara virtualmente cualquier tipo de ncRNA, donde se presente evoluci´onconcertada [105] (evolucione a trav´esde la propagaci´on de secuencias id´enticas a lo largo del genoma, las cuales se preservan en tiempos evolutivos extremos) o que, a su vez presenten un elevado grado de cambios a nivel de secuencia, pero que a nivel estructural son conservados [106]. La metodolog´ıase desarroll´opara resolver estas relaciones a nivel del clado de los primates, en especial para resolver la ortolog´ıade ncRNAs de tipo tRNAs [105].

Para la aplicaci´onde esta metodolog´ıauna vez se identifica que un sfdRNA par´alogopre- senta expresi´ondiferencial, se toman la totalidad de regiones ambiguas para realizar un cruce de coordenadas con los archivos de alineamientos de cadena provistos por Velandia et al. (2016), los cuales permiten conocer si una determinada regi´onesta preservada en blo- ques micro-sint´enicosdelimitados por anclas proteicas entre las especies de primates: Pan troglodytes (Ptr), Gorilla gorilla (Ggo), Pongo abelii (Pab) y Macaca mulatta (Mmu). 70 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

7.3. Resultados y discusi´on

Caracterizaci´onde los alineamientos al genoma humano Una primera parte de la presente investigaci´onse centra en la b´usquedade la estandariza- ci´ondel an´alisisde miRNAs, al emplear los par´ametrossugeridos en Tam et al. (2015) [79] y re-evaluarlos frente al problema del posicionamiento de lecturas con m´ultiplesalineamientos t´ıpicodel estudio de ncRNAs. En esta tarea se logr´oidentificar que al no considerar el manejo de secuencias con m´ultiplesalineamientos el uso de la herramienta de alineamiento impide reproducir los an´alisisal emplear una segunda herramienta de alineamiento. Para llegar a la

Figura 7-6.: Estad´ısticasdel alineamiento de las librer´ıasde HMECK infectadas con el virus Dengue o sin infecci´on(Mock) a loci de miRNAs. Del total de lecturas alineadas a loci de miRNAs no se logran apreciar diferencias significativas entre los conteos totales por la presencia del virus, no obstante en las c´elulasinfectadas el n´umerototal de lecturas por replica tiende a disminuir con el paso del tiempo. Las mayores diferencias se evidencia en el n´umero de lecturas alineadas al comparar el tipo de alineador empleado, donde los algoritmos de mapeo m´ultiplepresentan un mayor n´umero de alineamientos que los alineadores simples. anterior conclusi´onse realiz´oel alineamiento de las secuencias mature del mirBase [68] con- 7.3 Resultados y discusi´on 71 tra el genoma humano. Pero teniendo presente el problema del m´ultiplealineamiento, bajo este escenario se encuentra una gran cantidad de hits a m´ultiplessitios fuera del espacio de secuencias de los miRNAs, en particular, con Bowtie se recuperaron 461 miRNAs con m´as de una copia en el genoma, donde 248 secuencias alinean a sitios con 2 repeticiones y al otro extremo 2 mature se encuentran repetidos un total de 692 veces.

Al ignorar el problema del m´ultiplealineamiento empleando los par´ametrosde Tam et al. (2015) [79] no se lograron recuperar la totalidad de regiones id´enticas; sin embargo, con estos par´ametrossi se encontr´oque el n´umerode lecturas que alinear´ıana dichos sitios se ver´ıafuertemente afectado, principalmente si el comportamiento del alineador no tolera ali- neamientos m´ultiples,ya que distribuir´ıalas secuencias derivadas de dichos mature en el n´umerototal de copias g´enicas encontrado (692 para el caso extremo), por lo que, a pesar de que la recomendaci´onde los autores es emplear BWA para an´alisisde miRNAs, estos alinea- dores no son ´optimospara el manejo de ncRNAs dada su naturaleza altamente repetitiva, al menos en el genoma humano.

Con el fin de enfrentar la problem´aticade alineamientos m´ultiplesse ajustaron los par´ame- tros, en los alineadores que lo permitieron (Bowtie y Segemehl); Bowtie2 presenta la opci´on pero su velocidad cae dr´asticamente (datos no ilustrados). En este orden de ideas propusimos el uso de segemehl [97] dado a su comportamiento de alineamiento m´ultiple.Estas modifi- caciones se realizaron con el objetivo de recuperar el n´umerototal de veces que se puede alinear una lectura dada. Como primer resultado, se logr´oobservar la dimensi´ondel efecto de alinear lecturas derivadas del secuenciamiento de ncRNAs tolerando m´ultiplesalineamientos exactos, empleando las bibliotecas HMECK de lecturas peque˜nas <50nt se observa en la figura 7-6 que el orden de magnitud que separa a BWA, el cual no realiza alineamientos m´ultiplespor lectura, del resto de alineadores en escala logar´ıtmicaes de 2.5 veces con res- pecto a Segemehl y 5 veces con respecto a Bowtie. Resulta interesante que, aunque Bowtie2 se deshabilit´osu capacidad de alinear una lectura a m´ultiplesitios, presenta el mismo n´ume- ro de alineamientos que Segemehl, lo que esta indicando que tolerar mismatch incrementa dr´asticamente el n´umerode alineamientos en experimentos de ncRNA-seq.

Comparaci´onentre alineadores

Una restricci´onimportante a la hora de realizar los alineamientos para detectar sfd-RNAs es la b´usquedade alineamientos exactos y m´ultiples;no obstante, no es el ´unicorequisito a tener en cuenta a la hora de enfrentarse a las dificultades del estudio computacional de los ncRNAs. Para ello se emplean m´ultiplesalineadores de manera complementaria, ya que cada uno basa sus procedimientos en conceptos diferentes, por ejemplo, BWA es un alineador sin tolerancia a mismatch o de b´usquedaexclusivamente exacta; Bowtie2 es opuesto respecto a 72 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

BWA, para realizar los alineamientos siempre tiene en cuenta la posibilidad de incorporar errores.

Comparision of shared features per alignment tool DENVmiRNA Segemehl Bowtie Bowtie2 BWA 80 Cor : 0.949 Cor : 0.958 Cor : 0.801 lincRNA: 0.991 lincRNA: 0.944 lincRNA: 0.79 lncRNA: 0.965 lncRNA: 0.964 lncRNA: 0.821 60 miRNA: 0.985 miRNA: 0.988 miRNA: 0.97 miRNA−long: NA miRNA−long: NA miRNA−long: NA MiscRNA: 1 MiscRNA: 0.982 MiscRNA: 0.8 Segemehl Repetitive sRNA: 0.911 Repetitive sRNA: 0.874 Repetitive sRNA: 0.73 rRNA: 0.88 rRNA: 0.869 rRNA: 0.706 40 scaRNA: 0.992 scaRNA: 0.993 scaRNA: 0.915 snoRNA: 0.972 snoRNA: 0.974 snoRNA: 0.819 snRNA: 0.998 snRNA: 0.988 snRNA: 0.735 tRNA: 0.992 tRNA: 0.977 tRNA: 0.778 UA: 0.886 UA: 0.926 UA: 0.83 20 vRNA: 1 vRNA: 1 vRNA: 0.994 yRNA: 0.996 yRNA: 0.94 yRNA: 0.78

0

● ● ● Cor : 0.956 Cor : 0.803 ●● lincRNA: 0.976 lincRNA: 0.739 ● ● ● lncRNA: 0.987 lncRNA: 0.832 20 ● ●● ●● ●●● miRNA: 0.999 miRNA: 0.986 ●●● ● ●●● ● miRNA−long: NA miRNA−long: NA ● ●● ●●●● ● ● ●●● ● ● ● MiscRNA: 0.98 MiscRNA: 0.793 ● ●● Bowtie ● ● ●●● ● ● ●●●●●● ●●●●●●● ● ● Repetitive sRNA: 0.821 Repetitive sRNA: 0.648 ●●●●●●● ● ● ●●●●●●● ● ●●●●● ● ●●●●●● ● ● ●●●●●●●● rRNA: 0.853 rRNA: 0.681 ● ●●●●●●●●● ● ● ●●●●●●●●●●●●● ● ●●●●●●●●●● ● ● 16 ● ●●●●●●●●●● ● scaRNA: 1 scaRNA: 0.936 ● ●●●● ● ● ●●●●●●●●●●●● ● ● ● ●●●●●●● ● ●●●●●●●●●●●●●●●● snoRNA: 0.981 snoRNA: 0.84 ●●●●●●●●●●●● ● ● ●● ● ●●●●●●● ● ● ●●●●●●●●●● ● ●●●●●●●●● ● ● ● ● snRNA: 0.996 snRNA: 0.767 ●●●●●●●●●●● ●● ● ● ●●●●●●●●●● ● ●●●● ● ● ● ●●●●●●●●●●●●●●●●● ● ●● ●●●●●●●● ● ●●● ● tRNA: 0.98 tRNA: 0.78 ● ● ●●●●●● ●●●●● ● ● ● ●●●●●●●● ●● ●●● ●●● ●● ●●●●●●●●● ● ● ●● ●● ●●●●●●●●●● ●● UA: 0.929 UA: 0.826 ● ●●●●●●●●●●● ●● ● ● ●●●●●●●●●●●●●● ●●●● ● ● ● ●●●●●●●●●●●●●● ●● ●● ●●●●●●●●●●●●● ● ● vRNA: 0.999 vRNA: 0.995 ● ●●●●●●●●●●● ● ● ● ●● ●●●●●●●● ●● ● ● 12 ●●●●●●● ●●●● ●● ●● ● ●●●●●●●●●●● ● ● ● yRNA: 0.925 yRNA: 0.78 ●●●●●● ●●●● ●● ● ●● ● ●●●●●●●●● ●● ● ●● ●●●●●●●●●● ● ● ●● ● ● ● ●● ●●●●●●●● ● ● ● ●●●●●●●●●●●● ● ● ●●●●●●● ●●● ● ●● ● ●●●●●● ● ● ● ●● ●●● ● ● ● ● ● ●●●●●● ● ●●●●●● ● ●●●●●●● ●●●● ●●●

● ●

● ● Cor : 0.847 ●● ● Log2 Counts ● ● ● ● lincRNA: 0.578 ● ● ● ● lncRNA: 0.83 20 ● ● ●● ● ●● ● ●● ● ●● ●●●● ● ●● miRNA: 0.985 ●●●●● ● ●● ● ● ●● ●● ● miRNA−long: NA ● ●● ●● ● ● ●●● ● ● ●● ● ● ●● ● ● ●● ●● ●● Bowtie2 ●●●●●● ● ● ●●●●● ● MiscRNA: 0.787 ● ●● ●● ● ● ● ●●● ● ● ●●●●● ● ●●●●● ●●●● ● ● ● ●●●●● ● ● Repetitive sRNA: 0.831 ● ● ●●●●●●●● ● ● ● ●●●●● ● ● ●●●●●●● ● ● ●●●● ● ● ● ● ●●●● ● ● ●● ●●●●● ● ●● ●●●● ● ● ● ●●●● ● ● ● rRNA: 0.829 ●●●●●●●●●●● ●●●●●●● ●● ● ● ● ●●●●●●●●●● ● ● ● ● ●●●●●●●●● ● ●● ● ● ●●●●●● ●●● ●● ● ● ●●●●● ●●● ● ●●●●●●●● ● ●● ●● ● ●● ● ● ●●●●●●● ● ●●● ● scaRNA: 0.934 16 ● ●●●●●●● ● ● ●●●●●● ● ● ●●●●●●●●●●●● ● ● ● ● ●●●●●●●● ●●● ●● ●● ●●●●●●●●●●● ●●●●● ● ● ● ● ●●●●●● ●● ●●●● ● ● ●●●●●●●● ●●● ● ● ● ●● ● ●●●●●●●●● ● ● ● snoRNA: 0.871 ● ●●●●●●●●●●●● ● ●●●● ● ● ● ●●●●●●●●●●● ●●● ● ● ● ●● ●●●●●●●●● ●● ●●●●● ●● ●● ● ●● ●●● ●●●●● ● ●●●●● ● ● ● ● ●●●●●●●●● ● ● ● ● ●●●● ●●●●● ● ● ●●●●●●●● ● ● ●● ● ● ●● ●●●●●●●● ● ● ● snRNA: 0.793 ● ●●●●●●●●●●●● ●●●●● ● ● ● ● ● ●●●●●● ●●●●●● ●● ● ● ●●●●●●●●●●● ● ● ● ●● ● ● ● ●●● ●●●●●●●●●●●● ● ●● ●●●●●●●●●●● ● ● ● ● ●●●●●●● ● ● ●● ● ●●●●●●●●●●●● ●● ● ● ● ● ● ●● ●●● ●●●●●● ● ● tRNA: 0.802 ● ●●●●●●●●●●●●● ● ●●● ● ● ● ● ●●●●●● ●●●●●●●●●● ● ● ●● ●●●●●●●●● ●●●● ●● ● ● ● ●●●●●●●●●●● ● ● ●● ●●●●●●● ● ● ●●●● ● ●●●●●●●●●●● ● ●● ● ● ● ●●●●●● ●● ● ●●●●●●●●● ● UA: 0.889 ●●● ●●●●●●●●●● ● ●● ● ● ● ● ●●●● ●●●●●●● ● ● ●●●●●●●●● ●●●● ● ● ●●●●●●●●●●● ● ● ●●●●●●●●●●●●● ● ● ● ●●●● ●●●●●● ● ●●●●●●●●●●●●● ●● ● ● ● ●●●●●●●●●●●●●● ● vRNA: 0.991 ●●●●●●●●●●●●●●● ● ● ●● ● ●●●●●●●●● ● ●●●●●●●●●● ●● ● ●●●●●●●●● ●●●●●●●●● ● ● ● ● ● ●●● ●●●●●●● ● 12 ●●●●●●●● ● ●● ● ● ● ● ●●●●●●●● ● ● ● ●●●●●●●●●●● ● ● ●●●●●●●●●●● yRNA: 0.787 ● ● ●●●●●●●● ● ●●●●●●●●● ●●●●●●●●● ● ●●●●●●●●● ●●●●●● ● ● ●●●●●●● ●●●●●● ● ● ●●●●●● ● ●●●●●●●●●● ●● ● ●●●●●●● ●●●●●●● ● ● ● ●●●●● ● ● ●●●●●●● ● ● ●●●●●●●●● ● ●●●● ● ● ● ●●●●● ● ● ● ● ●●●●● ●●●●●● ● ●●●●●● ●●●●● ●●●●● ●●● ● ●●●●● ●● ●●

● ● ●

● ● ●

●● ● ● ● ● ● ● ● ● 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ●● ● ● ●● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●●●● ● ● ●●●●● ● ● ●● ● ●● ● ● ● ●

● ● ● BWA ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ●●● ● ● ● ● ●●●●● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ●●● ● ● ● ● ● ● ●●● ● ●● ●●●● ●●● ●● ●● ● ●●●● ●● ● ● ●●● ● ●●● ●●● ● ●● ● 16 ● ●●● ●●● ● ● ● ●●● ● ●●●● ● ● ● ● ● ●● ●●●●● ● ● ●●●● ●●● ● ● ● ● ● ●● ● ● ●● ● ●● ● ●●●●●● ● ● ●● ● ● ●●●●●●● ●● ● ● ● ● ● ●●●● ● ●●● ● ● ● ●●●●● ●● ● ● ● ● ● ●●● ● ● ● ●●●● ●●●● ● ●●● ●●●●● ● ● ●● ● ●●●●●●● ●● ● ● ●● ●●● ● ●●●● ●● ●●● ●●●●● ●● ● ●●●●● ●●●●● ● ●● ● ● ● ●●●● ●●●●●●● ● ● ● ● ●●●●● ●●●●●●●● ● ●● ● ●●●●●● ● ●●● ● ●● ● ● ●●● ● ●●● ● ● ● ●●●● ● ● ● ●●●● ● ● ●● ●●●●●●●● ●●●● ●● ●● ● ● ●●●●● ●●●●●●● ●● ● ●●●●● ●● ●●● ●● ● ●● ● ● ●● ●●● ● ●●●● ● ● ●●●● ●● ●● ● ● ●●● ● ●● ●● ●●●● ● ●● ●● ●●● ●● ●●●● ●● ●● ● ● ● ● ● ● ●●● ●●●● ● ● ●●●●● ● ● ●● ● ●● ● ● ●●●●● ●●●●●● ●●●● ● ● ●●●●● ● ● ●● ●●● ● ●●●● ● ●● ●● ● ● ● ● ● ●●●●●●●● ● ● ●●●●● ●● ● ● ●● ●●●● ● ● ● ● ●● ●● ● ● ● ●●●● ●● ●●●●●●● ●●●●● ● ● ●●●●●●●● ● ●●● ●●● ●●● ● ● ● ● ●●●●●● ● ●●● ●● ●● ● ● ● ●●●●●●●● ●●●●● ●● ●●● ● ● ● ●●●● ● ● ● ●●● ● ●●●● ● ● ● ●●●● ●● ●● ●● ● ●●●● ● ● ●●●● ● ●●● ●●●● ●●●● ● ● ●●●● ● ●●● ●●● ●●●● ●●● ●● ● ●●●●●●●● ● ●● ●● ●● ● ● ● ● ●●●● ●●●●●●● ●●●●●● ● ● ● ●● ●●●●●● ● ● ●●●●●●● ● ● ●● ● ● ●●●●●● ●●● ●●● ●●● ● ● ● ● ●●●● ●● ●●●●●● ● ●●●● ●● ● ●● ● ●●● ●●●●● ●● ● ● ● ● ● ●●●● ● ● ● ●●●●●●● ●●●● ● ●●● ●● ●● ●●●●●●●●● ●● ●●●●● ●●●● ● ● ●● ●● ●●● ●●● ●●●●● ● ●●●●● ●●● ● ● ●● ●●●●●●●● ●●●●●● ● ● ●● ● ●● ● ●●●●●●●●● ●●●●●●● ●●●●● ●● ●● ●● ● ●●●●●● ●● ● ●● ●● ●●●●● ●●●● ● ● ●●●●●● ●●●●● ●●● ● ●●● ●● ●●● ●● ●●● ●● ●●● ●●● ●●● ●●● ●●●● ● ● ● ●●●●●●●● ●●● ●●● ● ● ●●● ●●●●● ● ●●● ● ● ●●●●●● ●●● ●●● ● ●● ● ●● ●● ●●●●●● ●●● ●●●●●●● ●● ●●● ● ●●● ● ● ●●●●● ● ●●● ●●●●●●● ●● ● ●● ● ● ●●●●● ● ● ●●●●●● ●● ●● ● ● ●●●●● ●●●●●●●●●● ● ●●●● ● ● ●●●●●● ●●● ● ●● ●●● ● ● ●●● ● ● ● ●●●●●●●● ● ● ● ●●● ● ●● ● ● ● ●●●●●●● ● ●● ● ●● ●● ●●●● ● ● ●●●●●●●●●●● ●●●● ●● ●●●●●●● ● ● ● ● ●●●●●● ● ●● ●● ●●● ●●● ●● ● ●● ● ●●●●●●●●●●●●●●● ● ●● ●●● ● ●●●● ● ● 12 ● ●●●●●●●●●●●●● ●●●●●●●● ●● ●● ●●●● ● ● ●● ● ● ● ● ●●●●●●●●● ●●●●●● ●●●●● ● ●●● ● ● ● ● ● ●●●●●●●● ●●●●●● ● ●● ●●●● ●● ●●● ● ● ● ●●●●●●●●●●●●● ●●●● ● ●● ●● ●● ● ● ●●●●●●●● ●●●●●● ● ● ● ●● ●●●● ● ●●●●●●●●●●●●●● ● ● ●● ● ● ●● ● ● ● ● ●●●● ●●●● ●● ●●●● ●●●●● ● ● ● ● ● ● ●●●●●●●●●●● ●● ●● ●● ●● ● ●● ● ●●●●●●● ●●●●●● ●●● ●●●● ● ●●● ● ●●●●●●●●●● ●●●●●●●●●●● ●● ●● ● ● ● ● ●●●● ● ●●● ●●● ●●●● ●●●●●● ● ● ● ● ● ● ●●● ● ●●●●●●●●●● ●●● ●●●●●●● ●●●●● ●● ●●●● ●●●●●●●●●●●●● ● ●● ●●●● ● ● ● ● ●●●●●●●● ● ●●●●●● ●●● ● ● ● ●●●●●●●● ●● ● ●●●●● ●●●● ● ●●●●●●● ●● ● ●●●●●●●●●●●●● ●● ● ● ●●●●● ●●●● ●●●●● ● ●●●●●● ● ●● ● ●●●●●●●●● ●●●●●●●●●●●● ●●●●●● ● ● ● ●●●●●●●●●●● ●● ● ●●●●●●●● ● ● ● ● ●●●●●●●●● ●●● ●●●●●●● ●● ● ● ●●●●●● ●●● ●●● ●●●●● ●●● ● ● ●●●●●● ●● ● ●● ●● ●●● ●●● ●● ●●● ●● ● ●● ●●●●● ●● ●●● ● ●●●● ● ●●●● ● ● ● ●●●●●● ●●● ●● ● ● ● ● ●●●●●● ● ● ● ● ● ● ● ●●●●●● ●● ●●● ●● ● ●● ●● ● ●●● ●●● ● ● ●●●● ● ●● ●● ●● ●●●●●● ● ● ● ● ● ● ●●●●●●●● ●● ● ● ● ●●●●● ●● ● ● ●●●●●●●●● ● ● ● ● ●●●● ●●● ● ●● ●●● ●● ● ●●● ● ● ● ● ●● ●● ●● ●● ●● ● ● ● ●●●●● ● ● ● ● ●●●●● ●● ● ● ●●●● ●● ● ● ●●● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ●● ● ● ●●●● ● ● ● ● ● ●●●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● 8 ●● ●● ● ● 12 16 20 24 12 16 20 12 16 20 10 15 20 Log2 Counts

Figura 7-7.: Matriz de correlaciones entre alineadores al considerar el set de ncRNAs compartidos. Cada punto representa un locus de ncRNA, los cuales estan colo- reados por clase: tRNAs en negro, snoRNAs en naranja y los miRNA en azul. La diagonal representa la distribuci´onde las lecturas por alineador. En la diagonal superior se ilustra el valor de correlaci´onde Spearman junto con la significancia del mismo. 7.3 Resultados y discusi´on 73

Finalmente Bowtie y Segemehl son alineadores capaces de reportar el n´umerototal de ali- neamientos por lectura, de all´ıque, es de esperar que por la naturaleza altamente repetitiva de los ncRNAs se observe una gran acumulaci´onde lecturas en estos dos algoritmos, dicho patr´onse evidencia para un ncRNA en particular (por ejemplo miRNAs), como se observa en la figura 7-6).

Comparision of total features per alignment tool DENVmiRNA Segemehl Bowtie Bowtie2 BWA

500 Cor : 0.451 Cor : 0.278 Cor : 0.345 lincRNA: 0.403 lincRNA: 0.107 lincRNA: 0.363 lncRNA: 0.401 lncRNA: 0.37 lncRNA: 0.396 400 miRNA: 0.653 miRNA: 0.627 miRNA: 0.601 miRNA−long: 0.418 miRNA−long: 0.468 miRNA−long: −0.517 MiscRNA: 0.684 MiscRNA: 0.0518 MiscRNA: 0.342 Segemehl Repetitive sRNA: 0.798 Repetitive sRNA: 0.589 Repetitive sRNA: 0.106 300 rRNA: 0.452 rRNA: 0.566 rRNA: 0.429 scaRNA: 0.845 scaRNA: 0.79 scaRNA: −0.00185 snoRNA: 0.611 snoRNA: 0.438 snoRNA: 0.221 200 snRNA: 0.806 snRNA: 0.771 snRNA: 0.258 tRNA: 0.774 tRNA: 0.703 tRNA: 0.548 UA: 0.286 UA: 0.104 UA: 0.306 vRNA: 1 vRNA: 1 vRNA: 0.994 100 yRNA: 0.787 yRNA: 0.29 yRNA: 0.277

0

● ● ● ●● ●● Cor : 0.517 Cor : 0.558 ●●●● 20 ● ● ●●●● lincRNA: 0.438 lincRNA: 0.526 ●●●●● ● ●●●● ● ● ●●●● lncRNA: 0.576 lncRNA: 0.575 ● ●●●●●●● ● ●●●●●●● ● ● ● ●●●●●●● ● ● ● ●●●●●●● ● ● miRNA: 0.959 miRNA: 0.906 ● ●●●●●●●●● ● ● ● ●●●●●●● ● ●●●●●●●●●●●● ● ●●●●●●●●●●● ●● ● ● ●● ●●●●●●●●● ●●● miRNA−long: 0.998 miRNA−long: 0.503 ● ●●●●●●●●●●●●●●● ● ● ● ● ● ●●●●●●●●●●●● ● ● ●●●●●●●●●●●●●●●● ● 15 ●● ● ●●●●●●●●●●●●● ● MiscRNA: −0.0477 MiscRNA: 0.301 ● ●● ● ●●●●●●●●●●● ● ● ● ● Bowtie ● ● ●●●●●●●●●●●●●●● ●●● ● ● ●●● ● ● ● ●●●●●●●●●●●●●●●●●●● ● ●● ● ● ●●●●●●●●●●●●●●●●●●●●●● ● ● Repetitive sRNA: 0.645 Repetitive sRNA: 0.246 ● ●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●●●●●●●●●●●●●●●●●●●● ●● ● ● rRNA: 0.547 rRNA: 0.422 ● ●●●●●●●●●●●●●●●●●●●● ●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●● ● ●●● ●● ● ● ● ●● ●●●●●●●●●●●●●● ●●●●●●●●●●●●● ●●● ● scaRNA: 0.74 scaRNA: 0.0515 ● ●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ●● ● ● ●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ●●●●●●●●●●●●●●● ● ● ● ● snoRNA: 0.784 snoRNA: 0.478 ● ●●●●●●●●●●●● ● ● 10 ● ●●●●●●● ● ● ● ●●● ● snRNA: 0.627 snRNA: 0.273 tRNA: 0.794 tRNA: 0.557 UA: 0.478 UA: 0.575 vRNA: 0.999 vRNA: 0.995 5 yRNA: 0.287 yRNA: 0.341

0 ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●

● ● ● ●

●●● ● ●● ● ● ● Cor : 0.522 ● ● ● ● ● ●●●● ●●●● 20 ●●● ● ● ● ●● Log2 Counts lincRNA: 0.321 ● ● ● ● ●●●●● ● ● ●●●● ● ●●●●●● ● ● ● ●●●● ● ●●●● ●● ● ● ●●● ●● ● lncRNA: 0.578 ●●●● ● ● ● ●●●● ●● ● ● ● ●●●●●● ● ●●●●●● ● ●●●●●●● ● ● ● ● ●●●●● ● ● ● ● ●●●●●●●● ● ● ●●●●●● ● miRNA: 0.901 ● ●●●●●●●●● ●● ● ●●●●●●●●●● ●● ●● ●●●●●●●●●●●● ● ● ●●●●●●●●●●●●● ●● ● ●●●●●●●●●●●●●● ● ● ● ●●●● ●●●●●●●●● ● ● ● ● ●●●●●●● ●●●●●●●● ●●● ● ●●●●●●●●● ●●● ● miRNA−long: 0.45 ● ● ●● ● ●●●●●●●●●●●●●●● ●● ● ● ● ●● ●● ●●●●●●●●●●●●● ●● ●● ● ●●●●●●●●●●●●●●● ●● ● ● ● ● ● ●● ● ●●●●●●●● ●●●●●●●●●● ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ●●●●● ●●●●●●●●●●● ●●● ●●●● ● ● ● ● ●● ●●●●●●●●●●●●●● ●●● ● ● ● ● ●● ●●●●● ●●●●● ● Bowtie2 15 ● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●● ●● ● ●● ● ●● ● ●●●●●●●●●●●●● ●●●●● ● MiscRNA: 0.61 ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ●●●●●●●●●●●●●●●● ●● ● ● ● ● ●● ● ●●●●●●●●●●●●●●●●●● ●● ●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●● ● ●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ●●●●●●●●●●●●●●●●● ●●●●● ● ● Repetitive sRNA: 0.491 ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●● ●●●●●●●●●●●●●●● ● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ●● ●●●●●●●●●●●●●● ●●●●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● rRNA: 0.521 ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ●●●● ●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●● ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●● ● ●● scaRNA: −0.0379 ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●● ●●●●●●●●●●●●●●●●●●● ●●●●●●● ● ● ●●●●●●●●●●●●●●● ●●●●●●●●● ● ● ● ● ●●●●●●●●●●● ●●●● ●●●● ● ●●●●●●●●●●●●●●●●●●●●● ●● ● ● ● ●●●●●●●●●●●●●●●●●● ●●●●● ● ●●●●●●●●●●●● ● ●● ●● ●● ● ● ●●●●●●●●●●● ● ●● ●● ●● snoRNA: 0.573 10 ● ●●●●●●● ● ● ●●●●●● ● ● ●●●●●●●●●● ● ● ● ●●●●●●●●● ●● ● ● ●● ● ●● snRNA: 0.441 tRNA: 0.539 UA: 0.442 vRNA: 0.991 5 yRNA: 0.39

0 ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ●

● ● ●

● ● ●

●● ● ● ● ● ● ● ● ● ● 20 ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ●● ●● ● ●● ● ● ●●● ●●● ● ● ● ●●● ● ● ●● ● ●● ● ● ●●● ● ● ●● ● ● ●●● ● ●●● ● ●●● ● ● ●● ● ●● ● ● ●● ● ●●● ● ●● ● ● ● ● ●●●● ● ●● ● ● ●●●● ● ● ● ● ●●●●●● ● ● ●● ● ● ● ●●● ●●● ●● ● ●●●●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●●●●●●●●●● ● ●● ● ● ●● ● ● ● ●●● ●●● ● ● ●●●● ●●●● ● ● ● ● ●●●●●●●● ● ● ●●●● ●●●● ● ● ●●●●● ●●●●●● ● ● ● ●●● ●●●● ● ● ●● ●●●●● ● ● ● ● ●●●●●●●●●●●● ●●●● ● ● ● ●●● ●●●●●● ● ● ● ●●●●●● ●●● ●● ●● ● ● ●●●●●●●●●●●●●● ●● ●●● ● ●●● ●●●●●● ● ●● ● ● ●●●●●●●●●●●●● ● ●●●●●●●●●●●●●●● ●● ●● ● ●●● ●●●●● ●●● ● ●●●●● ●●●●●●●●●● ● ●●● 15 ●●●●●●●● ●●●●●●● ●●●●●●● ● ● ●●● ●●●●●●● ● ●● ●● ●●●●●●●●●●● ●●●●●●●●● ●●● ● ● ●●●●●●●●●●●●● ● ● ● ● ●●●●●●●●●●●● ● ● ● ● ●●●● ●●●●● ●●●●●●● ● ●●●●●●●●●● ●●●●●●●●●●●●● ●● ● ●● ● ●●●●●●●●●●●●●● ●●● ● ●● ●●●●● ●●● ●●●● ●●● ●● ● ● ●●●●●●●●●●●●● ●●●●●●●● ● ● ●●●●●● ●●●● ●● ● ●● ●●●●●●●●●●●●●●● ●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●●●●●●●●●●●● ●●●● ● ●●●●●●●●●●●●●●●● ●●●●●● ● ●●● ●●●●●●●●●●●●●●●● ●●●●●●● ● ● ● ●●●●●● ● ●●● ● ●●● ● ● ●●●●●●●●●●●● ●●●●● ●●● ● ●● BWA ● ● ●●●●●●●●●●●●●●●●●●● ●●●●●●●●● ● ● ● ● ●●●●●●●●●●●●●● ●●●● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●●●●● ●●●●●●● ●●● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ● ●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ● ●●●●●●●●●●●●●●●● ●● ●● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ●●●●●●●●●●●●● ●●●●●●●●●●●●● ● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●● ●● ●●●●● ●● ●● ● ● ●●●●●●●●●●●●●●●●●● ●● ●● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ● ●●●●●●●●●●●●● ●● ●●● ●● ●● ●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●● ● ●●●●●●●●●●●●●●●●●●● ● ●●●● ●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●● ● ● ●●●●●●●●●● ●●●●●●●●●●●●● ● ●● ● ●●●●●●● ●●●●●●●● ● ● ● ● ● ● ●●●●●●●●●●●●●●● ●● ●●●● ●●●● ● ●●●●●●●●●●●●●●●●●● ●●● ● ●●●●●●●●●●●● ●●● ●● ●●● ● ● ●●●●●●●●●● ●●●●●●●●●● ●● ● ●●●●●●●● ●●●●●● ● ● ● ● ● ●●●●●●●● ●● ● ●●●● ● ●●●●● ●●●●●●●●●●●●● ● ●●●●●●●● ●● ●●● ●● ● 10 ● ●●●● ● ●● ●● ●● ●●●●●●● ●●●●●● ●● ● ●●●●● ●●●●●●● ●● ● ●● ●● ● ● ● ●●●●●●● ●●●● ●● ● ● ● ● ●●●●●● ●●●● ● ● ● ● ● ●●●● ● ●●●●●● ●●● ● ● ●● ● ●●●● ●● ● ● ● ● ●●●●●●●● ●● ● ● ●● ●●● ● ● ● ●●● ● ● ● ● ● ● ● ●●●●● ● ● ● ● 5

0 ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●

0 5 10 15 20 0 5 10 15 20 0 5 10 15 20 0 5 10 15 20 Log2 Counts

Figura 7-8.: Matriz de correlaciones entre alineadores al considerar el set total de ncRNAs. A pesar del empleo de todos los ncRNAs, algunas parejas de alineadores preservan un alto valor de correlaci´on,dado a las similitudes algor´ıtmicas. Resulta interesante que las secuencias altamente repetitivas (tRNAs) presentan los valores m´asaltos en Bowtie y Segemehl, lo que refleja un comportamiento dependiente de alineador. 74 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Al tener en cuenta todos los tipos de ncRNAs, en especial solo los ncRNAs que presentaron alineamientos en las cuatro estrategias simult´aneamente, como se ilustra en la figura 7-7, se logra inferir que las familias de ncRNAs donde la mayor´ıade sus miembros presentan bajos n´umerosde copias exhiben los valores de correlaci´onm´asaltos independiente de que alineadores se est´encomparando, por ejemplo los vRNA, miRNAs o scaRNAs; mientras que familias de ncRNAs cuyos miembros son bastante repetitivos, se evidencian valores de corre- laci´onbajos, por ejemplo en tRNAs, snRNAs, snoRNAs o rRNAs, en especial al comparar ya sea a Bowtie o Segemehl frente a Bwa.

De las observaciones previas se puede concluir que al trabajar con ncRNAs con alta repetiti- vidad en el genoma se debe tener en cuenta que presentan un comportamiento dependiente del tipo de alineador. Con el fin de ilustrar m´asclaramente esta conclusi´on reagrupamos en una sola categor´ıaa todos los ncRNAs con m´ultiplescopias a la que denominamos “Repeti- tive small ncRNA (Repetitive sRNA)”, en la 7-7, el valor de correlaci´onm´asbajo obtenido se hall´oa la hora de comparar Bowtie con Bwa, obteniendo un coeficiente de correlaci´onde Spearman de 0.648.

La figura 7-7 fue generada siguiendo la metodolog´ıade Tam et al. (2015) [79], donde se debe promediar los valores de conteo de cada caracter´ısticapara la totalidad de bibliotecas, al igual que los autores, para este procedimiento solo se tomaron en cuenta los loci con ali- neamientos compartidos por la totalidad de alineadores. Con el fin de no sesgar el an´alisis al conjunto de ncRNAs compartidos por los cuatro alineadores y para lograr evidenciar el efecto de las diferencias algor´ıtmicasde cada alineador, omitimos esta restricci´onobteniendo la figura 7-8. En dicha gr´aficaes muy notable el efecto de las diferencias del alineador, en especial al observar el n´umerode caracter´ısticasno alineadas, puesto que, por ejemplo al centrar la atenci´onen la diagonal de la matriz de correlaci´on,donde se ilustra la frecuen- cia de conteos por ncRNA, o en los puntos distantes de las correlaciones, se evidencia un gran n´umero de ncRNAs con conteos en 0, lo que esta indicado que cada alineador presenta un conjunto ´unicode ncRNAs. De all´ıque la ausencia de un gran conjunto de ncRNAs en BWA evidencia que gran parte de los ncRNAs presentan m´ultiplescopias, o est´ansujetos a modificaciones pos-transcripcionales, pues el mayor n´umerode alineamientos lo obtuvieron Segemehl, Bowtie y Bowtie2, en especial los dos primeros gracias a que no distribuyen de manera pseudo-aleatoria las lecturas ambiguas como Bwa y Bowtie2.

Un factor adicional a destacar resulta del sorprendente n´umero de alineamientos de Bow- tie2, en especial dado a que no esta dado a que este alineador no mapea m´asde una vez una lectura, sino que reside en el efecto de la tolerancia de mismatch. De all´ıque esta es la raz´on de emplear este alineador para el estudio de ncRNA, restringiendo la tolerancia a mismatch 7.3 Resultados y discusi´on 75 a un solo alineador, o a un grupo de lecturas exclusivas, dado a que este comportamiento como se ve en Bowtie2 enriquece bastante las familias de ncRNAs de tipo: tRNAs, snoR- NAs, snRNAs. No obstante, si para una caracter´ısticase detecta expresi´ondiferencial por diferentes algoritmos, incluyendo Bowtie2, o si se detect´oED exclusivamente en Bowtie2, esta informaci´onindicar´ıaque el ncRNA puede generar fragmentos, pero como consecuencia de su procesamiento a nivel de ncRNA maduro.

Como conclusiones de este primer bloque de an´alisisencontramos que el estudio de ncRNAs requiere del uso de diferentes estrategias de alineamiento de manera simult´anea,ya que, por su naturaleza son elementos que presentan niveles variables de repetitividad. Los cuales requieren para su correcto estudio tolerancia de mismatch, en t´erminos generales son ele- mentos gen´eticoscuyo estudio por ahora es dependiente del alineador, as´ıLa elecci´onde un alineador en particular reducir´ıala sensibilidad del an´alisis, al omitir el reporte de ncRNAs fuentes de sfd-RNAs, en otras palabras el empleo de una sola herramienta aumenta la tasa de falsos negativos acosta de aumentar los verdaderos positivos.

Detecci´onde bloques de expresi´onasociados a sfd-RNAs

Las herramientas disponibles que detectan expresi´ondiferencial en sfd-RNAs no realizan la discriminaci´onentre los diferentes or´ıgenesde una lectura, gr´aficamente las comparaciones estad´ısticasentre un caso y un control se realizan con conteos totales, como se ilustra en la figura 7-9. Metodolog´ıas disponibles capaces de discriminar este tipo de lecturas como Blockbuster, est´andise˜nadas para integrar bloques de lecturas embebidos, esto ya que para que el algoritmo de Blockbuster considere a un grupo de lecturas parte de un bloque de expresi´on,se requiere que cada lectura adicionada a la distribuci´onaproximada por m´etodos num´ericos,y que simula el bloque de expresi´on,no supere un valor limite relacionado al par´ametrode ajuste s, establecido por el usuario [60], de tal manera que para valores bajos de s Blockbuster solo agrupa lecturas muy cercanas entre s´ıgenerado m´ultiplesdistribu- ciones con desviaciones bajas y sobrepuestas entre s´ı.En cambio, a valores superiores de s, Blockbuster puede incorporar dentro de un mismo bloque lecturas distantes, tan distantes que la distribuci´onpuede presentar m´asde una media.

Este comportamiento dificulta la detecci´onde bloques embebidos generados, por ejemplo, de dos tipos de procesamiento alternativo de un mismo locus, donde se halla la biog´eneist´ıpica de un sfd-RNA o se genera la estructura can´onica,estos dos de manera no excluyente. Esto dado a que, si el par´ametrode ajuste es alto, Blockbuster detectar´asolamente un bloque para dicha regi´on con una cobertura alta; mientas que si se emplean valores de s bajos, este algoritmo detectar´am´ultiplesbloques con baja cobertura, dificultando la tarea de discrimi- nar cual de ellos representara un bloque y cual la mol´eculafuente. 76 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Para evidenciar gr´aficamente los problemas de Blockbuster a la hora de detectar bloques anidados se tomaron todas las lecturas que alineaban al tRNA-Val-AAC adem´asde que tu- vieran una longitud menor a 30nt, esta misma condici´onfue empleada con la modificaci´onde BlockBuster, NBlockTester, los resultados se representan en la figura 7-10. En el gr´aficode cobertura de esta regi´onse logra observar diferentes bloques para la regi´on5’ del tRNA-Val- AAC, en especial dos bloques embebidos tanto para las bibliotecas derivadas de la infecci´on del virus, como para la condici´onMock. Sobre esta regi´onBlockbuster, con un valor s de 0.5, genera cerca de 4 bloques, 2 de ellos sobrepuestos, no obstante el segundo bloque supera los 35nt de longitud, a pesar de que fue construido con lecturas menores a 30nt; adem´asde que, al ser m´asgrande este bloque alcanza a agrupar los dos grupos de lecturas que dan el patr´on de bloque anidado que se observan en la gr´aficode cobertura, esto debido a que BlockBuster no se detiene al deformar la distribuci´onnormal, puesto que alimenta la distribuci´ondesde que cumpla la condici´onde pertenecer al rango establecido por el par´ametro s, de hecho la distribuci´ongenerada por el algoritmo original es una distribuci´onde dos picos o dos centros. La modificaci´onde BlockBuster, denominada NBlockTester, mientras alimenta la distri-

Figura 7-9.: Comparaci´onestad´ısticade los conteos sin discriminar fragmentos: La mayor´ıade metodolog´ıasde an´alisisdisponibles comparan el conteo bruto de las lecturas de un loci fuente de sfd-RNA sin discriminar la naturaleza de la lectura. buci´onde lecturas eval´ualectura por lectura si este proceso ha alterado la simetr´ıade la distribuci´on,es decir, esta modificaci´onpreserva la normalidad de la distribuci´on.De all´ı que, ante un patr´onde lecturas cortas enriquecidas, concentradas y embebidas dentro de una subregi´ondel ncRNA fuente, que a su vez presenta un background de lecturas distribuidas a lo largo, NBlockTester puede discriminar el patr´onde lecturas enriquecidas ya que cuan- 7.3 Resultados y discusi´on 77 to m´aslecturas con un valor de media cercano se agreguen m´aspeque˜nose hace el rango de simetr´ıa,gr´aficamente se observa que NBlockTester agrupa el conjunto de lecturas con ´unicovalor medio cercano a 180591168 +/− 3nt en un ´unico bloque, cuya distribuci´ones unimodal, eliminando las lecturas pertenecientes al ncRNA fuente.

Con la modificaci´ondel algoritmo origina de BlockBuster, NBlockTester se lograron anotar miRNAs ausentes en miRBase [20]. Notablemente algunos han sido previamente reportados (pero a´unpermanecen fuera de las bases de datos p´ublicas),de hecho las coordenadas en- contradas con NBlockTester son id´enticas a las reportadas en [90] para el caso de nuestra predicci´onNew-miR-pat-1 (Tabla 7-5, chr10 : 69524343 - 69524362 [+]). Adicionalmente se detectaron sfd-RNAs asociados a especies no convencionales de ncRNAs como rRNA, snR- NA, vault RNA y Y RNAs representado el primer reporte de fragmentaci´onfuncional en estas mol´eculasante una infecci´onviral en humanos. No obstante, al igual que en reportes previos, sobre la respuesta del hu´esped basada en sfdRNA ante la infecci´ontanto del virus sincitial respiratorio y hepatitis C y B [9, 11], se encuentra que los ncRNAs fuente con mayor producci´onde fragmentos son los tRNAs.

Como NBlockTester es una modificaci´onde BlockBuster orientada a mejorar la detecci´onde bloques de expresi´onde sncRNAs, la informaci´onque brinda ahora NBlockTester al predecir un bloque es tenida en cuenta en el reporte al usuario, dada la relevancia biol´ogicade la informaci´on,por ejemplo la informaci´onque brinda BlockBuster sobre la regi´onanalizada previamente esta dada por seis campos, cromosoma, coordenada de inicio, final, n´umero de lecturas del bloque, orientaci´on,n´umerode lecturas no redundantes o tags empleados y longitud del bloque:

chr5 180591153 180591186 68820.00 + 865 33 chr5 180591153 180591170 1191.00 + 5 17 chr5 180591182 180591209 173.00 + 41 27 chr5 180591162 180591195 52.00 + 18 33 78 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Figura 7-10.: Comparaci´onde los bloques detectados para el tRNA-Val-AAC entre BlockBuster y NBlockTester. En la secci´onsuperior de la imagen se ilustra la cobertura de las lecturas alineadas al tRNA-Val-AAC a las 24hpi del virus DENV2 frente al control. En la secci´on inferior se ilustra la distribuci´onde las medias de las lecturas clasificadas en un mismo bloque tanto para BlockBuster como su modificaci´onNBlockTester.

Con el fin de exponer la mayor cantidad de informaci´onen torno a la construcci´onde un bloque, dada su importancia biol´ogica,el archivo que genera NBlockTester , para la misma regi´onde la figura 7-10 es: 7.3 Resultados y discusi´on 79

chr5 180591154 180591183 69134 + sl=180591151:180591227;dl=180591154:180591187;sc=68569;ec=65163;soc=73096;tc=872;sd=13.90 29 chr5 180591185 180591208 174 + sl=180591151:180591227;dl=180591183:180591212;sc=68;ec=156;soc=73096;tc=43;sd=10.77 23

Donde por cada bloque predicho se reporta inicialmente las coordenadas de inicio y fin m´as frecuentes del conjunto de lecturas, el n´umerode lecturas del bloque, su orientaci´on,luego las coordenadas del cl´usterde lecturas o locus de la caracter´ıstica estudiada (source locus sl), las coordenadas limites de la distribuci´ongenerada (distribution locus dl), El conteo de la coordenada de inicio (start count sc) y final (final count fc) m´asfrecuente, el conteo de lecturas total del cl´uster(source count soc), el n´umerode tags o lecturas no redundantes (tag count tc), el valor final de la desviaci´onest´andarde la distribuci´on(standard deviation sd) y finalmente la longitud del bloque.

Especificidad y sensibilidad de NBlockTester

Previamente se ha realizado una comparaci´onentre el comportamiento de BlockBuster y NBlockTester para un ncRNA ´unico,como se logr´onotar el n´umerode bloques que report´o BlockBuster es m´asnumeroso, los bloques predichos presentan solapamientos entre s´ıy pue- den superar el tama˜node 30nt. De all´ıque estos mismos indicadores se emplearon para evaluar en t´erminos generales la especificidad (tasa de verdaderos positivos) y la sensibilidad (tasa de falsos negativos) de NBlockTester. Donde un detector de bloques con alta especifi- cidad y sensibilidad debe detectar pocos bloques por cl´ustero locus de ncRNA, bloques con una longitud menor o igual a 30nt y en lo posible no solapantes. Para evaluar estos items a nivel global se emple´ouna biblioteca de la linea celular HMECK enriquecida para sncRNAs (≤ 50nt), tanto infectada con el virus Dengue, como normal (Mock) a las 24 horas, dado a que los bloques de expresi´onasociados a miRNAs son diferentes a los bloques de otros sncRNA, se tomaron los alineamientos discriminados en estas dos poblaciones de las dos bibliotecas previamente mencionadas.

En la tabla 7-3 se resume el resultado del an´alisisglobal de las dos bibliotecas alienadas previamente descritas, independiente del tratamiento y del tipo de ncRNA que se eval´ua NBlockTester predice un menor n´umerode bloques por cl´uster,a su vez estos bloques pre- sentan un bajo grado de solapamiento entre si mismo con respecto a BlockBuster que predice un gran n´umerode bloques, que por estar tan cercanos entre s´ıpresentan un elevado grado de solapamiento. Adicionalmente, los bloques que detecta NBlockTester son en su mayor´ıa menores a 30nt, lo que a su vez lleva a que la frecuencia de solapamientos tambi´ensea me- nor. De manera interesante la mayor´ıa de bloques que detecta NBlockTester est´anpresentes 80 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs en el pool de bloques de BlockBuster, por lo que podr´ıamosconcluir de este an´alisisque NBlockTester evita sobre-dimensionar el n´umerode bloques y la longitud de los mismos, por ende genera un menor n´umerode bloques solapantes, lo que se traduce en que NBlockTester demarca las coordenadas de los bloques de expresi´on de sfd-RNAs candidatos de una manera m´assint´etica,es decir, la modificaci´onde BlockBuster, representa un ajuste adecuado de esta herramienta para el estudio de sfd-RNAs.

Tabla 7-3.: Desempe˜no en la detecci´on de bloques de NBlockTester frente a BlockBuster Empleando las bibliotecas de l´ınea celular HMECK enriquecidas para sncRNAs (≤ 50nt), tanto de infecci´oncon virus Dengue como Mock, a las 24hpi y separadas en miRNA y otros ncRNA, se compar´oel desempe˜noglobal de la herramienta Blockbuster (BB), con dos valores del par´ametro s = 0,1 y s = 0,5 y su modificaci´on NBlockTester (NBt). Como cabecera se encuentra el tama˜node la biblioteca, medido por el n´umerode tags (T. size), n´umero total de secuencias (R. Size), cl´usteres o el n´umerode ncRNAs identificados por tipo de biblioteca para NBt (BB presenta su propia definici´onde cl´uster),n´umerototal de bloques predichos, cuantos bloques miden m´asde 30nt de longitud, cuantos bloques no presenta solapamiento con otros bloques (Non Op) y finalmente cuantos bloques de NBt se comparten con BB s = 0,1 y s = 0,5 (Non S). Library T. Size R. Size Tool Clusters Blocks ≥ 30 Non Op Non S 24d5-miRNA 123338 6001299 NBt 109 321 3 125 0;7 24d5-ncRNA 512948 10552650 NBt 1671 2801 16 2104 14;260 24m5-miRNA 42583 815991 NBt 63 220 3 59 0;5 24m5-ncRNA 148394 1877870 NBt 596 961 12 605 2;139 24d5-miRNA 123338 6001299 BB 0.5 283 564 250 285 211 24d5-ncRNA 512948 10552650 BB 0.5 8153 9693 2621 7396 6298 24m5-miRNA 42583 815991 BB 0.5 171 312 167 154 121 24m5-ncRNA 148394 1877870 BB 0.5 3703 4123 1031 3434 3020 24d5-miRNA 123338 6001299 BB 0.1 278 1271 543 206 207 24d5-ncRNA 512948 10552650 BB 0.1 7596 12522 1978 5850 5905 24m5-miRNA 42583 815991 BB 0.1 168 516 274 124 117 24m5-ncRNA 148394 1877870 BB 0.1 3402 4656 657 2693 2808

Homogeneidad entre tratamientos y variabilidad biol´ogicade bibliotecas de RNAseq

Una vez resuelto los problemas de hallar el conjunto total de sfd-RNA candidatos no redun- dantes, se procedi´oa desarrollar los diferentes an´alisisde expresi´ondiferencial empleando cuatro m´etodos de normalizaci´onde los conteos brutos. En orden de evidenciar la calidad de la informaci´onempleada, se desarrollaron dos an´alisisest´andarque acompa˜naneste tipo de an´alisis,se evaluaron dos medidas importantes de la variabilidad intra-grupo, que fun- 7.3 Resultados y discusi´on 81 cionan como indicadores de la robustez del an´alisisestad´ıstico.El an´alisisde componentes 1.4 DSde108 ● Tagwise DWWS100 LPuf99 Common RKuf97 Trend 0.5 LPuf102 ●

DWOS146LPuf115DWWS51 1.2

LPuf92 ● DWWS122 ●

● DWOS13 DSde150 ● DSde103 ● ● RKuf112 ● DWWS111 RKuf85 ● 1.0

0.0 ●

● ● ● ●

● ●

● ●● ● ● ● ● ●

● ● ● ●● RKuf74 ● ● ● ● ●● ● ● ● ● ●● ●●●● ● ● ●●●● ● DSde107 ● ●

● ● ● ● ● ●

● 0.8 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● Leading logFC dim 2 ● Hctr2 ● ● ● DWOS90 ● ● ● ●

−0.5 ● ● ● ● DWOS23 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● Biological coefficient of variation ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●

0.6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● Hctr1 ● ●● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●

−1.0 ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● Hctr3 ● ●● ● ● ● ● 0.4 ● ● ● ● ● ● ● ●

● ● ● ● ● ● Hctr4 ●

−2.0 −1.5 −1.0 −0.5 0.0 0.5 4 6 8 10 12 14 16 18

Leading logFC dim 1 Average log CPM

Figura 7-11.: An´alisisde componentes principales y Coeficiente de variaci´on biol´ogicapara la expresi´onde la totalidad de ncRNAs de las bibliotecas de sangre perif´erica En el PCA logramos evidenciar que para las bibliotecas de sangre pe- rif´erica,las muestras control (Hctr) se agrupan y distancian en su mayor´ıade las dem´as muestras satisfactoriamente. No obstante no hay una agrupaci´onclara para el dengue con signos de alarma y dengue severo (DWWS y SD). En cuanto al CVB, hay una tendencia entre la varianza de los datos de expresi´onpor sfd-RNA en funci´onde la abundancia de lecturas, cuanto menos lecturas presenta un sfd-RNA mayor CVB, no obstante los valores de CVB son tolerables para el uso del modelo lineal generalizado, dado a que se encuentran por debajo del valor de dispersi´oncom´un. principales, donde se reduce la dimensi´onde los valores de conteo de cada sfd-RNA a un conjunto de variables m´assimples, permite observar la cercan´ıaentre las muestras en fun- ci´onde los datos de expresi´on[101]. Al realizar este an´alisiscon los datos de las bibliotecas generados por el secuenciamiento de sncRNA de muestras de sangre perif´ericase encontr´o que las muestras de personas sanas, o las muestras control (Hctr), se agrupan y distancian de las dem´asal considerar los dos primeros componentes principales, gr´aficamente 7-11. No obstante la muestra Hctr2 se agrupa con pacientes con dengue sin signos de alarma (DWOS), lo que podr´ıaindicar que la muestra puede presentar un problema de clasificaci´ono que el perfil molecular asociado a una persona con Dengue sin signos de alarma no sufre grandes alteraciones. De manera interesante se observa un patr´on de incremento en el componente principal 2, donde las muestras control presentan valores negativos muy bajos, le siguen las muestras de DWOS, y finalmente, sin una clara separaci´on,las muestras de DWWS y SD, 82 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs lo que en t´erminosde expresi´onse traduce en que la infecci´onde estos agentes etiol´ogicos genera una sobre-expresi´onde loci de sncRNAs. El coeficiente de variaci´onbiol´ogica es la ra´ızcuadrada de la dispersi´onbinomial negativa por gen a lo largo de todas las replicas, que es estad´ısticamente equivalente a la desviaci´onest´andarsobre la media, lo que hace dicho valor ´utilcomo indicador de la variaci´onde la expresi´onde un mismo gen dada por la variabilidad biol´ogicaentre replicados [101]. Al analizar este valor se encuentra que todos los genes est´anpor debajo del valor de dispersi´oncom´un(como se muestra en la figura 7-11), lo que significa que se pueden encontrar diferencias significativas en una gran proporci´onde genes al evaluar diferencias en la distribuci´onbinomial negativa entre tratamientos.

En conclusi´onteniendo en cuenta tanto el an´alisisde componentes principales como el co- eficiente de variaci´onbiol´ogicade las muestras de sangre perif´ericase puede afirmar que las muestras est´anreflejando conteos homog´eneosentre si y heterog´eneosentre diferentes tratamientos, de all´ıque esta agrupaci´ones evidencia que el s´ındromefebril hemorr´agico agudo se ve fuertemente afectado por la expresi´onde sncRNAs, dado a la clara separaci´on entre pacientes enfermos y donantes sanos. sfd-RNAs y miRNAs expresados diferencialmente en lineas celulares Al realizar el an´alisisde expresi´ondiferencial empleando 16 tablas de conteo por tipo de ex- perimento de secuenciamiento (48 tablas de conteo en total, HMECK miRNA-seq, HMECK sncRNA-seq, Patients), se reagruparon los resultados de cada experimento de manera inde- pendiente resumiendo el n´umero de estrategias en la raz´ondescrita como el valor de repro- ducibilidad. Valor con el que posteriormente se escogen aquellos sfd-RNAs candidatos con menor sesgo computacional, este procedimiento fue aplicado como alternativa a la medida de cambio de expresi´on fold change, t´ıpicamente empleada para seleccionar las mejores pre- dicciones, esto debido a que este valor puede cambiar seg´unla metodolog´ıade alineamiento o de normalizaci´onescogida. De tal manera que en la tabla 7-4 se muestran los sfd-RNAs con los valores m´asaltos de reproducibilidad tanto a nivel del m´etodo de alineamiento como el m´etodo de normalizaci´onpara el experimento de secuenciamiento de miRNAs y sfdRNAs en HMECK. En la tabla 7-5 se ilustra el experimento de secuenciamiento de sncRNAs de muestras de pacientes. 7.3 Resultados y discusi´on 83

Tabla 7-4.: Resumen de las estad´ısticasdel top 8 de sfdRNA y miRNAs expresa- dos diferencialmente en HMEC infectado con DENV2. Top 8 de sfdRNAs expresados diferencialmente en c´elulasHMECK microvasculares infectadas con DENV2. Leyenda: FC= Fold change; CPM= Count per million, LR= likelihood ratio statistics, FDR= false discovery rate, RA= Aligner reproducibility value, NM= Normalization method, RN= Normalization reproducibility value. UPQ= upper quartile scaling, TMM= Trimmed Mean of M values, RLE=Relative log expression. sfdRNA C logFC logCPM LR PValue FDR Aligner RA NM RN (hpi) New-miR- 3 10.5 6.4 23.62 1.0E-6 8.0E-4 Bowtie2 0.5 UPQ 1 H1 New-miR- 24 -3.16 10.51 12.58 4.0E-4 3.0E-2 Bowtie2 0.5 CPM 1 H2 hsa-miR- 48 4.33 10.3 14.16 2.0E-4 2.0E-2 Segemehl 0.25 UPQ 1 103a hsa-miR- 48 6.21 7.92 15.16 1.0E-4 1.0E-2 Segemehl 0.25 RLE 1 494 tRF-3’pre- 24 1.77 8.27 15.21 1.0E-4 1.0E-2 Bowtie2 0.25 RLE 1 ProTGG tRF-3’pre- 24 1.79 8.22 15.6 8.0E-5 1.0E-2 Bowtie2 0.25 RLE 1 ProAGG tRF-3’pre- 3 -4.43 11.77 14.72 1.0E-4 2.0E-2 BWA 0.25 RLE 1 GluCTC tRF-5’- 48vs12 10.06 12.34 21.94 3.0E-6 3.0E-3 BWA 0.25 RLE 1 ValAAC

Para el grupo de sfd-RNAs diferencialmente expresado del experimento de HMECK miRNA- seq a las 3 y 24 horas post infecci´onse encontr´oque solo dos sncRNAs, derivados de ncRNAs no anotados en ninguna de las bases de datos empleadas, est´anpresentes en 8 de las 16 es- trategias computacionales. En particular aparecen DE para los alineadores Bwa y Bowtie2 y para todos los m´etodos de normalizaci´on.Con esta informaci´onse asume que es un miRNA de copia ´unica,ya que s´olofue reportado en alineadores con esta caracter´ıstica.

De manera interesante estas dos predicciones son un ejemplo de que no importa si el ali- neamiento fue tolerante de errores o no, esta predicci´ones reproducible independiente de eta elecci´onde par´ametros, sin embargo el hecho de que los valores m´asaltos de fold change se hallen para Bowtie2 sugiere que son miRNAs susceptibles de alg´unproceso de modificaci´on postranscripcional. En orden de reproducibilidad le siguen a las anteriores predicciones los miRNAs hsa-miR-103a y hsa-miR-494, exclusivamente predichos por Segemehl, pero presen- 84 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Tabla 7-5.: Resumen de las estad´ısticasdel top 10 de sfdRNA y miRNAs ex- presados diferencialmente en el escenario biol´ogicode pacientes con fiebre del Dengue. Leyenda: SD= Severe Dengue; HD= Healthy patients; DWWS= Dengue with warnings sings. sfdRNA Constrast FC CPM LR pval FDR Aligner RA NM RN hsa-let-7a- Dwws/Dwos 2.56 11.14 28.52 9.0E-8 2.0E-5 BWA 1 UPQ 1 2 U1 Dwws/HD -4.61 7.43 17.02 4.0E-5 4.0E-4 BWA 1 CPM 1 5S rRNA Dwws/HD -2.54 12.93 30.85 3.0E-8 6.0E-7 Segemehl 0.75 TMM 1 hsa-miR- Dwws/HD -4.27 7.16 12.58 4.0E-4 4.0E-3 Bowtie 0.75 RLE 1 142 hsa-miR- Dwws/HD -1.97 11.86 22.95 2.0E-6 2.0E-5 Bowtie 0.75 RLE 1 7641 ACA62 Dwws/HD -1.71 7.43 10.7 1.0E-3 3.0E-3 BWA 0.75 CPM 1 tRF-5’ Dwws/HD -2.06 5.46 19.36 1.0E-5 2.0E-4 Bowtie 0.75 TMM 1 HisGTG tRF-3’ pre- Dwws/HD 2.26 7.47 13.27 3.0E-4 3.0E-2 Bowtie2 0.5 CPM 1 ValCAC U1 Dwws/HD -2.76 7.62 11.79 6.0E-4 3.0E-3 BWA 0.75 CPM 1 New-miR- Dwos/HD 3.04 8.08 15.28 9.0E-5 3.0E-3 BWA 0.75 UPQ 1 pat tes en la totalidad de los m´etodos de normalizaci´on, lo cual indica que dicho gen presenta efectivamente m´asde una fuente gen´omica.

A mayor profundidad de las bibliotecas mejor calidad presentan las predicciones. Para el caso de las bibliotecas de pacientes encontramos que la mejor predicci´ones el miRNA hsa- let-7a-2 y el snRNA U1 los cuales se encontraron expresados diferencialmente en la totalidad de estrategias computacionales 16/16. Seguido a estos, el sfd-RNAs 5S-rRNA, hsa-mir-142 y hsa-mir-7641 se encontraron un total de 12 de 16 veces en pacientes con diagn´osticocon- firmado de Dengue con signos de alarma ( Tabla 7-5).

En ninguna condici´onexperimental ning´untRF fue hallado simult´aneamente en las 16 es- trategias, la mejor predicci´onconsiste en el 5’-tRF-HisGTC, tRF previamente reportado en bibliotecas de carcinomas humanos [88], esta observaci´onsugiere que le herramienta emplea- da para el alineamiento presenta un fuerte impacto en la recuperaci´onde la abundancia de ncRNAs altamente repetitivos, donde el alineador BWA y por ende las 4 estrategias asocia- das no son metodolog´ıasadecuadas para la detecci´onde sfd-RNAs derivados de tRNAs o tRFs (tRNA derived RNA fragments). 7.3 Resultados y discusi´on 85

Perfil de expresi´onde sfd-RNAs y miRNAs en muestras de sangre perif´erica Con el fin de conocer como se agrupan las bibliotecas de sangre perif´ericaen funci´onde las mejores predicciones de la tabla 7-2 se realiz´oun an´alisisde agrupamiento jer´arquicono supervisado junto con un mapa de calor (figura 7-12), donde se logra observar que al igual que el an´alisisde expresi´ontotal del PCA (figura 7-11), los diferentes s´ındromesfebriles se agrupan entre s´ı,excluyendo las bibliotecas asociadas a los controles.

En el an´alisisde agrupamiento y en el mapa de calor se observa homogeneidad de expresi´on por s´ındrome evaluado, en esta ocasi´on,para el conjunto de sfd-RNAs con mejores valores de reproducibilidad. En otras palabras todas las replicas se agrupan al tratamiento que le pertenece al agrupar por los valores de expresi´onde los sfd-RNAs con mejores valores de reproducibilidad. No obstante, existen dos excepciones en las bibliotecas derivadas del se- cuenciamiento de sangre perif´ericade pacientes con Dengue severo (SD108 y SD150), las cuales se agrupan cerca a las muestras de pacientes con dengue sin signos de alarma. 86 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Figura 7-12.: Mapa de calor y agrupamiento jer´arquicode los top sfd-RNAs expresados diferencialmente en las bibliotecas de muestras de sangre perif´erica. En el dendograma de las muestras del an´alisisde agrupamiento se logra observar que todas las replicas se agrupan correctamente por tratamiento, exceptuando dos bibliotecas de Dengue severo (108 y 150) que se agrupan cerca a las muestras de pacientes con dengue sin signos de alarma. Los ncRNAs con mayor poder de discriminaci´onentre s´ındromey control son los miRNAs 26a-2-3p, 142-3p, 106b-3p y 16-5p; los tRFs GlyGGC, SerTGA e HisGTG y el sfdRNA derivado del snoRNA D14

Conservaci´onevolutiva de los loci fuentes de sfd-RNAs

En los diferentes an´alisisde expresi´ondiferencial se encontr´ouna gran cantidad de sfdRNAs derivados de ncRNAs con m´ultiplescopias en el genoma, en particular el tRF tRF-5’-HisGTG puede generarse de al menos 3 loci diferentes en el genoma humano, cada alineamiento del sfd-RNA al lugar probable de origen es descrito en t´erminosdel cromosoma al que pertenece, 7.3 Resultados y discusi´on 87 la coordenada de inicio y fin del mismo, la anotaci´ondisponible del ncRNA fuente, las coordenadas del ncRNA fuente, la orientaci´on del fragmento y la longitud del fragmento:

Figura 7-13.: Alineamiento del cl´uster4 de tRNAs a nivel de secuencia El alinea- miento ilustrado esta a nivel de nucle´otidosdel cluster 4 de tRNAs para las cinco especies de primates. De arriba hacia abajo, la primera especie ilustrada es Homo sapiens, seguida de Pan troglodytes (Ptr), Gorilla gorilla (Ggo), Pongo abelii (Pab) y Macaca mulatta (Mmu). se logra observar al final de cada secuencia la regi´onultra-conservada de 13tRNAs. Imagen obtenida empleando el alineador m´ultipleMauve [107].

Al evaluar el grado de conservaci´onevolutiva de la regi´ona nivel de los primates antropoides Pan troglodytes (Ptr), Gorilla gorilla (Ggo), Pongo abelii (Pab) y Macaca mulatta (Mmu), empleando los alineamientos en cadena generados en Velandia et al. [105], se encontr´oque de las tres regiones s´olola regi´ondel locus tRNA-HisGTG-33 est´aconservada en las cinco espe- cies, en especial en el bloque microsint´enicoque porta el cl´uster-4de tRNAs, caracterizado por un bloque de 13 tRNAs ultra-conservados en orden y composici´on[105], gr´aficamente se puede observar los alineamientos a nivel de tRNAs del cluster 4 en la figura 7-2, como a nivel de secuencia, a partir del alineamiento m´ultipleobtenido empleando Mauve [107] en la figura 7-13. 88 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

chr6_27177340_28431189_ggo_+_c .RSR..MW.....LTRV.AIPKYAYYYX.. 19 chr6_27400214_28489930_pab_+_c .RSQQSMWRR.M.LTRV.AIPKYAYYYX.. 24 chr4_26428569_27405930_mmu_+_c MRSQQSMWRSRMWLTRVXAIPKYAYYYNAA 30 chr6_26790021_27901175_ptr_+_c ...... LTRV.AIPKYAYYY... 13 chr6_26299977_27656040_hsa_+_c .RSQQSMWRSRMWLTRV.AIPKYAYYY..A 26 consensus ******** * !!!! !!!!!!!!!

chr6_27177340_28431189_ggo_+_c .AMIAAMMAIPS.HT.VSRRLVIVXVIQSM 46 chr6_27400214_28489930_pab_+_c ..MIA.M..IPSVHTIVSRRLVIXVIVQSM 49 chr4_26428569_27405930_mmu_+_c .A..A.M..IPSVHTIVSR..VIIVI...Q 49 chr6_26790021_27901175_ptr_+_c ...... IPSVHTIVSRRVVIIVI..VQ 32 chr6_26299977_27656040_hsa_+_c IAMI..AMAIPSVHTIVSRRLVIIIVXVXQ 54 consensus **** * !!!*!!*!!!**!!*** *

chr6_27177340_28431189_ggo_+_c M.SDSSDSQS.QSRKDK...... 61 chr6_27400214_28489930_pab_+_c MXSDSSNSQS.QSRKDKM...... 66 chr4_26428569_27405930_mmu_+_c SMK.SD...... 54 chr6_26790021_27901175_ptr_+_c SMMKSDSSDSQSSQSRKDKMLLXI 56 chr6_26299977_27656040_hsa_+_c STMKSDSSDSQSSQSRKDKM.L.I 76 consensus * !* * * * *

Figura 7-14.: Alineamiento de genes de tRNAs del cl´uster4 representados por el amino´acidoque transfieren Los diferentes grados de conservaci´onse otorgan asumiendo que es una secuencia de amino´acidos,de all´ıque la asignaci´onno es del todo correcta; no obstante es ´utilpara ilustrar la regi´onultra-conservada en orden y composici´onde 13 tRNAs demarcada en rojo. En el cl´uster4 solo existe un locus para el amino´acidode Histidina, el cual es la fuente m´asprobable del tRF reportado con expresi´ondiferencial en pacientes con s´ındromefebril hemorr´agicoagudo

La metodolog´ıadesarrollada no solo es capaz de encontrar la fuente de un sfd-RNA ambiguo en caso de presencia de anotaciones, un caso adicional se presenta para un sfd-RNA sin previo reporte el cual presenta 4 loci ambiguos a lo largo del genoma, como se ilustra en la figura 7-15. Lo interesante de este caso resulta en que la regi´onconservada en el clado de los primates es la ´unicaregi´oncodificante; no obstante la orientaci´ondel fragmento no coincide con la del mRNA CCPG1, sin embargo al presentarse en la cadena complementaria, por doble transcripci´on(pervasive transcription) puede generar un peque˜noncRNA complementario a dicho gen. 7.3 Resultados y discusi´on 89

Figura 7-15.: Conservaci´onde una de las 4 regiones ambiguas de un sfd-RNA sin anotaci´on: La ´unicaregi´onconservada en el esquema esta resaltada en negro, a partir de dicha regi´on se describe la ortolog´ıade dicha secuencia en los diferentes genomas de los primates descritos Biomarcadores candidatos de sfd-RNAs para el diagn´osti- co y pron´osticodel Dengue

8.1. Introducci´on

El s´ındromefebril infeccioso de origen desconocido en pa´ısestropicales constituye un serio problema diagn´ostico, debido a que los signos o s´ıntomas relacionados al s´ındromedif´ıcil- mente pueden asociarse con una etiolog´ıaparticular [108]. El problema es a´unmayor cuando circulan simult´aneamente diversos agentes infecciosos que producen s´ındromescl´ınicos simi- lares, como bacterias del g´eneroRickettsia y Leptospira, o virus como el Dengue, Chinkun- gunya y Zika [108], lo que dificultad un oportuno tratamiento, ´o,en el caso de la enfermedad del dengue, conocer el desenlace de esta infecci´oncuyo espectro de enfermedad cursa desde una infecci´onasintom´atica,un cuadro febril sin complicaciones, hasta un incremento severo en la permeabilidad vascular llevando a complicaciones hemorr´agicas[109].

Recientemente diversos ensayos precl´ınicoshan propuesto a los miRNAs como biomarcado- res diagn´osticosy pron´osticospara dengue. Sin embargo, estas aproximaciones no consideran otras etiolog´ıaspara los s´ındromesfebriles infecciosos, dejando sin evaluar el grado de espe- cificidad del biomarcador. Por lo tanto, para facilitar el diagn´osticodiferencial del s´ındrome febril infeccioso de origen desconocido es necesario contrastar dichas predicciones frente a etiolog´ıassimilares.

El ´exitode los miRNAs como biomarcadores se debe a su sencillo uso cl´ınico gracias a propiedades como: alta resistencia a la degradaci´onenzim´atica,congelaci´on,descongelaci´on o condiciones intensas de pH, r´apida detecci´ony ubiquidad, puesto que est´anpresente en, al menos todos los fluidos corporales y excreciones (orina, heces fecales, saliva, l´agrimas, sangre, pleura y l´ıquidoamni´otico)[110]. Adicional a su posible uso en diagnosis tambi´ense ha explorado su potencial como biomarcadores de prognosis en las enfermedades con dificul- tades diagn´osticas,ya que se ha reportado que la expresi´onde los miRNAs var´ıaen funci´on de la severidad de la enfermedad [14, 15].

Teniendo en cuenta la importancia descrita de los ncRNAs como miRNAs o tRFs en in- fecciones virales por RSV, HVB y HVC, en la presente investigaci´onel ´enfasis se realiz´oen el virus del Dengue (DENV). Este virus pertenece a la misma familia viral del HVC, pero a diferencia de este ´ultimola investigaci´onen estrategias terap´euticasefectivas y seguras no se encuentra en el mismo nivel desarrollo. De hecho, es frecuente que se presenten problemas en el diagn´osticode la fiebre del dengue tanto a nivel cl´ınico, y paracl´ınicoes decir molecular y serol´ogico[111, 112]. Por la parte cl´ınica,las dificultades en el diagn´osticose deben a la 8.1 Introducci´on 91 poca especificidad o ambig¨uedadde los s´ıntomas tempranos que manifiestan los pacientes dificultando la diferenciaci´ondel cuadro febril causado por virus como Zika, Chikungunya o por agentes bacterianos de los g´enerosLeptospira, Salmonella y Rickettsia [111], haciendo del diagn´osticode esta enfermedad dependiente al estado epid´emicodel momento, dificultando y disminuyendo as´ı,a su vez, la veracidad de los reportes epidemiol´ogicos[113]. En la figura 8-1 se ilustran los diferentes s´ıntomas compartidos entre los s´ındromesfebriles estudiados en la presente investigaci´on;Leptospirosis, Ricketsiosis y Fiebre del Dengue.

En cuanto a las herramientas de diagn´osticoparacl´ınico,en las t´ecnicasmoleculares actuales existen serias desventajas que llevan a un estado de incertidumbre similar al diagn´ostico cl´ınico;por ejemplo aunque la detecci´ondel genoma viral, por medio de RT-PCR, es al- tamente espec´ıfica,simple y r´apida,s´olopueden ser empleada durante los cinco primeros d´ıasa partir del inicio de los s´ıntomas [113]. En el diagn´osticoserol´ogicoo por detecci´onde ant´ıgenos,no se presentan dificultades en t´erminosdel momento en que puede ser aplicado, pero debido a que la respuesta humoral del hu´esped es similar ante los diferentes agentes infecciosos descritos previamente, presenta la misma dificultad que el diagn´osticocl´ınico, dificultando determinar diferencial o espec´ıficamente la fiebre del dengue, es especial en lo que concierne al serotipo del virus, co-infecciones o infecciones primarias [112].

Adicionalmente, se ha reportado que ninguno de los m´etodos de diagn´osticomolecular per- mite identificar y diferenciar los tres estados de severidad de la infecci´ondel DENV, definidos por la organizaci´onmundial de la salud como Dengue sin signos de alarma, con signos de alarma y dengue grave [113], por lo tanto su diferenciaci´onrequiere el empleo de diferentes m´etodos de diagn´osticosimult´aneamente, lo que conlleva un incremento en los costos impi- diendo que los estudios de epidemiolog´ıade esta enfermedad se desarrollen con la resoluci´on esperada por el sistema de clasificaci´onde la OMS [114].

Recientemente, una nueva l´ıneade investigaci´oncentrada en ncRNAs ha emergido a partir del descubrimiento de peque˜nosncRNAs derivados de virus (svRNAs) cuyo funcionamiento parece ser equivalente al de los miRNAs, pero es expresado por v´ıasno can´onicas[115], de hecho algunos de los svRNAs conocidos actualmente est´ancodificados por parte de Virus de RNA(+) como el DENV, cuya regi´on5’ UTR genera el svRNA DENV–vsRNA-5, el cual es cargado dentro de prote´ınastipo Argonauta y regula el gen NS1 del mismo virus, en este caso negativamente, disminuyendo as´ıla replicaci´onviral [116]. El estudio de estas mol´eculas es prometedor dado a la importancia que presentan en la fisiopatolog´ıaviral, representando por ende un progreso hacia el desarrollo de terapias anti-virales.

Adicional al potencial uso como terapia antiviral, el descubrimiento de este fen´omeno ha 92 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs llevado a autores como Usme et al. (2013) [117] a plantear el posible uso de virus con geno- mas RNA de replicaci´oncitoplasm´atica,como el DENV, como veh´ıculos para el transporte de genes terap´euticoso para la implementaci´onde terapias g´enicasbasadas en RNA inter- efence (RNAi), mucho m´asseguras y eficientes, puesto que puede controlarse la liberaci´on de dichas secuencias pues, seg´unlos autores, se realizar´ıaespec´ıficamente en el citoplasma de la c´elulablanco.

Figura 8-1.: Dificultades del diagn´osticodiferencial del s´ındromefebril hemorr´agi- co agudo: A pesar de la gran diversidad de s´ıntomas, realizar un diagn´ostico especifico de cada s´ındromeno es posible sin emplear pruebas adicionales, en la imagen se logra reconocer que la mayor´ıade s´ıntomas ocurren de manera inespec´ıfica.Ilustrador Giovanni Sanabria Merch´an 8.2 Metodolog´ıa 93

En ´ultimo lugar, aunque el conocimiento de la biolog´ıamolecular del ciclo infectivo del DENV ha progresado bastante, a´un´estese centra exclusivamente en estudios de RNA codificantes y ncRNAs de tipo miRNA. Por lo que la investigaci´onasociada al fen´omenode fragmentaci´on funcional de ncRNAs como respuesta del hu´esped ante la infecci´ondel DENV, aparte de ser pionera en el ´area,representa un avance significativo en la determinaci´onde factores relacionados a la patogenicidad viral, potencialmente capaces de modular la expresi´onde genes implicados en los procesos celulares de defensa anti-viral, o involucrados con la maqui- naria de regulaci´onpos-transcricipcional mediada por la maquinaria celular de interferencia de RNA. Dado el reciente descubrimiento de las mol´eculasde sfd-RNAs y la dificultad del an´alisiscomputacional de estos genes, a´unno existen herramientas asociadas a su anota- ci´onfuncional, de all´ıque, a nivel de su caracterizaci´on como potenciales biomarcadores, la presente aproximaci´onllega a sugerir mol´eculasrelativamente f´acilesde detectar con meto- dolog´ıasexperimentales, que podr´ıanfacilitar la discriminaci´ondel tipo de s´ındromefebril. En cambio a estas mol´eculas,el presente estudio representa la primera incursi´onen la detec- ci´onde miRNAs en el sistema de infecci´onVirus Dengue-Endotelio micro-vascular. Gracias a las diferentes herramientas disponibles para la anotaci´onfuncional de miRNAs, la carac- terizaci´onfuncional del conjunto de miRNAs identificados bajo expresi´ondiferencial, y por ende candidatos a diagn´osticomolecular, permitir´agenerar hip´otesisconcretas en torno a la explicaci´ondel desarrollo de la desestabilizaci´ondel endotelio, cuya manifestaci´oncl´ınicaes el choque hemorr´agico;t´ıpico de los estadios m´asseveros del Dengue.

8.2. Metodolog´ıa

Miner´ıade datos de miRNAs previamente reportados en el contexto de la infecci´ondel virus Dengue Con el fin de encontrar en literatura los miRNAs asociados con la infecci´ondel virus Dengue en humanos se emplearon dos estrategias de b´usquedacomplementarias, por una parte se emplearon las bases de datos y NCBI con la siguiente expresi´onde b´usqueda:

”((DENV OR Dengue) AND (miR OR mir OR miRNA) AND (Human)”

Se tomaron en cuenta tanto miRNAs predichos por metodolog´ıascomputacionales, validados experimentalmente y asociados conceptualmente como factores explicativos de la fisiopato- log´ıadel virus. De manera complementar´ıase emple´ola herramienta web miRpub [118], enriqueciendo el material bibliogr´aficopara la b´usqueda de la relaci´onDENV - miRNA, jun- to con otras enfermedades relacionadas con el miRNA DE, en caso de que este no se hubiese asociado por aproximaciones previas a al s´ındromefebril por virus Dengue. Igualmente se emple´ola informaci´onprovista por dicho servidor incluso en caso de que no existan registro 94 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs que asocien el virus con el miRNA empleando como t´ermino de b´usqueda,esto con el fin de asociar el miRNA detectado con el tipo de tejido donde se expresa.

B´usquedade genes blanco de los miRNAs predichos A la fecha, a´unse desconocen los mecanismos de acci´onde los sfd-RNAs, de tal manera que la caracterizaci´onfuncional por m´etodos computacionales de los sfd-RNAs detectados previamente a´unest´aen un estado incipiente [38]. Por este motivo, para el presente an´alisis se realiz´oun ´enfasisen el rol funcional de los candidatos biomarcadores de tipo miRNA, en especial en el experimento de secuenciamiento de las l´ıneascelulares del endotelio micro- vascular humano (HMEC), ya que este tipo de c´elulapermite, por una parte , vincular los miRNAs detectados con las rutas moleculares involucradas en la desestabilizaci´ondel endo- telio t´ıpicade la fiebre del Dengue severa. No obstante, por otro lado, dado a que son c´elulas pobremente infectadas por el virus Dengue en condiciones in vitro [119], deben emplearse grandes titulaciones virales. Adem´asse ha reportado que la infecci´ondel virus Dengue indu- ce la desregulaci´onde la maquinaria de RNAi, mediado por la prote´ınaviral no estructural NS4B [120]. Tomando estas restricciones en conjunto, para detectar los principales miRNAs involucrados en la desestabilziaci´ondel endotelio primero se emple´ouna multiplicidad de la infecci´onviral (MOI) elevada, es decir un proporci´onde virus infectivos altos por c´elula infectada, pero tambi´ense reduj´ola astringencia de los filtros computacionales, clasificando los miRNAs encontrados en dos subgrupos: miRNAs top y miRNAs sub-´optimos,seg´unse el valor de la tasa de descubrimiento de falsos positivos (FDR), y el valor de cambio de expresi´ono fold change, aquellos miRNAs con un FDR menor a 0.05 y un fold change menor a -1, o mayor a 1, se consideraron como top; mientras que aquellos que presentaban un valor de FDR menor a 0.1 pero con valores de expresi´onmayores a 0.59 o menores a -0.59 se consideraron como sub-´optimos.

Empleando los dos grupos de miRNAs expresados diferencialmente se realiz´ola caracte- rizaci´onfuncional de los mismos, a partir de la b´usquedade reportes de interacci´onmiRNA- mRNA, experimentalmente validados en la base de datos miRWalk [121].

Determinaci´onde los t´erminosde ontolog´ıaasociados a los genes blanco identificados Una vez hallados los genes blancos de los miRNAs con ED se eval´uoel efecto sist´emico de la totalidad de los genes regulados por estos miRNAs, generando redes de interacci´on g´enicaempleando las herramientas ClueGo y Cluepedia de la suite de an´alisisde biolog´ıade sistemas Cytoscape 3.2.0 [122], para obtener solo el conjunto de genes mayormente asociados a los miRNAs detectados se filtraron de la red aquellos genes que no superaran los siguientes 8.2 Metodolog´ıa 95

filtros para los par´ametrosde significancia 0.01 y m´ınimoun total de 30 genes por categor´ıa funcional como valor de filtro, aplicando para ello el test de m´ultipleajuste - Benjamini Hochberg (BH). Se realiz´oposteriormente un an´alisisde anotaci´ona nivel de red, o de enriquecimiento funcional, que consiste en asociar a la red t´erminosfuncionales emergentes como los componentes celulares donde se ejecuta la totalidad del proceso biol´ogicoo el efecto sobre redes relacionadas, para ello se emple´otambi´enla funci´onde enrichment analysis de la suite Cytoscape 3.2.0 [122]. En resumen la metodolog´ıapara la caracterizaci´onde los miRNAs candidatos de biomarcadores se representa en la figura 8-2.

Figura 8-2.: Estrategia de identificaci´onde genes blanco y b´usquedade los t´ermi- nos de ontolog´ıa. En la parte superior se ilustra la metodolog´ıaempleada para asignar la posible funci´onde los miRNAs predichos. La parte inferior de la imagen ilustra la metodo- log´ıade miner´ıade datos para recuperar los miRNAs asociados a infecci´ondel virus Dengue. 96 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

8.3. Resultados y Discusi´on miRNAs candidatos a biomarcadores de desestabilizaci´ondel endotelio microvascular

Al centrar los an´alisissubsecuentes exclusivamente en las lecturas derivadas del secuen- ciamiento de miRNAs se hall´oun n´umeroreducido de loci diferencialmente expresados, a diferencia del an´alisisglobal de sncRNAs, lo que sugiere que el an´alisisglobal de la totalidad de sncRNAs involucrados en el silenciamiento mediado por RNAi son estad´ısticay biol´ogi- camente m´asapropiados. Encontrando un menor n´umerode miRNAs DE a las 3 y 48 horas post-infecci´on,lo cual sugiere que a estas horas el efecto de la infecci´ones reducido, pues coinciden temporalmente con el ingreso y liberaci´ondel virus [123]. De hecho, en los an´alisis de agrupamiento jer´arquicono supervisado y el mapa de calor de expresi´onde miRNA por librer´ıase observa que solo las bibliotecas de las 3 y 24 horas son diferentes a las bibliotecas sin infecci´on 8-3:

Figura 8-3.: Agrupamiento jer´arquicoa nivel de tratamiento de las bibliotecas de HEMC al analizar exclusivamente la expresi´onde miRNAs tops En el dendograma logra observarse que las ´unicasmuestras infectadas con DENV diferentes a la condici´on control son las bibliotecas de 3 y 24 hpi. El mapa de calor, muestra que el patr´onde expresi´on de los miRNAs involucrados en la separaci´onde estas bibliotecas es la sobre-expresi´ondel miRNA-27a-5p y la supresi´ondel miRNA-4498 8.3 Resultados y Discusi´on 97

El bajo nivel de agrupamiento para las bibliotecas derivadas de las c´elulasendoteliales con infecci´ondel DENV coincide con el hecho de que la mayor´ıade miRNAs DE no fueron ha- llados para contrastes por hora; sino que por contrastes din´amicos,es decir entre diferentes horas, como se ilustra para los top miRNAs en la tabla 8-1 o los miRNAs sub-´optimosen la tabla 8-2. De all´ıque la mejor representaci´onpara los miRNAs que presentan no una tasa de expresi´ondiferente para una hora; sino que, m´asbien una din´amicade expresi´ondiferente, no sea los mapas de calor, sino los gr´aficosde cambio de expresi´onpor hora, como se ilustra en la figura 8-4.

En la representaci´on de la expresi´on del miRNA por hora y por tratamiento se logra apre- ciar que algunos miRNAs pueden clasificarse como miRNAs de respuesta temprana ante la infecci´ondel DENV, es decir ante el ingres´odel virus aumentan su expresi´onen las primeras horas, como el miRNA 27a-5p, 221-3p, 409-3p y 24-39, junto con el cambio en la din´amica de expresi´ondel miRNA let-7d durante la internalizaci´ondel virus [123].

Tabla 8-1.: Resumen de las estad´ısticasde los 6 miRNAs-top expresados diferen- cialmente en HMEC infectado con DENV2 Top 6 miRNAs expresados diferencialmente en c´elulas HMECK micro-vasculares infectadas con DENV2. Se ilustran todos los contrastes para los que se hall´oexpresi´ondiferencial por miRNA miRNA C FC CPM LR PV FDR Aligner RA NM RN (hpi) hsa-miR- 3 0.59 9.56 13.46 0.0002 0.06 BWA 1 TMM 0.75 27a-5p hsa-miR- 24vs3 -1.06 9.51 18.62 2e-05 0.004 Segemehl 1 UPQ 0.75 27a-5p hsa-miR- 24vs3 1.06 7.11 12.71 0.0004 0.07 BWA 0.75 CPM 1 485-3p hsa-miR- 24vs3 0.90 9.26 12.56 0.0004 0.09 Bowtie2 0.75 CPM 0.5 98-5p hsa-let-7d- 12vs3 0.60 11.47 23.67 1e-06 0.0001 Bowtie 0.25 TMM 0.25 5p hsa-miR- 24 -0.98 9.90 16.83 4e-05 0.008 Bowtie 0.25 RLE 0.5 320e hsa-miR- 48vs24 1.10 9.90 10.63 0.001 0.1 Bowtie 0.25 RLE 0.5 320e 3p hsa- 24 -3.00 7.17 13.41 0.0003 0.02 Bowtie 0.25 RLE 1 miR-4498 hsa-miR- 48vs24 3.52 7.24 9.02 0.003 0.1 Bowtie 0.25 CPM 1 4498 98 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Tabla 8-2.: Resumen de las estad´ısticasde los miRNAs sub-´optimosexpresados diferencialmente en HMEC infectado con DENV2 Como logra apreciarse para los valores de FDR, los miRNAs sub-optimos presentan valores inferiores incluso al 0.01, no obstante sus valores de FDR son bastante bajos, en la tabla s´olo se ilustran los contrastes por hora, m´asno los contrastes din´amicos miRNA C FC CPM LR PV FDR Aligner RA NM RN (hpi) hsa-miR- 12 -0.22 10.72 111.60 4e-26 9e-24 Bowtie 0.25 CPM 0.25 125b-5p hsa-miR- 24 -0.11 10.72 27.05 2e-07 1e-05 Bowtie 0.25 CPM 0.25 125b-5p hsa-miR- 48 0.11 10.72 16.48 5e-05 0.007 Bowtie 0.25 CPM 0.25 125b-5p hsa-miR- 12 0.35 11.45 22.19 2e-06 0.0005 Bowtie 0.25 TMM 0.25 155-5p hsa-miR- 3 -0.19 11.13 109.45 1e-25 6e-23 Bowtie 0.25 CPM 0.25 221-3p hsa-miR- 24 0.24 11.13 168.33 2e-38 2e-36 Bowtie 0.25 CPM 0.25 221-3p hsa-miR- 48 -0.12 11.13 24.35 8e-07 0.0002 Bowtie 0.25 CPM 0.25 221-3p hsa-miR- 3 -0.05 12.25 17.85 2e-05 0.009 Bowtie 0.25 CPM 0.25 24-3p hsa-miR- 12 -0.05 12.25 17.08 4e-05 0.01 Bowtie 0.25 CPM 0.25 24-3p hsa-miR- 24 -0.24 12.25 431.50 8e-96 3e-93 Bowtie 0.25 CPM 0.25 24-3p hsa-miR- 24 -0.39 10.33 45.10 2e-11 8e-09 Bowtie 0.25 TMM 0.5 378a-3p hsa-miR- 3 -0.17 11.11 92.00 9e-22 9e-20 Bowtie 0.25 CPM 0.25 409-3p hsa-miR- 12 0.19 11.11 121.43 3e-28 1e-25 Bowtie 0.25 CPM 0.25 409-3p hsa-miR- 24 0.10 11.11 38.47 6e-10 5e-08 Bowtie 0.25 CPM 0.25 409-3p hsa-miR- 48 -0.09 11.11 14.27 0.0002 0.02 Bowtie 0.25 CPM 0.25 409-3p hsa-miR- 24 0.49 9.95 13.52 0.0002 0.02 Bowtie 0.25 RLE 0.25 92b-3p 8.3 Resultados y Discusi´on 99

Figura 8-4.: Expresi´onde miRNAs top (superior= y suboptimos (inferior) a las diferentes horas post infecci´onevaluadas: Cambio de la expresi´onde los miRNAs en funci´ondel tiempo y tratamiento, se ilustran los diferentes contrastes por hora y din´amicos (para los que se emplea el s´ımbolo δ) que presentan expresi´ondiferencial, donde “. es un valor p de < 0,1, “* < 0,05, “** < 0,005, “*** < 0,01 100 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

El procedimiento de asociar cada miRNA DE con la etapa del ciclo de infecci´ondel virus es posible gracias al dise˜noexperimental aplicado, junto con el empleo de an´alisisde contrastes din´amicos,adicionales a los contrastes convencionales, en el an´alisisde expresi´ondiferencial. En la figura 8-6 se ilustra la asociaci´onhora por hora de cada miRNA con el proceso de infecci´onviral. miRNAs con reporte de expresi´onante la infecci´ondel virus Dengue

Se encontraron un total de 10 miRNAs previamente asociados a la infecci´ondel virus del Dengue, sin embargo ninguno de estos miRNAs se hab´ıaevidenciado como expresado dife- rencialmente en endotelio microvascular, exceptuando los miRNAs 221, 125b y 155, de los cuales aunque no se tenia evidencia experimental sobre su expresi´onen endotelio. De estos, la mayor´ıatiene funciones relacionadas a la alteraci´ondel endotelial microvascular, como la angiog´enesistumoral [124], que a nivel molecular pueden estar present´andoseen el choque hemorr´agicoobservado en el s´ındrome febril de dengue severo. En resumen en la tabla 8-3, puede observarse los resultados de la b´usquedade coincidencia de los miRNAs detectados en l presente aproximaci´onfrente a reportes bibliogr´aficosprevios.

Tabla 8-3.: miRNAs diferencialmente expresados asociados previamente a la in- fecci´ondel virus Dengue. Principales miRNAs hallados en el an´alisisde expresi´ondife- rencial y reportados previamente en un contexto de infecci´onpor el virus Dengue. Algunos miRNAs solamente hab´ıansido predichos en funci´onde su funci´onen el contexto de dis- funci´onendotelial, el presente proyecto representar´ıael primer reporte efectivo de dichos miRNAs miRNA Sistema Biol´ogico Patr´onde Regulaci´on Referencia miR-221 Predicho te´oricamente Regulaci´on- [125] miR-27a Pacientes Regulaci´on- [126] miR-24 Pacientes Regulaci´on- [47] miR-409 Pacientes Regulaci´on- [127] miR-125b Predicho te´oricamente Regulaci´on- [124] miR-155 Fibroblastos embrionarios murinos (MEF) Regulaci´on+ [125] Predicho te´oricamente Regulaci´on+ [124] miR-378a Pacientes Regulaci´on- [126] Celulas mononucleares de sangre perif´erica [128] miR-320* Celulas mononucleares de sangre perif´erica Regulaci´on+ [128] - [47] + [127] miR-92b Huh-7 Regulaci´on+ [129] let-7d Pacientes Regulaci´on+ [127] 8.3 Resultados y Discusi´on 101

An´alisisde enriquecimiento funcional de los t´erminosde ontolog´ıa asociados a los genes blanco de los miRNAs DE

Un total de 1670 genes fueron hallados pro la metodolog´ıade predicci´onde blancos, estos genes junto con los blancos de los miRNAs expresados hallados mediante la estrategia de miner´ıade datos implementada fueron empleados para la construcci´onde redes funcionales, de donde se encontraron un total de 1070 rutas biol´ogicas.El an´alisisde enriquecimiento funcional permiti´oorganizar t´erminosde ontolog´ıasimilares y agruparlos en funciones rela- tivamente independientes, donde se encontr´oque ciertas rutas convergen hacia la regulaci´on de la migraci´oncelular, en particular hacia la regulaci´onde la locomoci´oncelular, regulaci´on del citoesqueleto y regulaci´onde la adhesi´oncelular. Otro grupo de rutas convergen hacia los procesos de desarrollo vascular como: morfog´enesisde vasos sangu´ıneosy angiogen´esis

Figura 8-5.: Funciones de los genes blancos de los miRNAs DE, agrupaci´onen funciones relacionadas a la morfog´enesisvascular En el an´alisisde ontolog´ıay enrique- cimiento funcional lograron agruparse m´asde 1670 genes en diversas categor´ıasfuncionales, las cuales se ven afectadas ante la infecci´ondel virus DENV2 102 7 Detecci´onde bloques de expresi´onde peque˜nosfragmentos derivados de ncRNAs

Modelo de des-estabilizaci´ondel endotelio microvascular mediado por miRNAs El conjunto de miRNAs predichos en el presente estudio, junto con las funciones asociadas mediante el an´alisisde redes pueden resumirse en un modelo del efecto de desestabilziaci´on de c´elulasendoteliales microvasculares (ver figura 8-6). Resulta interesante observar en el modelo presentado que la infecci´ondel virus Dengue genera regulaci´onpositiva y negativa sobre los mismos procesos a distintas horas, de tal manera que la regulaci´onde los miRNAs parece estar correlacionada con el ciclo infectivo del virus. Donde, por ejemplo a las prime- ras horas se regula positivamente la inflamaci´ony la permeabilidad celular del endotelio; no obstante se inhibe la migraci´oncelular y la actividad citot´oxica.La regulaci´onde estos proceso empieza a revertirse a las 24 horas, incluso al modificar de manera opuesta la expre- si´onde los mismos miRNAs involucrados en las primeras horas, como es el caso del miRNA hsa-miR-221.

Figura 8-6.: Modelo de des-estabilizaci´onde las c´elulasendoteliales mediado por miRNAs expresados ante la infecci´ondel virus DENV2. Modelo de regulaci´onde los miRNAs expresados diferencialmente y funci´onde los genes blanco, en lineas celulares HMECK infectadas con DENV2. EN negrilla se resaltan los miRNAs con mejores valores estad´ısticosde predicci´on. Conclusiones

Resoluci´onde ambig¨uedadesde las anotaciones de ncRNAs:

A partir de la integraci´onde las diferentes anotaciones disponibles para ncRNAs se identificaron conflictos de anotaci´onpara diversos ncRNAs tanto a nivel intra- como inter-clase, su soluci´on,encaminada a cumplir los requerimientos de los an´alisisde expresi´ondiferencial, resulta en una de las primeras propuestas de anotaci´onintegra- das ncRNAs. La fortaleza de la propuesta reside en la identificaci´ony recuperaci´onde anotaciones de especies de ncRNAs err´oneamente eliminadas, mal clasificadas o con pa- trones de expresi´oncomplejos o multifuncionales. Este avance por tanto representa un solido elemento en el estudio conceptual requerido para el estudio de la fragmentaci´on funcional de ncRNAs.

Metodolog´ıade Detecci´onde sfd-RNAs y miRNAs:

En la presente investigaci´onse gener´ouna metodolog´ıacomputacional capaz de su- perar las limitaciones computacionales asociadas a la detecci´onde bloques de expre- si´onde sfd-RNAs que presentan algunas herramientas disponibles. En este m´etodo se fundament´oen aspectos de la biolog´ıade los ncRNAs, como la presencia de m´ultiples regiones gen´omicasid´enticas, la ubicaci´onde los loci de ncRNA fuentes de sfdRNAs en clusteres organizados en el genoma conservados evolutivamente, el tama˜nopropuesto para sfdRNAs y su ubicaci´oncon respecto a las coordenadas del ncRNA fuente. Igual- mente se logr´odesarrollar un flujo de trabajo capaz de cuantificar la reproducibildiad de un an´alisisde expresi´ondiferencial al emplear diecis´eiscombinaciones de cuatro algoritmos de alineamiento y cuatro algoritmos de normalizaci´on,de tal manera que provee al investigador de un criterio adicional para la elecci´onde los genes de ncRNAs candidatos a ser validados experimentalmente.

sfd-RNAs y miRNAs asociados a disfunci´onendotelial y fiebre del Dengue:

El presente estudio representa el primer perfil de expresi´ondiferencial de los peque˜nos fragmentos derivados de ncRNAs para dos sistemas de infecci´ondel virus Dengue. Permitiendo avanzar tanto en el conocimiento de la fisiopatolog´ıamolecular del virus del dengue, al estudiar un sistema in vitro de infecci´onen endotelio microvascular, el cual nos permiti´oproponer una serie de miRNAs candidatos a explicar la disfun- ci´onendotelial tipifica de la fiebre del Dengue Severa. Como tambi´enavanzar en la b´usquedade biomarcadores en sangre de s´ındromes febriles dif´ıcilesde diagnosticar diferencialmente. Productos asociados

Participaci´oncomo ponente en eventos acad´emicos Primer Simposio Nacional de Investigaci´onen Dengue Junio 12 del 2017 Universidad del Quindio, Armenia Producto Ponencia oral titulada “Detecci´onautomatizada por m´ultiplesestrategias de miRNA expresados diferencial- mente en c´elulasendoteliales microvasculares infectadas por el virus dengue 2. Autores: Aimer A Guti´errez-D´ıaz; Steve Hoffmann; Clara Isabel Berm´udez- Santana

V Congreso Colombiano de Biolog´ıaComputacional y Bioinform´aticay VIII Conferencia Iberoamericana de Bioinform´atica. Septiembre del 13 al 15 del 2017 Santiago de Cali Producto Ponencia oral titulada “A pipeline to increase the reproducibility of differential expression analysis in miRNA and small fragments derived from ncRNAs Autores: ; Aimer A Guti´errez-D´ıaz; Steve Hoffmann; Diego A Alvarez-D´ıaz; Juan Carlos Gallego-G´omez; Clara Isabel Berm´udez-Santana Anexos

Requerimientos especiales a la hora de cortar adaptadores en bibliotecas derivadas del secuenciamiento de sncRNA Diversos programas dise˜nadospara cortar adaptadores de lecturas generadas del secuencia- miento de mRNAs presentan dos problem´aticasrelacionadas con el hecho de que la longi- tud del secuenciamiento de lecturas derivadas de sncRNAs es mayor que la longitud de la mol´eculamisma, lo cual lleva generalmente a secuenciar de manera m´asfrecuente que en los experimentos de mRNAs adaptadores 3’ [81]. El principal problema que deriva de este aspecto es que, dado el tama˜nom´ınimode secuenciamiento por Illumina, 50nt , la fracci´on del adaptador que se alcanza a secuenciar es muy variable, pero por lo general para el caso de sncRNA se detectan variaciones entre 6 a 30 nucleotidos del adaptador. La mayor´ıade programas de corte de adaptadores recomiendan emplear valores m´ınimosde corte cercanos a los 15 nucleotidos, dado a que, a valores inferiores la sensibilidad, o el valor de falsos ne- gativos, incrementa dr´asticamente.

Dada la naturaleza de los sncRNA, durante el secuenciamiento es muy probable obtener secuencias adaptadoras de tama˜nosvariables, con el fin de ilustrar el comportamiento de estos adaptadores se emplean dos secuencias reales pertenecientes a una de las bibliotecas empleadas en la presente tesis, adicionalmente se emplea el adaptador que ha sido utilizado para el secuenciamiento de las bibliotecas de lineas celulares provisto por el proveedor:

Lectura AAGCTGCCAGTTGAAGAACTGTGAAGAGCACACGTCTGAACTCCAGTCAC Adaptador 1 AGATCGGAAGAGCACACGTCTGAACTCC Lectura posterior AAGCTGCCAGTTGAAG al corte Adaptador 2 GAAGAGCACACGTCTGAACTCC Lectura posterior AAGCTGCCAGTTGAAGAACTGT al corte hsa-miR-22-3p AAGCTGCCAGTTGAAGAACTGT

Dado a la variabilidad de tama˜nosde secuencias adaptadoras, el programa cortador de adaptadores Trimmomatic [83], dise˜nadopara el corte de adaptadores del secuenciamiento de mRNAs, se empleo para que reconociera adaptadores de tama˜no8 como m´ınimo,con los siguientes par´ametros: java −jar trimmomatic −0.36. j a r SE ILLUMINACLIP : adapter1.fa:0:x:5

0 significa que no hay tolerancia a mismatch. 106 A Anexos

x es un valor cualquiera, dado a que se emplea en la limpieza de adaptadores en bibliotecas con finales pareados, de all´ıque su valor no es importante a la hora de la limpieza de adaptadores en bibliotecas single end.

5 Puntaje m´ınimo para realizar el corte del adaptador, seg´unlas instrucciones del software [83], cada match en el alineamiento adaptador - lectura otorga un valor de 0.6, mientras que un mismatch reduce el puntaje en funci´onde la calidad de la base en un orden de Q/10. Es decir para lecturas en Phred33, una base de calidad 1, reducir´ael score en -0.1, mientras que una base de calidad 40 reducir´ael score en -0.4. De all´ıque un valor de 5 significa que se requieren m´asde 8 match para reconocer a una secuencia como adaptadora

La lectura del ejemplo consta de 51 nucleotidos, el adaptador 1 de 28 nucleotidos, la franja alineada consta de 21 nucleotidos que son a su vez los nulcleotidos del adaptador 2. Si el proceso se ejecuta con el adaptador 1 y 2, trimmomatic escoge el adaptador m´aslargo para cortar primero, de tal manera que este escenario es equivalente a escoger s´oloel adaptador 1, en este escenario, trimmomatic suma un score de 12.6 por matchs y, asumiendo que las bases involucradas en el mismatch son de calidad 40, -2.8 por mismatch, es decir dicho adaptador fue reconocido con un valor de score de 9.8. Para poder lograr cortes de adaptadores cortos, es necesario reducir el valor limite de score, lo que genera que se permitan cortes por mis- match, como se ilustra en la lectura procesada, dicho comportamiento es ejecutado incluso si la tolerancia a mismatch esta deshabilitada.

Debido a la estructura del c´odigode Trimmomatic el mejor escenario ser´ıael de emplear el adaptador 2 como primera instancia (dado a que presenta un score mayor), ya que la lec- tura estar´ıacorrectamente cortada. Como esto no es as´ı,si se empleara tan solo el adaptador 2, es posible que lecturas adicionales contengan parte del adaptador 1 que fue eliminado para mejorar la definici´ondel adaptador 2, lo que generar´ıapor ende cortes inadecuados en dichas lecturas, reduciendo la sensibilidad del an´alisis. Del ejercicio anterior se concluye que Trimmomatic, uno de los mejores adaptadores para mRNA-seq en t´erminosde alta especificidad y sensibilidad [130], presenta dificultades a la hora de detectar y cortar adaptadores cortos, debido a que prioriza los adaptadores largos, esto combinado con el sistema de puntaje para alineamientos, lleva a que, para reconocer adaptadores peque˜nosse empleen bajos puntajes, generando cortes de secuencias de inter´es biol´ogico,para el caso de la lectura ejemplificada, si su corte se realiza de manera optima, dicha lectura solo presenta un ´unicoorigen en el genoma, la lectura mal procesada, al ser de menor longitud, se encuentra en dos sitios diferentes. De all´ıque introduce una fuente de error adicional, el mejor caso es que se aumente la ambig¨uedadde los sitios de origen, el peor escenario es que se deba descartar la lectura por su reducido tama˜no. 107

Integraci´onde anotaciones

Tabla A-1.: Conflicto de anotaciones por solapamiento de tRNAs y piRNAs -Lista completa- tRNA Genomic coordi- Sense piRNA Genomic coordi- Sense Overlap nate nate tRNA- chrX:3833271- - piR-hsa-28184 chrX:3833313- - 31 IleGAT 3833344 3833344 tRNA- chr8:96281885- - piR-hsa-28590 chr8:96281935- - 31 SerAGA 96281966 96281966 tRNA- chr8:124169470- - piR-hsa-32492 chr8:124169466- - 26 MetCAT 124169542 124169492 tRNA- chr8:67026424- + piR-hsa-28390 chr8:67026423- + 30 AlaAGC 67026496 67026453 tRNA- chr8:67026223- + piR-hsa-6840 chr8:67026276- + 30 TyrGTA 67026311 67026306 tRNA- chr6:28909378- - piR-hsa-28527 chr6:28909420- - 29 GlnCTG 28909449 28909449 tRNA- chr6:28763741- - piR-hsa-28421 chr6:28763780- - 31 AlaAGC 28763812 28763811 tRNA- chr6:28831462- - piR-hsa-28419 chr6:28831501- - 31 AlaAGC 28831533 28831532 tRNA- chr6:28726141- - piR-hsa-11256 chr6:28726146- - 26 AlaTGC 28726212 28726172 tRNA- chr6:28710729- - piR-hsa-12423 chr6:28710730- - 32 ArgCCG 28710801 28710762 tRNA- chr6:28626014- - piR-hsa-28374 chr6:28626054- - 31 AlaAGC 28626085 28626085 tRNA- chr6:28565117- - piR-hsa-26593 chr6:28565166- - 32 SerGCT 28565198 28565198 tRNA- chr6:27870686- - piR-hsa-28322 chr6:27870685- - 32 GlyGCC 27870756 27870717 tRNA- chr6:27870271- - piR-hsa-23679 chr6:27870289- - 32 MetCAT 27870342 27870321 tRNA- chr6:27759135- - piR-hsa-28175 chr6:27759179- - 27 GlnCTG 27759206 27759206 108 A Anexos tRNA- chr6:27721179- - piR-hsa-6144 chr6:27721218- - 30 ValAAC 27721251 27721248 tRNA- chr6:27638344- - piR-hsa-5067 chr6:27638342- - 27 ArgACG 27638416 27638369 tRNA- chr6:27559593- - piR-hsa-26947 chr6:27559595- - 29 LysTTT 27559665 27559624 tRNA- chr6:27302769- - piR-hsa-27140 chr6:27302809- - 32 LysTTT 27302841 27302841 tRNA- chr6:27205350- - piR-hsa-23566 chr6:27205347- - 28 IleAAT 27205423 27205375 tRNA- chr6:27198334- - piR-hsa-17138 chr6:27198343- - 30 LeuTAA 27198416 27198373 tRNA- chr6:26745255- - piR-hsa-28186 chr6:26745302- - 26 IleAAT 26745328 26745328 tRNA- chr6:126101393- - piR-hsa-24672 chr6:126101434- - 31 GluCTC 126101464 126101465 tRNA- chr6:28849165- + piR-hsa-17520 chr6:28849179- + 29 ArgCCG 28849237 28849208 tRNA- chr6:28697092- + piR-hsa-28402 chr6:28697091- + 29 AlaCGC 28697163 28697120 tRNA- chr6:28180815- + piR-hsa-26589 chr6:28180814- + 30 SerGCT 28180896 28180844 tRNA- chr6:27745664- + piR-hsa-13893 chr6:27745663- + 29 MetCAT 27745735 27745692 tRNA- chr6:27636362- + piR-hsa-27513 chr6:27636401- + 31 IleAAT 27636435 27636432 tRNA- chr6:27513468- + piR-hsa-32170 chr6:27513467- + 29 SerTGA 27513549 27513496 tRNA- chr6:27470818- + piR-hsa-21126 chr6:27470816- + 26 SerAGA 27470899 27470842 tRNA- chr6:26780832- + piR-hsa-28185 chr6:26780831- + 26 IleAAT 26780905 26780857 tRNA- chr6:26577332- + piR-hsa-7238 chr6:26577393- + 28 TyrGTA 26577420 26577421 tRNA- chr6:26575798- + piR-hsa-4945 chr6:26575852- + 31 TyrGTA 26575887 26575883 tRNA- chr6:26556774- + piR-hsa-1242 chr6:26556772- + 31 LysCTT 26556846 26556803 109 tRNA- chr6:26538282- + piR-hsa-24683 chr6:26538283- + 30 ValCAC 26538354 26538313 tRNA- chr6:26537726- + piR-hsa-3616 chr6:26537763- + 28 ArgACG 26537798 26537791 tRNA- chr5:180649395- - piR-hsa-6145 chr5:180649432- - 32 ValCAC 180649467 180649464 tRNA- chr5:180648979- - piR-hsa-31238 chr5:180649000- - 32 LysCTT 180649051 180649032 tRNA- chr5:180618687- - piR-hsa-7201 chr5:180618686- - 27 ThrTGT 180618758 180618713 tRNA- chr5:180615416- - piR-hsa-23655 chr5:180615455- - 28 ValAAC 180615488 180615483 tRNA- chr5:180634755- + piR-hsa-27619 chr5:180634754- + 29 LysCTT 180634827 180634783 tRNA- chr4:124430005- - piR-hsa-28394 chr4:124430046- - 30 CysGCA 124430076 124430076 tRNA- chr3:131947944- - piR-hsa-28400 chr3:131947985- - 30 CysGCA 131948015 131948015 tRNA- chr19:1383562- + piR-hsa-23621 chr19:1383590- + 26 AsnGTT 1383635 1383616 tRNA- chr17:8130309- - piR-hsa-29114 chr17:8130315- - 31 IleAAT 8130382 8130346 tRNA- chr17:36908034- - piR-hsa-28839 chr17:36908043- - 30 AsnGTT 36908107 36908073 tRNA- chr17:8029064- + piR-hsa-12790 chr17:8029064- + 29 GlyGCC 8029134 8029093 tRNA- chr17:37023898- + piR-hsa-28396 chr17:37023897- + 28 CysGCA 37023969 37023925 tRNA- chr16:87417628- - piR-hsa-23670 chr16:87417626- - 27 MetCAT 87417700 87417653 tRNA- chr16:70812114- - piR-hsa-25783 chr16:70812149- - 32 GlyGCC 70812184 70812181 tRNA- chr16:3207406- - piR-hsa-27622 chr16:3207446- - 32 LysCTT 3207478 3207478 tRNA- chr16:70823410- + piR-hsa-26508 chr16:70823408- + 28 GlyGCC 70823480 70823436 tRNA- chr16:70822597- + piR-hsa-1207 chr16:70822595- + 31 GlyGCC 70822667 70822626 110 A Anexos tRNA- chr16:3222049- + piR-hsa-1593 chr16:3222047- + 30 ProCGG 3222120 3222077 tRNA- chr15:45492611- - piR-hsa-7193 chr15:45492653- - 31 HisGTG 45492682 45492684 tRNA- chr15:80036997- + piR-hsa-28395 chr15:80036996- + 27 CysGCA 80037069 80037023 tRNA- chr14:74055529- - piR-hsa-8031 chr14:74055535- - 28 LysTTT 74055601 74055563 tRNA- chr14:21131351- - piR-hsa-4947 chr14:21131353- - 32 TyrGTA 21131444 21131385 tRNA- chr14:21093529- + piR-hsa-28467 chr14:21093528- + 26 LeuTAG 21093610 21093554 tRNA- chr13:95201904- - piR-hsa-5939 chr13:95201901- - 29 PheGAA 95201976 95201930 tRNA- chr11:75946869- - piR-hsa-28223 chr11:75946910- - 30 ProTGG 75946940 75946940 tRNA- chr11:122430655- + piR-hsa-27133 chr11:122430654- + 29 LysTTT 122430727 122430683 tRNA- chr1:16872434- - piR-hsa-20757 chr1:16872470- - 27 GlyCCC 16872504 16872497 tRNA- chr1:161439189- - piR-hsa-23289 chr1:161439231- - 28 GluCTC 161439260 161439259 tRNA- chr1:94313129- + piR-hsa-31280 chr1:94313163- + 27 ArgTCT 94313213 94313190 tRNA- chr1:17216172- + piR-hsa-22380 chr1:17216204- + 27 AsnGTT 17216245 17216231 tRNA- chr1:147505038- + piR-hsa-6118 chr1:147505016- + 27 GlnCTG 147505109 147505043 tRNA- chr7:139025446- + piR-hsa-426 chr7:139025481- + 31 ArgCCT 139025518 139025512 tRNA- chr6:27271568- - piR-hsa-28116 chr6:27271607- - 32 ThrCGT 27271639 27271639 111

Tabla A-2.: Conflicto de anotaciones por solapamiento de snoRNA y piRNAs -Lista completa- snoRNA Genomic coordi- Sense piRNA Genomic coordi- Sense Overlap nate nate SNORA63chr7:64791632- + piR-hsa-5301 chr7:64791719- - 30 64791729 64791749 SNORA64chrX:114779969- + piR-hsa-19303 chrX:114779950- + 30 114780049 114779980 HBII- chr10:70514928- + piR-hsa-317 chr10:70514963- + 30 419 70514995 70514993 ACA54 chr11:2985000- - piR-hsa-26803 chr11:2985097- - 26 2985123 2985123 HBII- chr11:46783938- - piR-hsa-26758 chr11:46784020- - 26 166 46784049 46784046 ACA42 chr1:155889699- - piR-hsa-26819 chr1:155889807- - 31 155889833 155889838 U15A chr11:75111434- + piR-hsa-24775 chr11:75111435- + 30 75111582 75111465 ACA3 chr11:8705773- + piR-hsa-1359 chr11:8705773- + 32 8705903 8705805 mgh28S- chr11:93464668- - piR-hsa-1338 chr11:93464671- - 30 2411 93464739 93464701 ACA61 chr1:28906275- - piR-hsa-28593 chr1:28906275- - 32 28906405 28906307 U103 chr1:31408532- - piR-hsa-17804 chr1:31408588- - 30 31408623 31408618 HBII- chr1:31441009- - piR-hsa-28846 chr1:31441012- - 30 251 31441084 31441042 ACA31 chr13:45911614- - piR-hsa-24000 chr13:45911716- - 28 45911744 45911744 14q(0) chr14:101364256- + piR-hsa-26523 chr14:101364258- + 27 101364333 101364285 14q(I-3) chr14:101396255- + piR-hsa-26529 chr14:101396257- + 30 101396326 101396287 14q(I-8) chr14:101409787- + piR-hsa-30292 chr14:101409789- + 27 101409860 101409816 112 A Anexos

14q(I-9) chr14:101411985- + piR-hsa-1861 chr14:101411988- + 27 101412056 101412015 14q(II- chr14:101416169- + piR-hsa-26570 chr14:101416171- + 31 1) 101416240 101416202 14q(II- chr14:101419685- + piR-hsa-26522 chr14:101419687- + 31 3) 101419759 101419718 14q(II- chr14:101449262- + piR-hsa-27065 chr14:101449264- + 31 22) 101449333 101449295 14q(II- chr14:101450212- + piR-hsa-26441 chr14:101450249- + 30 23) 101450283 101450279 ACA28 chr14:103804185- + piR-hsa-32204 chr14:103804181- + 27 103804311 103804208 mgU6- chr14:21860309- - piR-hsa-23293 chr14:21860381- - 30 53B 21860412 21860411 mgU6- chr14:21865451- - piR-hsa-5370 chr14:21865529- - 31 53 21865560 21865560 U38B chr1:45244061- + piR-hsa-1742 chr1:45244099- + 28 45244130 45244127 HBII- chr15:25227140- + piR-hsa-28851 chr15:25227141- + 30 436 25227215 25227171 HBII- chr15:25325287- + piR-hsa-11374 chr15:25325372- + 27 85-14 25325381 25325399 HBII- chr15:25333949- + piR-hsa-14029 chr15:25333928- + 29 85-21 25334043 25333957 U16 chr15:66795148- - piR-hsa-26371 chr15:66795149- - 28 66795249 66795177 HBII- chr16:71792304- - piR-hsa-32163 chr16:71792311- - 28 239 71792390 71792339 HBII- chr16:89627837- + piR-hsa-1361 chr16:89627858- + 26 202 89627909 89627884 U49A chr17:16343349- + piR-hsa-1834 chr17:16343390- + 30 16343420 16343420 HBII- chr17:2233572- - piR-hsa-23821 chr17:2233580- - 32 296A 2233664 2233612 U42B chr17:27047567- + piR-hsa-963 chr17:27047600- + 31 27047634 27047631 mgh18S- chr17:27049599- + piR-hsa-2138 chr17:27049638- + 29 121 27049671 27049667 113

ACA21 chr17:37009115- - piR-hsa-23216 chr17:37009221- - 27 37009248 37009248 snR38B chr17:74557189- + piR-hsa-28629 chr17:74557194- + 32 74557275 74557226 snR38A chr17:74557714- + piR-hsa-1250 chr17:74557718- + 32 74557786 74557750 U58C chr18:47015613- - piR-hsa-25447 chr18:47015647- - 31 47015678 47015678 U58A chr18:47017652- - piR-hsa-23992 chr18:47017686- - 31 47017717 47017717 U58B chr18:47018033- - piR-hsa-24015 chr18:47018067- - 32 47018099 47018099 U41 chr19:12817262- - piR-hsa-28299 chr19:12817302- - 29 12817332 12817331 U34 chr19:49994163- + piR-hsa-23662 chr19:49994163- + 27 49994229 49994190 U35A chr19:49994431- + piR-hsa-28117 chr19:49994431- + 26 49994517 49994457 HBI-43 chr20:17943352- - piR-hsa-2129 chr20:17943354- - 26 17943589 17943380 HBII-55 chr20:2634857- + piR-hsa-27283 chr20:2634900- + 31 2634932 2634931 U57 chr20:2637584- + piR-hsa-17444 chr20:2637584- + 29 2637656 2637613 HBII- chr2:101889397- - piR-hsa-26872 chr2:101889481- - 27 289 101889511 101889508 U51 chr2:207026604- + piR-hsa-1823 chr2:207026644- + 30 207026674 207026674 U20 chr2:232321154- - piR-hsa-17560 chr2:232321208- - 26 232321234 232321234 Bibliograf´ıa

[1] Ester Falconer. Looking beyond the post-genomic era. Genome biology, 14(10):313, 2013.

[2] Paulo P Amaral, Marcel E Dinger, Tim R Mercer, and John S Mattick. The eukaryotic genome as an RNA machine. Science, 319(5871):1787–1789, 2008.

[3] Kevin V Morris and John S Mattick. The rise of regulatory RNA. Reviews Genetics, 15(6):423–437, 2014.

[4] Hui Zhao, Krzysztof Bojanowski, Donald E Ingber, Dipak Panigrahy, Michael S Pep- per, Roberto Montesano, Yuen Shing, et al. New role for tRNA and its fragment purified from human urinary bladder carcinoma conditioned medium: inhibition of endothelial cell growth. Journal of cellular biochemistry, 76(1):109–117, 2000.

[5] Megumi Shigematsu, Shozo Honda, and Yohei Kirino. Transfer RNA as a source of small functional RNA. Journal of molecular biology and molecular imaging, 1(2), 2014.

[6] Alex C Tuck and David Tollervey. RNA in pieces. Trends in genetics, 27(10):422–432, 2011.

[7] German Martinez, Sarah G Choudury, and R Keith Slotkin. trna-derived small rnas target transposable element transcripts. Nucleic acids research, 45(9):5142–5152, 2017.

[8] J¨urgenWittmann and Hans-Martin J¨ack. New surprises from the deep—the family of small regulatory RNAs increases. The Scientific World Journal, 10:1239–1243, 2010.

[9] Qingrong Wang, Inhan Lee, Junping Ren, Subramanian Shankar Ajay, Yong Sun Lee, and Xiaoyong Bao. Identification and functional characterization of tRNA-derived RNA fragments (tRFs) in respiratory syncytial virus infection. Molecular therapy, 21(2):368–379, 2013.

[10] Junfang Deng, Ryan N Ptashkin, Yu Chen, Zhi Cheng, Guangliang Liu, Thien Phan, Xiaoling Deng, Jiehua Zhou, Inhan Lee, Yong Sun Lee, et al. Respiratory syncytial virus utilizes a tRNA fragment to suppress antiviral responses through a novel targeting mechanism. Molecular Therapy, 23(10):1622–1629, 2015.

[11] Sara R Selitsky, Jeanette Baran-Gale, Masao Honda, Daisuke Yamane, Takahiro Ma- saki, Emily E Fannin, Bernadette Guerra, Takayoshi Shirasaki, Tetsuro Shimakami, Shuichi Kaneko, et al. Small tRNA-derived RNAs are increased and more abundant than micrornas in chronic hepatitis B and C. Scientific reports, 5, 2015. Bibliograf´ıa 115

[12] National Center for Biotechnology Information. Pubchem compound database, 2010.

[13] Catherine Jopling. Liver-specific microRNA-122: Biogenesis and function. RNA bio- logy, 9(2):137–142, 2012.

[14] Maria Angelica Cortez and George Adrian Calin. MicroRNA identification in plasma and serum: a new tool to diagnose and monitor diseases. Expert opinion on biological therapy, 9(6):703–711, 2009.

[15] Yu Li and Kris V Kowdley. MicroRNAs in common human diseases. Genomics, proteomics & bioinformatics, 10(5):246–253, 2012.

[16] Lei Zhu, Xuesha Liu, Wencheng Pu, and Yong Peng. trna-derived small non-coding rnas in human disease. Cancer letters, 2018.

[17] Samir Bhatt, Peter W Gething, Oliver J Brady, Jane P Messina, Andrew W Farlow, Catherine L Moyes, John M Drake, John S Brownstein, Anne G Hoen, Osman Sankoh, et al. The global distribution and burden of dengue. Nature, 496(7446):504, 2013.

[18] Aristeidis G Telonis, Phillipe Loher, Shozo Honda, Yi Jing, Juan Palazzo, Yohei Kirino, and Isidore Rigoutsos. Dissecting tRNA-derived fragment complexities using perso- nalized transcriptomes reveals novel fragment classes and unexpected dependencies. Oncotarget, 6(28):24797, 2015.

[19] David Langenberger, Sebastian Bartschat, Jana Hertel, Steve Hoffmann, Hakim Tafer, and Peter Stadler. MicroRNA or not MicroRNA? Advances in Bioinformatics and Computational Biology, pages 1–9, 2011.

[20] Gert Van Peer, Steve Lefever, Jasper Anckaert, Anneleen Beckers, Ali Rihani, Alan Van Goethem, Pieter-Jan Volders, Fjoralba Zeka, Mat´eOngenaert, Pieter Mestdagh, et al. mirbase tracker: keeping track of microrna annotation changes. Database, 2014:bau080, 2014.

[21] Jeremy E Wilusz. Removing roadblocks to deep sequencing of modified rnas. Nature methods, 12(9):821, 2015.

[22] Mridusmita Saikia and Maria Hatzoglou. The many virtues of trna-derived stress- induced rnas (tirnas): discovering novel mechanisms of stress response and effect on human health. Journal of Biological Chemistry, 290(50):29761–29768, 2015.

[23] Michael B Clark, Paulo P Amaral, Felix J Schlesinger, Marcel E Dinger, Ryan J Taft, John L Rinn, Chris P Ponting, Peter F Stadler, Kevin V Morris, Antonin Morillon, et al. The reality of pervasive transcription. PLoS biology, 9(7):e1000625, 2011. 116 Bibliograf´ıa

[24] Harm van Bakel, Corey Nislow, Benjamin J Blencowe, and Timothy R Hughes. Most “dark matter” transcripts are associated with known genes. PLoS biology, 8(5):e1000371, 2010.

[25] Gon¸caloCastelo-Branco, Paulo P Amaral, P¨arG Engstr¨om,Samuel C Robson, Sueli C Marques, Paul Bertone, and Tony Kouzarides. The non-coding snRNA 7SK controls transcriptional termination, poising, and bidirectionality in embryonic stem cells. Ge- nome biology, 14(9):R98, 2013.

[26] Gustavo Caetano-Anoll´es. Evolutionary Genomics and Systems Biology. John Wiley & Sons, 2011.

[27] Irena Godnic, Minja Zorc, Dasa Jevsinek Skok, George Adrian Calin, Simon Horvat, Peter Dovc, Milena Kovac, and Tanja Kunej. Genome-wide and species-wide in silico screening for intragenic micrornas in human, mouse and chicken. PloS one, 8(6):e65165, 2013.

[28] Christopher R Sibley, Lorea Blazquez, and Jernej Ule. Lessons from non-canonical splicing. Nature Reviews Genetics, 17(7):407, 2016.

[29] Marike Visser, Anelda P Van der Walt, Hans J Maree, D Jasper G Rees, and Johan T Burger. Extending the srnaome of apple by next-generation sequencing. PLoS one, 9(4):e95782, 2014.

[30] Marc Parisien, Xiaoyun Wang, and Tao Pan. Diversity of human trna genes from the 1000-genomes project. RNA biology, 10(12):1853–1867, 2013.

[31] Cyrille Megel, Geoffrey Morelle, St´ephanieLalande, Anne-Marie Duchˆene,Ian Small, and Laurence Mar´echal-Drouard. Surveillance and cleavage of eukaryotic tRNAs. In- ternational journal of molecular sciences, 16(1):1873–1893, 2015.

[32] Markus Brameier, Astrid Herwig, Richard Reinhardt, Lutz Walter, and Jens Gruber. Human box C/D snornas with miRNA like functions: expanding the range of regulatory RNAs. Nucleic acids research, 39(2):675–686, 2010.

[33] Zhihua Li, Christine Ender, Gunter Meister, Patrick S Moore, Yuan Chang, and Bino John. Extensive terminal and asymmetric processing of small RNAs from rRNAs, snoRNAs, snRNAs, and tRNAs. Nucleic acids research, 40(14):6787–6799, 2012.

[34] Jessica S Reuter and David H Mathews. Rnastructure: software for rna secondary structure prediction and analysis. BMC bioinformatics, 11(1):129, 2010. Bibliograf´ıa 117

[35] Leandro Castellano, Ermanno Rizzi, Jonathan Krell, Manlio Di Cristina, Roberto Gali- zi, Ayako Mori, Janis Tam, Gianluca De Bellis, Justin Stebbing, Andrea Crisanti, et al. The germline of the mosquito produces abundant miRNAs, endo-siRNAs, piR- NAs and 29-nt small RNAs. BMC genomics, 16(1):100, 2015.

[36] Sebastian Kirchner and Zoya Ignatova. Emerging roles of tRNA in adaptive translation, signalling dynamics and disease. Nature reviews. Genetics, 16(2):98, 2015.

[37] Yong Sun Lee, Yoshiyuki Shibata, Ankit Malhotra, and Anindya Dutta. A novel class of small RNAs: tRNA-derived RNA fragments (tRFs). Genes & development, 23(22):2639–2649, 2009.

[38] Pankaj Kumar, Jordan Anaya, Suresh B Mudunuri, and Anindya Dutta. Meta-analysis of tRNA derived RNA fragments reveals that they are evolutionarily conserved and associate with AGO proteins to recognize specific RNA targets. BMC biology, 12(1):78, 2014.

[39] Chong-Jian Chen and Edith Heard. Small RNAs derived from structural non-coding RNAs. Methods, 63(1):76–84, 2013.

[40] Alexander Maxwell Burroughs, Yoshinari Ando, Michiel Laurens de Hoon, Yasuhiro Tomaru, Harukazu Suzuki, Yoshihide Hayashizaki, and Carsten Olivier Daub. Deep- sequencing of human argonaute-associated small RNAs provides insight into miRNA sorting and reveals argonaute association with RNA fragments of diverse origin. RNA biology, 8(1):158–177, 2011.

[41] David Langenberger, M Volkan Cakir, Steve Hoffmann, and Peter F Stadler. Dicer- Processed Small Rnas: Rules and Exceptions. Journal of Experimental Zoology Part B: Molecular and Developmental Evolution, 320(1):35–46, 2013.

[42] Daniel W Thomson, Katherine A Pillman, Matthew L Anderson, David M Lawrence, John Toubia, Gregory J Goodall, and Cameron P Bracken. Assessing the gene regu- latory properties of Argonaute-bound small RNAs of diverse genomic origin. Nucleic acids research, 43(1):470–481, 2014.

[43] Pankaj Kumar, Canan Kuscu, and Anindya Dutta. Biogenesis and function of transfer RNA-related fragments (tRFs). Trends in biochemical sciences, 41(8):679–689, 2016.

[44] Upasna Sharma, Colin C Conine, Jeremy M Shea, Ana Boskovic, Alan G Derr, Xin Y Bing, Clemence Belleannee, Alper Kucukural, Ryan W Serra, Fengyun Sun, et al. Biogenesis and function of trna fragments during sperm maturation and fertilization in mammals. Science, page aad6780, 2015. 118 Bibliograf´ıa

[45] Qi Chen, Menghong Yan, Zhonghong Cao, Xin Li, Yunfang Zhang, Junchao Shi, Gui- hai Feng, Hongying Peng, Xudong Zhang, Ying Zhang, et al. Sperm tsRNAs con- tribute to intergenerational inheritance of an acquired metabolic disorder. Science, 351(6271):397–400, 2016.

[46] James L Murray, Jinsong Sheng, and Donald H Rubin. A role for H/ACA and C/D small nucleolar RNAs in viral replication. Molecular biotechnology, 56(5):429–437, 2014.

[47] Paul A Tambyah, Chai S Ching, Sugunavathi Sepramaniam, Jaminah M Ali, Arunmoz- hiarasi Armugam, and Kandiah Jeyaseelan. microRNA expression in blood of dengue patients. Annals of clinical biochemistry, 53(4):466–476, 2016.

[48] Aristeidis G Telonis, Phillipe Loher, Yohei Kirino, and Isidore Rigoutsos. Consequen- tial considerations when mapping tRNA fragments. BMC bioinformatics, 17(1):123, 2016.

[49] Sara R Selitsky and Praveen Sethupathy. tDRmapper: challenges and solutions to mapping, naming, and quantifying tRNA-derived RNAs from human small RNA- sequencing data. BMC bioinformatics, 16(1):354, 2015.

[50] Ling-Ling Zheng, Wei-Lin Xu, Shun Liu, Wen-Ju Sun, Jun-Hao Li, Jie Wu, Jian- Hua Yang, and Liang-Hu Qu. trf2cancer: A web server to detect trna-derived small rna fragments (trfs) and their expression in multiple cancers. Nucleic acids research, 44(W1):W185–W193, 2016.

[51] Phillipe Loher, Aristeidis G Telonis, and Isidore Rigoutsos. Mintmap: fast and exhaus- tive profiling of nuclear and mitochondrial trna fragments from short rna-seq data. Scientific Reports, 7:41184, 2017.

[52] Aristeidis G Telonis, Phillipe Loher, Yohei Kirino, and Isidore Rigoutsos. Nuclear and mitochondrial tRNA-lookalikes in the human genome. Frontiers in genetics, 5, 2014.

[53] Nathan R Johnson, Jonathan M Yeoh, Ceyda Coruh, and Michael J Axtell. Improved placement of multi-mapping small RNAs. G3: Genes, Genomes, Genetics, 6(7):2103– 2111, 2016.

[54] Heng Li and Richard Durbin. Fast and accurate short read alignment with Burrows– Wheeler transform. Bioinformatics, 25(14):1754–1760, 2009.

[55] Ben Langmead, Cole Trapnell, Mihai Pop, and Steven L Salzberg. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology, 10(3):R25, 2009. Bibliograf´ıa 119

[56] Lorena Pantano, Xavier Estivill, and Eul`aliaMart´ı. Seqbuster, a bioinformatic tool for the processing and analysis of small RNAs datasets, reveals ubiquitous miRNA modifications in human embryonic cells. Nucleic acids research, 38(5):e34–e34, 2009.

[57] Cole Trapnell, Adam Roberts, Loyal Goff, Geo Pertea, Daehwan Kim, David R Kelley, Harold Pimentel, Steven L Salzberg, John L Rinn, and Lior Pachter. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature protocols, 7(3):562, 2012.

[58] Heng Li, Bob Handsaker, Alec Wysoker, Tim Fennell, Jue Ruan, Nils Homer, Gabor Marth, Goncalo Abecasis, and Richard Durbin. The sequence alignment/map format and samtools. Bioinformatics, 25(16):2078–2079, 2009.

[59] Sven Findeiß, David Langenberger, Peter F Stadler, and Steve Hoffmann. Traces of post-transcriptional rna modifications in deep sequencing data. Biological chemistry, 392(4):305–313, 2011.

[60] David Langenberger, Clara Bermudez-Santana, Jana Hertel, Steve Hoffmann, Philipp Khaitovich, and Peter F Stadler. Evidence for human microRNA-offset RNAs in small RNA sequencing data. Bioinformatics, 25(18):2298–2301, 2009.

[61] David Langenberger, Sachin Pundhir, Claus T Ekstrøm, Peter F Stadler, Steve Hoff- mann, and Jan Gorodkin. deepBlockAlign: a tool for aligning RNA-seq profiles of read block patterns. Bioinformatics, 28(1):17–24, 2011.

[62] Marek Zywicki, Kamilla Bakowska-Zywicka, and Norbert Polacek. Revealing stable processing products from ribosome-associated small rnas by deep-sequencing data analysis. Nucleic acids research, 40(9):4013–4024, 2012.

[63] Youri Hoogstrate, Guido Jenster, and Elena S Martens-Uzunova. FlaiMapper: compu- tational annotation of small ncRNA-derived fragments using RNA-seq high-throughput data. Bioinformatics, 31(5):665–673, 2014.

[64] D.L. Nelson, A.L. Lehninger, and M.M. Cox. Lehninger Principles of Biochemistry. Lehninger Principles of Biochemistry. W. H. Freeman, 2008.

[65] Daniele Hasler and Gunter Meister. From trna to mirna: Rna-folding contributes to correct entry into noncoding rna pathways. FEBS letters, 590(15):2354–2363, 2016.

[66] Nick CT Schopman, Stephan Heynen, Joost Haasnoot, and Ben Berkhout. A mirna- trna mix-up: trna origin of proposed mirna. RNA biology, 7(5):573–576, 2010. 120 Bibliograf´ıa

[67] T Desvignes, P Batzel, E Berezikov, K Eilbeck, Janan T Eppig, Monica S McAndrews, A Singer, and JH Postlethwait. mirna nomenclature: a view incorporating genetic origins, biosynthetic pathways, and sequence variants. Trends in Genetics, 31(11):613– 626, 2015.

[68] Sam Griffiths-Jones. mirbase: the microrna sequence database. MicroRNA Protocols, pages 129–138, 2006.

[69] Eric S Lander, Lauren M Linton, Bruce Birren, Chad Nusbaum, Michael C Zody, Jennifer Baldwin, Keri Devon, Ken Dewar, Michael Doyle, William FitzHugh, et al. Initial sequencing and analysis of the human genome. 2001.

[70] Laurent Lestrade and Michel J Weber. snoRNA-LBME-db, a comprehensive database of human H/ACA and C/D box snoRNAs. Nucleic acids research, 34(suppl 1):D158– D162, 2006.

[71] Eric P Nawrocki, Sarah W Burge, Alex Bateman, Jennifer Daub, Ruth Y Eber- hardt, Sean R Eddy, Evan W Floden, Paul P Gardner, Thomas A Jones, John Tate, et al. Rfam 12.0: updates to the RNA families database. Nucleic acids research, 43(D1):D130–D137, 2014.

[72] Bronwen L Aken, Premanand Achuthan, Wasiu Akanni, M Ridwan Amode, Friederike Bernsdorff, Jyothish Bhai, Konstantinos Billis, Denise Carvalho-Silva, Carla Cummins, Peter Clapham, et al. Ensembl 2017. Nucleic acids research, 45(D1):D635–D642, 2016.

[73] Aristeidis G Telonis, Yohei Kirino, and Isidore Rigoutsos. Mitochondrial trna-lookalikes in nuclear chromosomes: Could they be functional? RNA biology, 12(4):375–380, 2015.

[74] Chong-Jian Chen, Nicolas Servant, Joern Toedling, Alexis Sarazin, Antonin Marchais, Evelyne Duvernois-Berthet, Val´erieCognat, Vincent Colot, Olivier Voinnet, Edith Heard, et al. ncPRO-seq: a tool for annotation and profiling of ncRNAs in sRNA- seq data. Bioinformatics, 28(23):3147–3149, 2012.

[75] I Dondoshansky and Y Wolf. Blastclust (ncbi software development toolkit). NCBI, Bethesda, Md, 2002.

[76] Stephen F Altschul, Warren Gish, Webb Miller, Eugene W Myers, and David J Lipman. Basic local alignment search tool. Journal of molecular biology, 215(3):403–410, 1990.

[77] Aaron R Quinlan and Ira M Hall. Bedtools: a flexible suite of utilities for comparing genomic features. Bioinformatics, 26(6):841–842, 2010. Bibliograf´ıa 121

[78] Simon Andrews et al. FastQC: a quality control tool for high throughput sequence data, 2010.

[79] Shirley Tam, Ming-Sound Tsao, and John D McPherson. Optimization of miRNA-seq data preprocessing. Briefings in bioinformatics, 16(6):950–963, 2015.

[80] Thomas P van Gurp, Lauren M McIntyre, and Koen JF Verhoeven. Consistent errors in first strand cdna due to random hexamer mispriming. PLoS One, 8(12):e85583, 2013.

[81] Preethi H Gunaratne, Cristian Coarfa, Benjamin Soibam, and Arpit Tandon. mirna data analysis: next-gen sequencing. In Next-Generation MicroRNA Expression Profi- ling Technology, pages 273–288. Springer, 2012.

[82] Matthew PA Davis, Stijn van Dongen, Cei Abreu-Goodger, Nenad Bartonicek, and Anton J Enright. Kraken: a set of tools for quality control and analysis of high- throughput sequence data. Methods, 63(1):41–49, 2013.

[83] Anthony M Bolger, Marc Lohse, and Bjoern Usadel. Trimmomatic: a flexible trimmer for illumina sequence data. Bioinformatics, 30(15):2114–2120, 2014.

[84] Nicolas Delhomme, Niklas M¨ahler,Bastian Schiffthaler, David Sundell, Chanaka Man- napperuma, T Hvidsten, and N Street. Guidelines for rna-seq data analysis. Epigenesys protocol, 67:1–24, 2014.

[85] Ana Kozomara and Sam Griffiths-Jones. mirbase: annotating high confidence micror- nas using deep sequencing data. Nucleic acids research, 42(D1):D68–D73, 2013.

[86] Hadi Jorjani, Stephanie Kehr, Dominik J Jedlinski, Rafal Gumienny, Jana Hertel, Pe- ter F Stadler, Mihaela Zavolan, and Andreas R Gruber. An updated human snornaome. Nucleic acids research, 44(11):5068–5082, 2016.

[87] Ang´eliqueGirard, Ravi Sachidanandam, Gregory J Hannon, and Michelle A Car- mell. A germline-specific class of small rnas binds mammalian piwi proteins. Nature, 442(7099):199–202, 2006.

[88] Venetia Pliatsika, Phillipe Loher, Aristeidis G Telonis, and Isidore Rigoutsos. Mint- base: a framework for the interactive exploration of mitochondrial and nuclear trna fragments. Bioinformatics, 32(16):2481–2489, 2016.

[89] Hikmet Budak, Reyyan Bulut, Melda Kantar, and Burcu Alptekin. Microrna no- menclature and the need for a revised naming prescription. Briefings in functional genomics, 15(1):65–71, 2015. 122 Bibliograf´ıa

[90] Iddo Z Ben-Dov, Thangamani Muthukumar, Pavel Morozov, Franco B Mueller, Tho- mas Tuschl, and Manikkam Suthanthiran. Microrna sequence profiles of human kidney allografts with or without tubulointerstitial fibrosis. Transplantation, 94(11), 2012.

[91] James Dominic Mills, Yoshihiro Kawahara, and Michael Janitz. Strand-specific rna-seq provides greater resolution of transcriptome profiling. Current genomics, 14(3):173– 181, 2013.

[92] Mark S Springer, Michael J Stanhope, Ole Madsen, and Wilfried W de Jong. Molecules consolidate the placental mammal tree. Trends in ecology & evolution, 19(8):430–438, 2004.

[93] Chenghai Xue, Fei Li, Tao He, Guo-Ping Liu, Yanda Li, and Xuegong Zhang. Classifi- cation of real and pseudo microRNA precursors using local structure-sequence features and support vector machine. BMC bioinformatics, 6(1):310, 2005.

[94] J Mauro Calabrese, Amy C Seila, Gene W Yeo, and Phillip A Sharp. RNA sequence analysis defines Dicer’s role in mouse embryonic stem cells. Proceedings of the National Academy of Sciences, 104(46):18097–18102, 2007.

[95] Jacek Blazewicz, Marek Figlerowicz, Marta Kasprzak, Martyna Nowacka, and Agniesz- ka Rybarczyk. RNA partial degradation problem: motivation, complexity, algorithm. Journal of Computational Biology, 18(6):821–834, 2011.

[96] Aaron E Cozen, Erin Quartley, Andrew D Holmes, Eva Hrabeta-Robinson, Eric M Phizicky, and Todd M Lowe. ARM-seq: AlkB-facilitated RNA methylation sequencing reveals a complex landscape of modified tRNA fragments. Nature methods, 12(9):879– 884, 2015.

[97] Steve Hoffmann, Christian Otto, Stefan Kurtz, Cynthia M Sharma, Philipp Khaitovich, J¨orgVogel, Peter F Stadler, and J¨orgHackerm¨uller.Fast mapping of short sequences with mismatches, insertions and deletions using index structures. PLoS computational biology, 5(9):e1000502, 2009.

[98] Ben Langmead and Steven L Salzberg. Fast gapped-read alignment with Bowtie 2. Nature methods, 9(4):357–359, 2012.

[99] Eric M Phizicky and Anita K Hopper. trna processing, modification, and subcellular dynamics: past, present, and future. RNA, 21(4):483–485, 2015.

[100] Frank J¨uhling,Mario M¨orl,Roland K Hartmann, Mathias Sprinzl, Peter F Stadler, and Joern P¨utz. tRNAdb 2009: compilation of tRNA sequences and tRNA genes. Nucleic acids research, 37(suppl 1):D159–D162, 2008. Bibliograf´ıa 123

[101] Mark D Robinson, Davis J McCarthy, and Gordon K Smyth. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinfor- matics, 26(1):139–140, 2010.

[102] Simon Anders and Wolfgang Huber. Differential expression analysis for sequence count data. Genome biology, 11(10):R106, 2010.

[103] Mark D Robinson and Alicia Oshlack. A scaling normalization method for differential expression analysis of rna-seq data. Genome biology, 11(3):R25, 2010.

[104] James H Bullard, Elizabeth Purdom, Kasper D Hansen, and Sandrine Dudoit. Eva- luation of statistical methods for normalization and differential expression in mrna-seq experiments. BMC bioinformatics, 11(1):94, 2010.

[105] Cristian A Velandia-Huerto, Sarah J Berkemer, Anne Hoffmann, Nancy Retzlaff, Li- liana C Romero Marroqu´ın,Maribel Hern´andez-Rosales,Peter F Stadler, and Clara I Berm´udez-Santana. Orthologs, turn-over, and remolding of tRNAs in primates and fruit flies. BMC genomics, 17(1):617, 2016.

[106] Clara Bermudez-Santana, Camille Stephan-Otto Attolini, Toralf Kirsten, Jan Engel- hardt, Sonja J Prohaska, Stephan Steigele, and Peter F Stadler. Genomic organization of eukaryotic trnas. BMC genomics, 11(1):270, 2010.

[107] Aaron CE Darling, Bob Mau, Frederick R Blattner, and Nicole T Perna. Mauve: mul- tiple alignment of conserved genomic sequence with rearrangements. Genome research, 14(7):1394–1403, 2004.

[108] Esteban Arroyave, Andr´esFelipe Londo˜no, Juan Carlos Quintero, Piedad Agudelo- Fl´orez,Margarita Arboleda, Francisco J D´ıaz, and Juan D Rodas. Etiology and epi- demiological characterization of non-malarial febrile syndrome in three municipalities of uraba (antioquia), colombia. Biomedica, 33:99–107, 2013.

[109] Tun-Linn Thein, Victor C Gan, David C Lye, Chee-Fu Yung, and Yee-Sin Leo. Utilities and limitations of the world health organization 2009 warning signs for adult dengue severity. PLoS neglected tropical diseases, 7(1):e2023, 2013.

[110] Nathalie Sch¨oler,Christian Langer, Hartmut D¨ohner, Christian Buske, and Florian Kuchenbauer. Serum microRNAs as a novel class of biomarkers: a comprehensive review of the literature. Experimental hematology, 38(12):1126–1130, 2010.

[111] Luis A. Villar. Dengue: un reto para el estado, la comunidad cient´ıficay el conjunto de la sociedad colombiana. Infectio, 15(1):5–7, 2011. 124 Bibliograf´ıa

[112] Rosanna W Peeling, Harvey Artsob, Jose Luis Pelegrino, Philippe Buchy, Mary J Cardosa, Shamala Devi, Delia A Enria, Jeremy Farrar, Duane J Gubler, Maria G Guzman, et al. Evaluation of diagnostic tests: dengue. Nature reviews. Microbiology, 8(12):S30, 2010.

[113] Andr´esAbril Gamboa, Luis Vasco, Mauricio Espinel, Josefina Coloma, and Gabriel A Trueba. Dificultades en el diagn´osticodiferenciado del dengue y la leptospirosis en guayaquil. ACI Avances en Ciencias e Ingenier´ıas, 5(1), 2013.

[114] Donald S Shepard, Eduardo A Undurraga, Yara A Halasa, and Jeffrey D Stanaway. The global economic burden of dengue: a systematic analysis. Infectious Diseases, 16(8):935–941, 2016.

[115] Poornima Parameswaran, Ella Sklan, Courtney Wilkins, Trever Burgon, Melanie A Samuel, Rui Lu, K Mark Ansel, Vigo Heissmeyer, Shirit Einav, William Jackson, et al. Six RNA viruses and forty-one hosts: viral small RNAs and modulation of small RNA repertoires in vertebrate and invertebrate systems. PLoS pathogens, 6(2):e1000764, 2010.

[116] Mazhar Hussain and Sassan Asgari. MicroRNA-like viral small RNA from dengue virus 2 autoregulates its replication in mosquito cells. Proceedings of the National Academy of Sciences, 111(7):2746–2751, 2014.

[117] Jose A Usme-Ciro, Natalia Campillo-Pedroza, Fernando Almaz´an, and Juan C Gallego- Gomez. Cytoplasmic RNA viruses as potential vehicles for the delivery of therapeutic small RNAs. Virology journal, 10(1):185, 2013.

[118] Thanasis Vergoulis, Ilias Kanellos, Nikos Kostoulas, Georgios Georgakilas, Timos Sellis, Artemis Hatzigeorgiou, and Theodore Dalamagas. mirpub: a database for searching microrna publications. Bioinformatics, 31(9):1502–1504, 2014.

[119] Christophe N Peyrefitte, Boris Pastorino, Georges E Grau, J Lou, Hugues Tolou, and Patricia Couissinier-Paris. Dengue virus infection of human microvascular endothe- lial cells from different vascular beds promotes both common and specific functional changes. Journal of medical virology, 78(2):229–242, 2006.

[120] Pavan Kumar Kakumani, Sanket Singh Ponia, Vikas Sood, Mahendran Chinnappan, Akhil C Banerjea, Guruprasad R Medigeshi, Pawan Malhotra, Sunil K Mukherjee, Raj K Bhatnagar, et al. Role of rna interference (rnai) in dengue virus replication and identification of ns4b as an rnai suppressor. Journal of virology, 87(16):8870–8883, 2013. Bibliograf´ıa 125

[121] Harsh Dweep, Carsten Sticht, Priyanka Pandey, and Norbert Gretz. mirwalk–database: prediction of possible mirna binding sites by “walking” the genes of three genomes. Journal of biomedical informatics, 44(5):839–847, 2011.

[122] Michael E Smoot, Keiichiro Ono, Johannes Ruscheinski, Peng-Liang Wang, and Trey Ideker. Cytoscape 2.8: new features for data integration and network visualization. Bioinformatics, 27(3):431–432, 2010.

[123] Michael S Diamond and Theodore C Pierson. Molecular insight into dengue virus pathogenesis and its implications for disease control. Cell, 162(3):488, 2015.

[124] John F Arboleda and Silvio Urcuqui-Inchima. Vitamin d-regulated micrornas: Are they protective factors against dengue virus infection? Advances in virology, 2016, 2016.

[125] Amanda L Aloia, Alexander M Abraham, Claudine S Bonder, Stuart M Pitson, and Jillian M Carr. Dengue virus-induced inflammation of the endothelium and the po- tential roles of sphingosine kinase-1 and micrornas. Mediators of inflammation, 2015, 2015.

[126] Shuyan Liu, Lingming Chen, Ying Zeng, Lulu Si, Xiaolan Guo, Junmei Zhou, Danyun Fang, Gucheng Zeng, and Lifang Jiang. Suppressed expression of mir-378 targeting gzmb in nk cells is required to control dengue virus infection. Cellular & molecular , 13(5):700–708, 2016.

[127] Xiaoxi Ouyang, Xin Jiang, Dayong Gu, Yaou Zhang, SK Kong, Chaoxin Jiang, and Weidong Xie. Dysregulated serum mirna profile and promising biomarkers in dengue- infected patients. International journal of medical sciences, 13(3):195, 2016.

[128] Yiming Qi, Ying Li, Lin Zhang, and Junqi Huang. microrna expression profiling and bioinformatic analysis of dengue virus-infected peripheral blood mononuclear cells. Molecular medicine reports, 7(3):791–798, 2013.

[129] Manuel Escalera-Cueto, Ingrid Medina-Mart´ınez,Rosa M del Angel, Jaime Berumen- Campos, Ana Lorena Guti´errez-Escolano,and Martha Yocupicio-Monroy. Let-7c ove- rexpression inhibits dengue virus replication in human hepatoma huh-7 cells. Virus research, 196:105–112, 2015.

[130] Cristian Del Fabbro, Simone Scalabrin, Michele Morgante, and Federico M Giorgi. An extensive evaluation of read trimming effects on illumina ngs data analysis. PloS one, 8(12):e85024, 2013.