CENTRO DE INVESTIGACION Y DE ESTUDIOS AVANZADOS DEL INSTITUTO POLITECNICO NACIONAL

UNIDAD ZACATENCO

DEPARTAMENTO DE GENÉTICA Y BIOLOGÍA MOLECULAR

“Genómica comparativa y funcional de fagos que infectan aeruginosa”

Tesis que presenta

M. en C. ADRIÁN CAZARES LÓPEZ

para obtener el Grado de

Doctor en Ciencias

en la Especialidad de

Genética y Biología Molecular

DIRECTOR DE LA TESIS: DR. GABRIEL GUARNEROS PEÑA

CIUDAD DE MÉXICO DICIEMBRE, 2016 Adrián Cazares López Tesis de Doctorado

ASESORES

Dr. Rosa Ma. Bermúdez Cruz Departamento de Genética y Biología Molecular, Cinvestav-IPN

Dr. Luis Kameyama Kawabe Departamento de Genética y Biología Molecular, Cinvestav-IPN

Dr. Javier Hernández Sánchez Departamento de Genética y Biología Molecular, Cinvestav-IPN

Dra. Norma Oviedo de Anda Unidad de Investigación en Infectología e Inmunología, Centro Médico Nacional La Raza, IMSS

Dr. Gabriel Moreno Hagelsieb Departamento de Biología, Wilfrid Laurier University Ontario, Canadá

Adrián Cazares López Tesis de Doctorado

Este trabajo se realizó bajo la dirección del Dr. Gabriel Guarneros Peña en el laboratorio 8 del Departamento de Genética y Biología Molecular del Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional. El autor de este trabajo agradece que durante la realización del mismo fue becario del Consejo Nacional de Ciencia y Tecnología (no. de registro: 233018).

Adrián Cazares López Tesis de Doctorado

Agradecimientos A mi familia: A mis padres. A mi madre por enseñarme con el ejemplo que el trabajo, la perseverancia y el sacrificio representan la única fórmula a seguir para convertirse en un mejor ser humano. A mi padre QEPD por mostrarme que aun el recuerdo puede soportar la unión de una familia y los sueños de un individuo. No existen palabras suficientes para agradecer no solo el darme la vida sino mostrarme el camino para vivirla sin reservas. A mi hermano, por ser cómplice de vida, metas y sueños desde el principio. Por mostrarme el espíritu de competitividad y dedicación en su máxima expresión. Por hacerme sentir orgulloso de trabajar contigo y ser testigo de tus logros. Gracias por brindarme la mejor amistad que un individuo podría pedir. A mi novia, por convertirte en una compañera incondicional de trabajo, de viajes, de ilusiones, de vida. Por el apoyo y compresión brindado durante la realización de este trabajo. Por el presente y el futuro. Por ser parte de mi familia. A mis amigos: A la Dra. Fabiola, por el apoyo absoluto y la ayuda brindada durante todo mi doctorado, particularmente en mis visitas a CCG. A Thomas, por la ayuda invaluable, por convertirse en mi mejor amigo durante mi estancia en Canadá. Al Dr. Cesar y Ramiro por ser extraordinarios compañeros y amigos y hacer de mi estancia en WLU una aventura aún más enriquecedora. Al Dr. Fabiano por ser un excelente compañero de laboratorio y amigo y por su ayuda durante mi estancia en San Diego. A Daniel y Geni por hacerme sentir bienvenido en SDSU y hacer mi estancia más placentera. Al Dr. Rodolfo García por todas las charlas constructivas, por permitirme trabajar con su equipo y la amistad brindada hacia mi persona. A Enith, por ser una compañera de trabajo y colaboradora ejemplar. A la Dra. Eva Martínez, por toda la ayuda, enseñanzas y apoyo ofrecidos durante mi estancia en Adrián Cazares López Tesis de Doctorado

CINVESTAV. Al M. en C. Marco Magos, por su valiosa ayuda y amistad durante estos últimos años. Al señor Aurelio y la señora Flor, por todos los consejos y su interés hacia mi persona. A Gabriela Mora, por su auxilio constante durante todo el doctorado. A mis asesores: A los Doctores Luis Kameyama, Norma Oviedo, Rosa M. Bermúdez, Gabriel Moreno y Javier Hernández por los comentarios y sugerencias que contribuyeron a construir el presente trabajo y por la disposición y tiempo dedicados al asesoramiento de esta tesis. A los doctores Luis Kameyama, Norma Oviedo y Rosa M. Bermúdez, en particular, por el interés mostrado durante todo el doctorado hacia mi desarrollo académico. Gracias por todos los consejos personales. Al Dr. Gabriel Guarneros por dirigir esta tesis. Por fungir como un director de tesis crítico y objetivo hacia mi trabajo, lo cual contribuyó a mejorar la calidad del mismo y a mi formación en la investigación. Al Dr. Gabriel Moreno por recibirme en su laboratorio en Canadá y su disposición para compartir ideas y conocimientos durante mi estancia. A los Doctores Pablo Vinuesa y Robert Edwards por fungir como asesores de este trabajo a pesar de no serlo oficialmente. Gracias por recibirme en sus laboratorios y proporcionarme conocimientos invaluables de su área de investigación además de su interés en mi desarrollo dentro de la investigación. A la Dra. Guadalupe Ortega Pierres, un agradecimiento especial por el interés y apoyo mostrado hacia mi desarrollo profesional.

Adrián Cazares López Tesis de Doctorado

Índice

Índice I Índice de Figuras II Índice de Tablas III Resumen IV Abstract V Lista de abreviaturas VI 1. Introducción 1 1.1. Generalidades de bacteriófagos 1 1.2. Genómica de bacteriófagos 6 2. Antecedentes 11 3. Justificación 16 4. Objetivos 17 4.1 Objetivo general 17 4.2 Objetivos particulares 17 5. Esquema General de Trabajo 18 6. Materiales y métodos 19 7. CAPÍTULO 1: Caracterización y clasificación genómica de 30 bacteriófagos de P. aeruginosa aislados en México Resultados 30 Discusión 49 Conclusiones 53 8. CAPÍTULO 2: Análisis del grupo D3112virus 55 Resultados 55 Discusión 69 Conclusiones 73 9. CAPÍTULO 3: Caracterización genómica del grupo F116virus 75 Resultados 75 Discusión 105 Conclusiones 110 10. CAPÍTULO 4: Análisis comparativo y funcional del grupo B3-like 111 Resultados 111 Discusión 120 Conclusiones 125 11. CAPÍTULO 5: Identificación In silico de profagos en genomas de P. 126 aeruginosa Resultados 126 Discusión 136 Conclusiones 141 12. Perspectivas 143 13. Material Suplementario 145 14. Referencias 156 15. Anexos 160

Adrián Cazares López Tesis de Doctorado

Índice de Figuras

Capítulo 1 Figura 1.1. Distribución de tamaños genómicos de fagos de 43 Pseudomonas Figura 1.2. Contenido de GC en genomas de fagos de 44 Pseudomonas Figura 1.3. Comparación entre secuencias genómicas de Ps54 y 47 regiones profágicas putativas de la cepa DHS01

Capítulo 2 Figura 2.1. Loci de inserción de profagos del grupo D3112virus 59 Figura 2.2. Árbol Neighbor-joining de los genomas D3112virus 61 comparados en este studio Figura 2.3. Mapa del pangenoma del grupo D3112virus 62 Figura 2.4. Frecuencia de ORFs accesorios en los genomas 63 D3112virus analizados Figura 2.5. Caracterización por PCR de regiones genómicas 68 variables de fagos tipo D3112virus

Capítulo 3 Figura 3.1. Mapas genómicos de fagos del grupo F116virus 76 Figura 3.2. Mapa del pangenoma del grupo F116virus 82 Figura 3.3. Frecuencia de homólogos para ORFs del pangenoma 83 de fagos tipo F116virus Figura 3.4. Regiones genómicas bacterianas homólogas a 89 genomas F116virus Figura 3.5. Comparación nucleotídica de genomas F116virus con 90 regiones profágicas Figura 3.6. Sitios de inserción probables para los fagos H66 y 91 LKA5 Figura 3.7. Dominios conservados identificados en las secuencias 92 proteicas de las integrasas de los fagos H66 y LKA5 Figura 3.8. Sitios att candidatos de fagos tipo F116virus LKA5- 96 like Figura 3.9. Sitios att candidatos de fagos tipo F116virus H66-like 97 Figura 3.10. Estandarizacion de PCR para identificar inserción 102 de fagos tipo F116virus Figura 3.11. Análisis de Integración del fago H66 mediante PCR 103 Figura 3.12. Análisis de Integración del fago LKA5 mediante 104 PCR

Capítulo 4 Figura 4.1. Comparación genómica de bacteriófagos del grupo 117 B3-like

Adrián Cazares López Tesis de Doctorado

Figura 4.2. Mapa del pangenoma del grupo B3-like 118 Figura 4.3. SGS-PAGE de las proteínas estructurales del virión 120 del fago Fc02

Capítulo 5 Figura 5.1. Características de las secuencias genómicas de P. 127 aeruginosa depositadas en la base de datos de ensamble de NCBI Figura 5.2. Número de elementos fágicos identificados por los 129 programas PHAST y PhiSpy Figura 5.3. Número de proteínas bacterianas que contienen 129 Dominios Conservados presentes en proteínas fágicas Figura 5.4. Mapeo de los elementos fágicos identificados en el 130 genoma de la cepa NCGM 1984 con tres diferentes estrategias de búsqueda Figura 5.5. Mapeo de las proteínas bacterianas de la cepa NCGM 132 1984 que contienen CD’s relacionados y no relacionados a fagos según su descripción Figura 5.6. Elemento fágico identificado por PHAST en la cepa 133 39016 Figura 5.7. Mapeo de los elementos fágicos identificados en el 135 genoma de la cepa LESB58 con tres diferentes estrategias de búsqueda y aquellos reportados por Winstanley et al 2009

Material Suplementario Figura S1. Mapas y comparación genómica de fagos tipo 150 D3112virus Figura S2. Mapas y comparación genómica de profagos tipo 151 D3112virus Figura S3. Comparación genómica de bacteriófagos del grupo 152 F116virus Figura S4. SGS-PAGE de las proteínas estructurales de los 153 viriones de H66 y LKA5 Figura S5. Localización de los oligos para la determinación de 154 integración de fagos del tipo F116virus. Figura S6. Regiones profágicas identificadas en el genoma de la 155 cepa LESB58

Adrián Cazares López Tesis de Doctorado

Índice de Tablas

Capítulo 1 Tabla 1.1. Estatus de secuenciación de la colección de fagos del 31 laboratorio Tabla 1.2. Clasificación taxonómica de fagos de Pseudomonas 36

Capítulo 2 Tabla 2.1. Oligos para la caracterización de fagos del grupo 64 D3112virus Tabla 2.2. Amplicones esperados en la caracterización por PCR 65 de fagos del grupo D3112virus

Capítulo 3 Tabla 3.1. Oligos para la identificación de inserción de fagos del 100 grupoF116virus en la cepa PAO1

Capítulo 5 Tabla 5.1. Clasificación funcional del set de 255 CD’s con 134 descripciones relacionadas a fagos

Material Suplementario Tabla S1. Información sobre las secuencias de fagos y profagos 145 D3112virus comparadas en este estudio

Adrián Cazares López Tesis de Doctorado

RESUMEN Los fagos de P. aeruginosa han sido estudiados por décadas. El análisis de estos fagos a nivel genómico ha generado información valiosa sobre su diversidad, relaciones evolutivas y el impacto que tienen sobre su hospedero. A pesar del gran número de genomas secuenciados, el envío a bases de datos de representantes recién aislados que no presentan homología con fagos reportados es todavía constante. En este trabajo se presenta el análisis funcional y comparativo de 48 genomas de fagos de P. aeruginosa que fueron aislados en México. La comparación de varios ejemplares de nuestra colección con aquellos de fagos de Pseudomonas depositados en RefSeq permitió evidenciar la diversidad genética de este grupo viral. Debido al sesgo que existe hacia la caracterización de fagos virulentos, decidimos seleccionar nuestros ejemplares temperados para conducir análisis pangenómicos e investigar a detalle su diversidad genómica. Nuestros resultados muestran una arquitectura genómica común entre los genomas analizados que corresponde a un bloque grande de conservados interrumpido por regiones de variabilidad genética localizadas en loci específicos a lo largo del genoma. Los componentes conservado y variable fueron designados como el genoma core y accesorio, respectivamente. Los loci que conforman el genoma accesorio fueron nombrados Regiones de Plasticidad Genómica (RGPs). En los fagos transponibles, el genoma core codifica genes con funciones esenciales para la biología del fago, sin embargo, en fagos del grupo F116virus varias de estas funciones se encuentran codificadas en ORFs accesorios (aORFs). Las principales diferencias identificadas entre los genomas fágicos comparados se restringieron a las RGPs y los perfiles de aORFs. Con base en las funciones inferidas para ciertos aORFs proponemos que estos pueden conferir ventajas adaptativas a los fagos que los portan. Análisis de genomas de P. aeruginosa reportados en bases de datos nos permitieron concluir también que los elementos fágicos son un componente prevalente en esta especie bacteriana.

Adrián Cazares López Tesis de Doctorado

ABSTRACT P. aeruginosa phages have been studied for decades. The analysis of these phages from a genomic perspective has provided valuable knowledge about their diversity, evolutionary relationships, and the impact they have on their host. Despite the great number of sequenced , novel representatives which are not related to previously reported phages are constantly submitted to public databases. In this work, we present the comparative and functional study of 48 genomes belonging to P. aeruginosa phages isolated in Mexico. The comparison of selected complete genomes from our collection with those of Pseudomonas phages from RefSeq exhibited the genetic diversity of this viral group. Due to the existing bias towards characterization of virulent phages we selected the genomes of the temperate representatives from our lab’s collection to conduct Pangenome analyses and further explore their diversity. Our results display a common genome architecture among the analyzed genomes which comprises a large backbone of conserved genes interrupted by regions of genetic variability located at discrete loci across the genome. The conserved and variable components were referred as the core and accessory genome, respectively. The discrete loci comprising the accessory genome were named Regions of Genomic Plasticity (RGPs). The core genome in transposable phages encodes essential functions for the phage biology, however, in phages from the group F116virus several of these functions are encoded on accessory ORFs (aORFs). The major differences observed among the phage genomes were restricted to RGPs and the profiles of aORFs. Based on the inferred functions for some of the aORFs we propose they can provide adaptive benefits to the phages. Several of the genomes analyzed in this work were found as prophages on bacterial genomes. Further analysis of P. aeruginosa genomic sequences allowed us to determine that phage elements represent a prevalent component of this bacterial species. In fact, such elements could exceed the number of phage genomes reported on databases.

Adrián Cazares López Tesis de Doctorado

LISTA DE ABREVIATURAS ORF = Open Reading Frame (Marco de Lectura Abierta) cORF = core ORF (ORF conservado) aORF = accessory ORF (ORF accesorio) RBS = Ribosome Binding Site (Sitio de unión al Ribosoma) RGP = Region of Genomic Plasticity (Region de Plasticidad Genomica) ICTV = International Committee on Taxonomy of (Comité Internacional en Taxonomía de ) CD = Conserved Domain (Dominio Conservado) CDD = Conserved Domain Database (Base de datos de Dominios Conservados)

Adrián Cazares López Tesis de Doctorado

1) INTRODUCCIÓN 1.1. Generalidades de bacteriófagos Los bacteriófagos o fagos, son virus que infectan bacterias y fueron descubiertos de forma independiente por William Twort en 1915 y Félix d´Herelle en 1917 [1-3]. Este último advirtió de su potencial para matar bacterias, sin embargo, con la llegada de los antibióticos estos virus fueron ignorados como posibles agentes terapéuticos [4]. A partir de entonces la investigación de bacteriófagos se centró en el estudio de algunos fagos modelo que infectan Escherichia coli lo cual permitió establecer las bases de la biología molecular moderna. Dichos fagos fueron estudiados a detalle durante décadas [1]. La identificación de las bases del material genético, la elucidación del código genético y la identificación de enzimas de restricción son algunos ejemplos de los hallazgos obtenidos mediante la investigación de bacteriófagos en esta época [1, 2]. Desde el punto de vista ecológico, diversos estudios han explorado la abundancia de estos virus en el ambiente estimando que en agua marina y dulce, entre otros entornos, pueden existir hasta diez fagos por cada bacteria [5]. Considerando el número propuesto de bacterias en diferentes ambientes en la biosfera [1], se ha estimado que pueden existir alrededor de 1031 bacteriófagos lo cual los convierte en las formas de vida más abundantes de la tierra [6]. Los bacteriófagos han sido identificados en un alto número en cualquier entorno en donde se encuentren sus hospederos incluyendo heces y esputo humano [7]. De hecho, estudios metagenómicos recientes muestran que en el viroma humano los bacteriófagos superan ampliamente el número y diversidad de virus de eucariontes [7]. Dicha abundancia tiene un profundo impacto en las poblaciones de sus hospederos bacterianos. Diferentes trabajos, basados en evidencia experimental y modelos matemáticos generados a partir de la misma, han mostrado que los bacteriófagos son capaces de dirigir la diversificación genética de sus hospederos mediante varios mecanismos. Como ejemplo, tal diversificación puede presentarse en

1 Adrián Cazares López Tesis de Doctorado la región CRISPR (adquisición de espaciadores nuevos) o la región que codifica el receptor del fago con el objetivo de resistir las infecciones por este tipo de virus [1, 8]. Este tipo de diversificación suele estar asociada a fagos virulentos los cuales representan una fuerte presión selectiva de carácter antagonista [7]. Por otra parte, los fagos temperados también pueden promover la diversificación de su hospedero actuando como fuente de diversidad genómica [9] o contribuyendo a su éxito ecológico mediante la expresión de genes útiles para la bacteria (ver abajo), entre otros mecanismos. Los fagos tienen la capacidad de desarrollarse en diversos ciclos de vida y la mayoría puede clasificarse con base en dos de ellos. Los fagos virulentos son aquellos que siguen exclusivamente una vía de desarrollo lítica. Este tipo de fagos introduce su genoma dentro del hospedero, lo replica, transcribe y traduce sus genes, forma partículas virales nuevas, encapsida los genomas generados durante la replicación y mata a la célula rápidamente mediante lisis de la misma para liberar a la nueva progenie de viriones [10]. Por otra parte, los fagos temperados son aquellos que además de seguir la vía lítica pueden optar por una vía lisogénica. En esta vía los fagos reprimen la expresión de su genoma mediante la acción de una proteína represora y subsecuentemente pueden integrar su genoma en el genoma del hospedero o mantenerse de forma episomal en el mismo [11]. En el caso de existir integración, esta es mediada por proteínas integrasas o transposasas codificadas en el genoma fágico. Las primeras dirigen la inserción sitio especifica del genoma del fago mientras que las segundas lo hacen de forma aleatoria [7]. Ya sea integrado o no, el estado de latencia del fago permanece de forma indefinida hasta que ciertas condiciones del medio promueven su desarrollo por la vía lítica. En tal estado de quiescencia el fago es denominado profago y la bacteria que lo porta se conoce como lisógena [12]. Una bacteria lisógena hereda dicho profago a su progenie en cada ronda de replicación y se caracteriza por ser inmune a la superinfección por fagos del

2 Adrián Cazares López Tesis de Doctorado mismo tipo al profago que porta [13]. Esta homoinmunidad tiene su base molecular en la acción de la proteína represora producida por el profago residente que, debido a la homología de secuencia existente entre los operadores de fagos del mismo tipo, es capaz de reconocer y reprimir la expresión del genoma del fago infectante secundario [14, 15]. No obstante, fagos no relacionados pueden coinfectar un hospedero lo cual conduce a un estado se polilisogenia, i.e. transporte de múltiples profagos [16, 17]. Durante el estado de profago, el genoma fágico puede ser blanco de eventos de mutación y deleción, particularmente en genes peligrosos para su hospedero (e.g. proteínas de lisis), que conducen a que el fago quede atrapado en el genoma bacteriano y por lo cual se denomina fago críptico [18]. Por otra parte, el genoma del profago puede ser blanco de eventos de recombinación que conducen a que el fago intercambie material genético con la bacteria que lo porta. Cuando el fago entra al ciclo lítico y sale de la bacteria es capaz de transducir dicho material genético a su nueva cepa hospedera por lo cual los bacteriófagos son considerados vectores y agentes de transferencia horizontal de genes [17, 19]. Desde el estado de profago, el genoma vírico puede dirigir la expresión de los genes transferidos u otros genes fágicos cuyas funciones resultan en cambios fenotípicos beneficiosos para su hospedero en un fenómeno denominado conversión lisogénica [20]. La proteína represora, factores de exclusión, diversos factores de virulencia y factores de resistencia antibióticos son algunos ejemplos de genes portados por fagos que conducen a conversión lisogénica (revisado en [7]. Esta representa la razón principal por la cual los fagos temperados son sistemáticamente desestimados como posibles agentes terapéuticos y su contraparte virulenta resulta la de mayor potencial para dicho fin [17]. Además de los ciclos lítico y lisogénico, la infección crónica y la pseudolisogenia son tipos de desarrollo descritos también en bacteriófagos. La primera es característica de fagos filamentosos e implica la liberación constante de progenie viral por largos periodos de tiempo sin provocar una

3 Adrián Cazares López Tesis de Doctorado muerte celular rápida [1]. Respecto a la pseudolisogenia, existe más de una explicación del fenómeno y una de ellas corresponde a la situación donde un fago que recién entra a una célula no se integra y se mantiene de esta manera por tiempo indefinido, incluyendo la replicación del hospedero, hasta que ciertas condiciones comprometen su desarrollo hacia la vía lítica o lisogénica [1]. En su forma infectiva los bacteriófagos, como otros virus, están conformados mininamente por una cubierta proteica o cápside, que protege un genoma que puede estar constituido por ADN o ARN de cadena doble o sencilla [10, 11]. Dicho complejo, denominado partícula viral o virión, presenta una variedad de formas en la naturaleza. Tanto la morfología del virión como el tipo de ácido nucleico que compone el genoma son los criterios principales que el Comité Internacional en Taxonomía de Virus (ICTV por sus siglas en Ingles) ha utilizado históricamente para clasificar a los bacteriófagos [3, 21]. En este sentido la mayoría de los fagos caracterizados a la fecha presentan viriones que exhiben una cápside icosaédrica donde se encuentra empaquetado ADN de doble cadena y que está conectada a una estructura en forma de cola. Dadas tales características este tipo de fagos ha sido clasificado dentro del orden [22]. Este orden se encuentra divido en tres familias que incluyen fagos con propiedades morfológicas distintivas en sus colas. La familia consiste de fagos con colas largas contráctiles mientras que la familia incluye fagos cuyos viriones presentan colas largas no contráctiles que pueden ser flexibles en varios casos. Por otra parte, los fagos de la familia se caracterizan por tener colas cortas [3]. Si bien dicha clasificación permite agrupar bacteriófagos con características morfológicas similares, dista mucho de ser una clasificación completa que permita asociar individuos relacionados en términos evolutivos. Para tal fin, esta clasificación básica requiere información proveniente de diversos métodos de caracterización siendo la secuenciación el más poderoso de todos [17]. Esta, y otras razones

4 Adrián Cazares López Tesis de Doctorado expuestas posteriormente, han conducido a que en décadas recientes los análisis a nivel genómico sean una herramienta básica en el estudio de bacteriófagos.

5 Adrián Cazares López Tesis de Doctorado

1.2. Genómica de Bacteriófagos. Desde sus inicios, la investigación con bacteriófagos se ha posicionado en la frontera de los descubrimientos en el campo de la biología molecular. La determinación del primer genoma completo es uno de ellos. Con la publicación del genoma de ARN de cadena sencilla del fago MS2 en 1976 [23] y el genoma de ADN de cadena sencilla del fago ΦX174 en 1977 [24], se reveló por primera vez el repertorio genético completo de una entidad biológica y se dio inicio a la era genómica [19]. Posterior a estos reportes, el genoma de ADN de doble cadena de uno de los bacteriófagos modelo mejor estudiados, el colifago λ, salió a la luz en 1983 [25]. Con el advenimiento de nuevas tecnologías de secuenciación se ha dado un incremento exponencial en el número de genomas fágicos secuenciados. Tan solo en 2008 se reportó que más 500 genomas de fagos se habían depositado en la base de datos de NCBI lo cual representaba un incremento de más de tres veces respecto al número registrado en 2005 [6]. Este incremento en el estudio de los fagos a nivel genómico ha sido impulsado por el interés en, dilucidar su contribución en los eventos de transferencia horizontal de genes y su impacto en la diversificación y evolución de sus hospederos, determinar cuáles ejemplares representan buenos candidatos para tratar infecciones bacterianas y explorar su diversidad genómica para inferir sus relaciones evolutivas y proponer mejores esquemas de clasificación taxonómica, entre otros muchos aspectos [6, 19]. Desde el punto de vista evolutivo, diversos análisis comparativos han permitido identificar características distintivas de los genomas fágicos. En primera instancia se ha determinado que son sumamente diversos. Como punto de partida, dicha diversidad se ve reflejada en el rango de tamaños que pueden ir de menos de 5 hasta 600 kpb [26], lo cual podría ser modificado con la adición de genomas en el tiempo. Se ha propuesto que el genoma mínimo de un fago del orden Caudovirales codifica genes de empaquetamiento de ADN, cápside, cola, fibras de la cola, replicación de

6 Adrián Cazares López Tesis de Doctorado

ADN, regulación transcripcional y lisis [26]. La distribución de dichos genes en el genoma es en forma de módulos en los que se asocian genes de funciones relacionadas, e.g. los genes que dan lugar a la formación del virión se posicionan de forma continua al igual que aquellos que codifican las proteínas de lisis. En varios casos, módulos de funciones bien definidas se encuentran separados por regiones de plasticidad genómica que albergan genes pequeños de función desconocida [27]. La diversidad de los genomas de fagos es particularmente evidente desde el punto de vista genético. Bacteriófagos que infectan hospederos no relacionados filogenéticamente rara vez comparten homología de secuencia nucleotídica [6]. Incluso, bacteriófagos que infectan a la misma especie bacteriana suelen mostrar identidad de secuencia nucleotídica limitada a ciertas regiones en el genoma o nula [6, 28]. Esta diversidad genética no solo se observa entre genomas de fagos ya que estos albergan una proporción considerable de genes que no presentan homología con secuencia alguna en base de datos [6]. Adicionalmente, los genomas fágicos suelen presentar un alto número de genes que codifican proteínas de función desconocida. Como ejemplo, solo 130 de los 230 genes que se estima son codificados en el genoma del fago modelo T4 tienen una función asignada a pesar de décadas de investigación por múltiples grupos en todo el mundo [26]. No obstante, en la mayoría de los casos este tipo de genes pueden representar del 30 al 50% del genoma fágico lo cual supera la proporción de los mismos reportada en plásmidos o genomas bacterianos [29]. Considerando la proporción de genes de función desconocida y aquellos únicos en secuencia en los genomas fágicos, junto con la estimación del número de fagos existentes en la biosfera, resulta plausible que estos entes representen el reservorio génico más abundante en la tierra y la fuente más grande de funciones no caracterizadas [6]. La característica más sobresaliente de los genomas fágicos es su aparente estructura de mosaico. Cada genoma representa una combinación única de

7 Adrián Cazares López Tesis de Doctorado módulos de distinto origen filogenético que parecen ser intercambiables en la población [6]. Aunque el mosaicismo también es observado en genomas bacterianos debido a múltiples eventos de transferencia horizontal de genes, el grado en el que se presenta en genomas de fagos es singular [6]. Comparaciones a nivel de nucleótidos muestran que los diferentes módulos que componen el genoma fágico presentan bordes bien definidos que a menudo coinciden posicionalmente con los extremos de ORFs [6]. Uno de los modelos que explica el origen del mosaicismo propone que el intercambio de genes o grupos de genes (módulos) se produce de forma aleatoria en la población dando lugar a un gran número de combinaciones no funcionales que posteriormente son eliminadas por procesos de selección permaneciendo así las combinaciones que mantienen el tamaño apropiado y las funciones génicas [30]. Las comparaciones de proteínas fágicas revelan que el mosaicismo también se manifiesta a nivel de las secuencias codificantes reforzando la teoría de que los eventos de recombinación ocurren en cualquier punto en el genoma [31, 32]. Una consecuencia directa del mosaicismo es que limita la posibilidad de realizar reconstrucciones filogenéticas de los genomas fágicos pues los distintos módulos exhiben diferente ancestría. Por lo tanto, la historia evolutiva no puede ser inferida como un todo sino como la suma de historias de cada uno de sus componentes [6, 30]. La caracterización de genomas fágicos de distintos hospederos ha permitido identificar ciertos tipos de organización genómica, i.e. orden génico, que suelen ser compartidos por fagos de diferentes especies bacterianas a pesar de no mostrar homología aparente en secuencia [26]. Los bacteriófagos T4, λ. P2 y Mu son algunos representantes de estos tipos de organización. Como ejemplo, fagos con la misma organización genómica que el colifago Mu han sido identificados en múltiples especies bacterianas, no obstante, dichos fagos solo comparten sintenia y no homología de secuencia a nivel de nucleótidos [33]. En términos generales, fagos que comparten morfología

8 Adrián Cazares López Tesis de Doctorado suelen mostrar sintenia en los genes ubicados en los módulos de morfogénesis del virión [6]. Esta observación parece particularmente evidente en fagos de la familia Siphoviridae donde el orden de los genes de la cabeza y cola es sumamente conservado [34]. El crecimiento reciente en el número de genomas bacterianos secuenciados ha evidenciado el impacto cuantitativo de los profagos en los genomas de sus hospederos [16, 35]. De hecho, se ha identificado que más de la mitad de los genomas bacterianos secuenciados portan profagos integrados con algunos casos presentando hasta 10% del genoma total de origen profágico [36]. Adicionalmente, algunos estudios han evidenciado que cepas patogénicas transportan un mayor número de genes relacionado a fagos que aquellas no patogénicas [revisado en [7]. En este sentido los profagos son responsables de una importante variabilidad genética intraespecífica en muchas bacterias [26]. Adicionalmente, en casos de polilisogenia en donde dos profagos residentes comparten homología de secuencia, eventos de recombinación homóloga pueden conducir a rearreglos en el genoma del hospedero impactando así su estructura [26]. Considerando la proporción de profagos identificados en diversos genomas bacterianos es posible que estos superen en número al total de genomas fágicos depositados en bases de datos [6]. A pesar del incremento en el número de genomas de fagos depositados en bases de datos, existe un sesgo muy claro hacia la secuenciación de bacteriófagos que infectan bacterias de interés clínico y biotecnológico. Una de estas especies bacterianas es Pseudomonas aeruginosa la cual representa uno de los principales patógenos nosocomiales a nivel mundial cuyas infecciones son difíciles de tratar, particularmente en el ambiente pulmonar. Diversos trabajos han demostrado la capacidad de Pseudomonas aeruginosa para adaptarse a diversas condiciones de estrés ambiental. Esta capacidad, asociada a factores genéticos como la hipermutabilidad o la alta plasticidad genómica, se relaciona directamente con la multiresistencia a antibióticos y la evolución de la virulencia de este patógeno oportunista [4, 17]. Ya sea

9 Adrián Cazares López Tesis de Doctorado como potenciales agentes terapéuticos o como factores promotores de adaptación y éxito ecológico, el estudio de bacteriófagos capaces de infectar P. aeruginosa ha ganado relevancia en las últimas décadas. A menudo este tipo de estudios requiere de la conformación y caracterización de grandes colecciones de fagos capaces de infectar dicho patógeno [17]. Tales trabajos se componen de al menos dos etapas: 1) aislamiento y clasificación de los bacteriófagos mediante procedimientos como microscopia electrónica u análisis de RFLP, entre otros; 2) secuenciación y anotación de los genomas fágicos y determinación de homología de ADN con fagos reportados previamente. Esta segunda etapa resulta crucial en la investigación de bacteriófagos por varios factores. Desde el punto de vista de la terapia fágica esta etapa es crucial para elegir candidatos claramente virulentos (no codifiquen proteínas involucradas en lisogenia, e.g. represor) que no presenten genes involucrados en virulencia (e.g. toxinas) o resistencia antibióticos [17]. Considerando el aspecto evolutivo, la determinación de las secuencias genómicas permite dilucidar las relaciones entre distintos fagos en términos de homología de secuencia, explorar su diversidad genómica e inferir los procesos que dan lugar a la arquitectura de los genomas [26, 30]. Las relaciones fago-bacteria, particularmente con bacteriófagos temperados, también pueden ser estudiadas a partir de análisis de genómica comparativa y funcional para determinar la presencia de profagos en genomas bacterianos e identificar eventos de transferencia horizontal y genes con funciones que incrementen el fitness del hospedero [16]. En nuestro laboratorio contamos con dos colecciones de bacteriófagos que infectan P. aeruginosa, una de ellas de fagos de vida libre y otra de bacteriófagos temperados, los cuales han sido caracterizados mediante distintos métodos [37-39]. Varios ejemplares de dicha colección han sido secuenciados abriendo la posibilidad de entrar a la etapa de estudio genómico que permita una mayor comprensión de la biología de los mismos en los rubros antes mencionados.

10 Adrián Cazares López Tesis de Doctorado

2) ANTECEDENTES Los estudios sobre Pseudomonas aeruginosa se han incrementado en la última década debido a la importancia biomédica de este patógeno oportunista multiresistente a antibióticos. Dicho interés ha ido de la mano con el estudio de los bacteriófagos que la infectan lo cual, sumado al desarrollo de nuevas tecnologías de secuenciación, ha impactado en el número de genomas secuenciados para este tipo de fagos. De hecho, los bacteriófagos de Pseudomonas representan el tercer grupo con más secuencias genómicas depositadas en bases de datos solo por debajo de los fagos de Mycobacterium y Staphylococcus [6]. Además, más del 70% de ellos corresponden a fagos que infectan P. aeruginosa. Esta proporción de genomas se debe en gran parte a que diversos grupos de investigación alrededor del mundo han establecido y caracterizados grandes colecciones de fagos capaces de infectar este patógeno bacteriano [28, 40-42]. La obtención y análisis de las secuencias genómicas ha permitido un entendimiento más profundo de la biología de los fagos de P. aeruginosa considerados como los mejores estudiados históricamente: ΦKMV, F116, ΦKZ, ΦCTX, D3112, DMS3, D3 y B3. El primer trabajo de análisis comparativo y funcional de genomas de fagos de P. aeruginosa corresponde al de Kwan y colaboradores en 2006 en donde fueron comparados 18 genomas, de los cuales 9 eran nuevos [28]. Los resultados de la anotación genómica y el análisis comparativo evidenciaron la diversidad proteica de estos fagos ya que 55% de las secuenciadas identificadas fueron reportadas como nuevas. Respecto a la diversidad entre los genomas analizados, el trabajo mostró que la arquitectura u organización genómica observada entre los mapas de los genomas analizados era distinta y mostraba poca relación en la mayoría de los casos. En 2010 Ceyssens y Lavigne reportaron un incremento de 37 en el número de genomas reportados para fagos de Pseudomonas respecto al año 2003 en donde solo existían 10, la mayoría de ellos fagos con genoma de ADN de

11 Adrián Cazares López Tesis de Doctorado cadena sencilla [21]. A pesar de que la mayoría de dichos genomas pertenecen a fagos de P. aeruginosa del orden Caudovirales, estos exhiben una considerable diversidad de morfologías en sus partículas virales. De forma interesante, los autores de este trabajo mostraron que dicha variedad morfológica es congruente con la diversidad genómica observada en los fagos de esta especie bacteriana. En dicha investigación se reporta la existencia de 8 géneros taxonómicos para fagos de P. aeruginosa los cuales presentan como característica principal una arquitectura genómica claramente distinguible. Tres de estos géneros fueron incluidos en la familia Podoviridae (ΦKMV-like, LUZ24-like y N4-like), dos en la familia Myoviridae (PB1-like y ΦKZ-like) y tres en la familia Siphoviridae (D3112-like, D3-like y YuA-like). Los géneros ΦKMV-like, PB1-like y D3112-like fueron los más abundantes [21]. Además, basados en comparaciones de secuencia nucleotídica, se identificaron un total de 6 grupos de genomas que comparten más de 80% de identidad de secuencia. Seis genomas permanecieron como especies que no mostraron relaciones de homología de secuencia extensa o sintenia entre sí y con ningún género reportado. Basados en la identificación de varios grupos fágicos que comparten altos niveles de identidad nucleotídica a pesar de la separación geográfica y temporal en sus aislamientos, Ceyssens y Lavigne proponen que en los fagos de P. aeruginosa la diversidad es grande pero finita [21]. A pesar del intercambio génico común observado entre fagos que infectan una misma especie bacteriana, los autores resaltan el hecho de que los grupos identificados representan genomas exitosos con arquitecturas particulares que son mantenidas establemente sobre escalas de tiempo y distancia ecológicamente significativas. En consecuencia, el aislamiento de fagos realmente nuevos para esta especie bacteriana sería un hecho poco común y la mayoría de los nuevos aislados representarían variaciones de fagos ya conocidos [21]. La hipótesis anterior sobre la clasificación de aislados nuevos de fagos de P. aeruginosa se ha visto reforzada con la adición de más genomas en los

12 Adrián Cazares López Tesis de Doctorado

últimos años y ha sido documentada por varios trabajos. Uno de ellos es el publicado por Krylov en 2014 en donde hace una revisión de los fagos que infectan P. aeruginosa y que representan prospectos para terapia fágica [17]. En dicho trabajo se muestra que, para fagos virulentos, se han reportado 15 genomas nuevos los cuales 10 pudieron ser clasificados fácilmente como miembros de 5 géneros ya conocidos y una de las especies no clasificadas debido a la evidente homología de secuencia detectada [17]. No obstante, los cinco genomas restantes formaron un grupo nuevo (PaP1-like) que no mostró relación con ninguno reportado anteriormente, demostrando así que un corto periodo tiempo fue posible aislar fagos novedosos en secuencia y arquitectura genómica. Cabe destacar que el fago KL1, clasificado dentro del grupo 73- like [17], fue aislado como fago de Burkholderia evidenciando que aislamiento y secuenciación de nuevos aislados fágicos podría llevar a la conexión, por medio de homología de secuencia, de fagos que infectan diversos hospederos bacterianos. En una revisión bibliográfica realizada por Pires y colaboradores en 2015 se reportó la existencia de 137 genomas completos de fagos de Pseudomonas reportados en bases de datos públicas de los cuales más de la mitad corresponde a fagos específicos de P. aeruginosa [4]. En dicha revisión los autores apuntan que el 85% de los fagos de esta especie bacteriana pertenecen al orden Caudovirales por lo que su genoma está compuesto por ADN de cadena doble. Cerca del 60% de estos genomas corresponden a fagos virulentos, 21.8% a fagos temperados y 18.2% a fagos no clasificados según su tipo de desarrollo [4]. El análisis de las familias taxonómicas a las que pertenecen los fagos virulentos evidenció que la mayoría forman parte de la familia Myoviridae (41%), seguidos por las familias Podoviridae (38%) y Siphoviridae (20%). Once géneros taxonómicos fueron identificados en este tipo de fagos aunque la mayoría no ha sido clasificado [4]. La distribución de los tamaños genómicos mostró que, en términos generales, los genomas de los Myovirus son los de mayor tamaño seguidos por los de Podovirus y

13 Adrián Cazares López Tesis de Doctorado

Siphovirus. Finalmente, según los datos recopilados en esta investigación, los fagos virulentos de P. aeruginosa tienen una distribución geográfica global y han sido aislados a partir de aguas residuales de alcantarillado y hospitalarias además de muestras de agua ambientales. En resumen, la secuenciación y análisis de genomas de fagos que infectan P. aeruginosa en la última década ha mostrado que este grupo presenta una gran diversidad genética que se ve reflejada en la cantidad de grupos de homología de secuencia y arquitectura genómica identificados [21, 28]. No obstante, dicha diversidad parece finita pues la adición de aislados nuevos frecuentemente lleva a la identificación de miembros de grupos previamente caracterizados. A pesar de ello, fagos con genomas novedosos o que muestran combinaciones únicas de módulos presentes en genomas reportados siguen siendo aislados alrededor del mundo [43, 44]. A la fecha, la mayoría de los genomas depositados en bases de datos corresponde a fagos virulentos, lo cual puede ser explicado por el sesgo de caracterización de agentes con potencial terapéuticos [4, 17]. Por lo tanto, la diversidad genética y relación genómica existente entre los fagos temperados de P. aeruginosa ha sido explorada pobremente. Además, la información de dicho tipo de fagos existente en genomas bacterianos tampoco ha sido objeto de un estudio detallado. A pesar de ello, la cantidad de información genómica existente en base de datos para los fagos de P. aeruginosa ofrece una fuente de datos robusta para llevar a cabo análisis comparativos y funcionales que permitan inferir las relaciones entre ellos y la diversidad de funciones codificadas en sus genomas. Recientemente en nuestro laboratorio se ha generado una colección de secuencias genómicas pertenecientes a fagos de P. aeruginosa virulentos y temperados que han sido caracterizados previamente por diferentes estrategias [37-39]. Como paso siguiente en la caracterización de dichos ejemplares, en este trabajo se pretende ensamblar, anotar y analizar estos genomas desde un enfoque comparativo y funcional que nos permita identificar si comparten homología con fagos reportados, inferir los

14 Adrián Cazares López Tesis de Doctorado mecanismos asociados a su arquitectura genómica, determinar su diversidad genética y deducir funciones codificadas en sus genes con el fin de aportar conocimiento sobre su biología.

15 Adrián Cazares López Tesis de Doctorado

3) JUSTIFICACIÓN

La genómica de bacteriófagos tiene como objetivos principales elucidar como se relacionan los genomas de estos virus entre sí y con sus hospederos, y qué papel juegan estas relaciones en la evolución tanto fágica como bacteriana. Asimismo, se busca inferir las funciones codificadas en dichos genomas. A la fecha se ha generado una gran cantidad de información sobre genomas fagicos, sin embargo, la constante obtención y análisis de nuevos ejemplares sigue añadiendo información valiosa sobre su diversidad. Dada la necesidad de ahondar en el conocimiento sobre la genética, distribución y filogenia de fagos que infectan P. aeruginosa, en este trabajo se propone realizar un estudio genómico comparativo y funcional detallado que permita generar conocimiento sobre de la biología de este grupo de virus y el impacto que tienen sobre su hospedero.

16 Adrián Cazares López Tesis de Doctorado

4) OBJETIVOS

4.1 Objetivo General

Conducir un estudio comparativo global entre los genomas fágicos de la colección del laboratorio y aquellos depositados en bases de datos y, de forma paralela, un estudio funcional que permita la asignación de funciones al mayor número de ORFs fágicos que no la presenten.

4.2 Objetivos particulares

1. Ensamblar, anotar y clasificar los genomas fágicos pertenecientes a la colección del laboratorio.

2. Asignar funciones a los ORFs fágicos identificados mediante criterios de homología de secuencia, presencia de dominios conservados, sintenia y homología estructural.

3. Realizar el análisis proteómico de los viriones de fagos representantes de distintos grupos.

4. Realizar un análisis genómico comparativo entre los miembros de determinados grupos fágicos para definir sus pangenomas (genoma core y accesorio).

5. Estandarizar una estrategia para la identificación In silico de elementos fágicos que residen en genomas de P. aeruginosa

17 Adrián Cazares López Tesis de Doctorado

5) ESQUEMA GENERAL DE TRABAJO

18 Adrián Cazares López Tesis de Doctorado

6) MATERIALES Y MÉTODOS 6.1. Ensamble de las secuencias genómicas Cuarenta y ocho ejemplares de la colección de bacteriófagos de P. aeruginosa del laboratorio 3 del departamento de Genética y Biología Molecular fueron secuenciados de forma previa al inicio del presente trabajo. El proceso de secuenciación se llevó a cabo en el Laboratorio Nacional de Genómica para la Biodiversidad (LANGEBIO, Irapuato, México) mediante las tecnologías Roche/454 y SOLiD. Las lecturas obtenidas por el método 454 fueron preprocesadas con el ensamblador Newbler usando los valores establecidos por defecto. Las lecturas provenientes de la tecnología SOLiD se preprocesaron con los accesorios de ensamble de novo de Applied Biosystems. Los genomas fágicos fueron ensamblados de novo mediante el uso del ensamblador Velvet v1.1 [45]. Los ensambles obtenidos fueron refinados por inspección para la resolución de ambigüedades con la ayuda del programa Tablet NGS assembly visualization [46] para la visualización de los mismos. El ensamble del total de las secuencias genómicas se realizó bajo un esfuerzo colaborativo por los M. en C. Víctor M. Flores López, Otoniel Maya Lucas y Adrian Cazares López. En los casos de los genomas de los grupos D3112virus (Capítulo 2) y B3-like (Capítulo 4), el final de las secuencias fue determinado recortando las lecturas mapeadas en ambos extremos hasta la posición del ultimo nucleótido conservado en todos los casos. Las lecturas recortadas fueron almacenadas en un archivo Multi- FASTA y examinadas mediante búsquedas tipo BLASTn (http://blast.ncbi.nlm.nih.gov/) para determinar su homología con secuencias de P. aeruginosa depositadas en GenBank (http://www.ncbi.nlm.nih.gov/genbank/).

6.2. Anotación de genomas Los marcos de lectura abierta (ORFs por sus siglas en Ingles) de los genomas analizados fueron predichos mediante el uso de Modelos Ocultos de Markov

19 Adrián Cazares López Tesis de Doctorado con el programa GeneMark v1.1 [47]. La posición en el genoma de los ORFs detectados fue certificada o corregida por medio de la identificación de sitios putativos de unión a ribosoma con el algoritmo rbs_finder.pl [48]. La determinación y visualización de los perfiles de contenido de GC para diferentes genomas se realizó con ayuda del programa Artemis [49]. Las regiones no codificantes de los genomas fágicos fueron escaneadas para la presencia de secuencias promotoras putativas con los programas BPROM (Softberry, Inc. http://www.softberry.com/berry.phtml) y Neural Network Promoter Prediction (NNPP:http://www.fruitfly.org/seq_tools/promoter.html) [50]. Las secuencias promotoras identificadas fueron posteriormente analizadas para la presencia de sitios de unión a factores transcripcionales específicos para P. aeruginosa con la herramienta online de análisis de promotores albergada en la página web de la base de datos PRODORIC (http://www.prodoric.de/vfp/) [51]. Las funciones de los ORFs predichos fueron inferidas a partir de: 1) búsquedas tipo BLASTp de los productos de los ORFs contra la base de datos no redundante de NCBI, 2) búsquedas de dominios conservados de proteínas con InterProScan [52] y NCBI-CDD [53]. La herramienta de anotación de Artemis [49] fue utilizada para integrar los resultados de BLAST, InterProScan y CDD y realizar la anotación funcional del genoma. En varios casos las funciones de los ORFs fágicos también fueron inferidas a partir de homología estructural. Para ello, la secuencia de las proteínas seleccionadas fue enviada al servidor de la plataforma I-TASSER (http://zhanglab.ccmb.med.umich.edu/I-TASSER/ [54]) para el modelamiento computacional de su estructura tridimensional. Los modelos con un C-score mínimo de -3, o mayor, fueron considerados predicciones estructurales confiables. Valores mínimos de TM-score y cobertura de 0.5 y 0.6, respectivamente, además de congruencia funcional entres los matches observados para cada modelo examinado, fueron los criterios tomados en cuenta para considerar un alineamiento estructural significativo y así

20 Adrián Cazares López Tesis de Doctorado asignar una función putativa con base a la descrita para el homólogo estructural.

6.3. Análisis comparativo La clasificación de los genomas de los fagos del laboratorio contra aquellos de Pseudomonas depositados en RefSeq se llevó a cabo mediante BLASTn en una estrategia all-vs-all. Para tal fin se creó una base de datos con todos los genomas a comparar con la ayuda de la aplicación makeblastdb integrada en la paquetería de BLAST+ (https://www.ncbi.nlm.nih.gov/books/NBK279688/ [55]). Un archivo Multi-FASTA conteniendo las secuencias nucleotídicas de los genomas sujetos a comparación fue usado como query contra la base de datos previamente creada y los resultados fueron exportados en formato tabular. Los porcentajes de identidad de secuencia nucleotídica total para cada comparación se calcularon multiplicando el porcentaje de identidad por el porcentaje de cobertura obtenidos en el alineamiento y dividiendo dicho resultado entre cien. Aquellos genomas que exhibieron porcentajes de identidad total igual o mayor a 70 se agruparon en géneros taxonómicos (ver Capítulo 1). La comparación de la secuencia genómica de Ps54 con el genoma de la cepa DHS01 se llevó a cabo con BLASTn y el resultado se exportó en formato tabular. La comparación se visualizó con la herramienta ACT [49] a la cual se le proporcionaron el archivo de comparación obtenido con BLASTn y los genomas fágico y bacteriano en formato gbk. Genomas homólogos a los fagos de estudio (Capítulos 2, 3 y 4) fueron identificados en la base de datos GenBank de NCBI (https://www.ncbi.nlm.nih.gov/genbank/). Dichos genomas se detectaron mediante búsquedas BLASTn usando como query las secuencias de los fagos PaMx73 y MP22 para el caso del grupo D3112virus, F116 para los F116virus y Fc02 y Ps60 en el caso del grupo B3-like. Las búsquedas se filtraron a los taxa Caudovirales (taxid:28883) y Bacteria (taxid:2) para identificar y

21 Adrián Cazares López Tesis de Doctorado diferenciar genomas fágicos y profagos, respectivamente. En el caso de los profagos encontrados, la determinación de sus extremos, y por ende longitud total y sitio de inserción, se llevó a cabo mediante comparación e inspección. 3 Kpb upstream y downstream de la última región de identidad entre las secuencias fágica y profágica se compararon con una base de datos local de genomas de P. aeruginosa (ver abajo, Capítulo 5: Identificación In silico de elementos fágicos). Los alineamientos obtenidos fueron inspeccionados para identificar el ultimo nucleótido conservado entre las cepas que no portan un profago u otro elemento genético móvil en la región de estudio. Dichos nucleótidos conservados fueron considerados como el borde profago-bacteria en el genoma analizado y como el sitio de inserción. En el caso de los profagos transponibles, se buscaron también los dinucleotidos 5’TG que han sido reportados como conservados en los extremos de este tipo de genomas [27, 56]. Los mapas genómicos bacterianos que indican la posición de dichos sitios de inserción fueron elaborados con el programa DNAPlotter [57]. Todas las comparaciones genómicas por pares fueron realizadas con BLASTn [55] y visualizadas con ACT [49]. El árbol tipo neighbor-joining que refleja la similitud existente entre genomas del grupo D3112virus fue dibujado con el programa FigTree (http://tree.bio.ed.ac.uk/software/figtree/) y construido a partir de un alineamiento múltiple de los genomas realizado con Mauve [58] usando los valores de ajuste predeterminados. Los mapas genómicos presentados en este estudio fueron creados con ayuda de un script hecho en el laboratorio por el M. en C. Víctor M. Flores. Las comparaciones genómicas por grupo fágico a nivel aminoacídico se llevaron a cabo bajo una estrategia all-vs-all utilizando BLASTp [55] para identificar los ORFs correspondientes a los componentes core y accesorio del pangenoma. Los ORFs fágicos fueron considerados homólogos si eran sinténicos entre los genomas comparados y su e-value era de 1e-05, o menor, según el resultado de BLASTp. La comparación de secuencias proteicas se usó también para detectar ORFs que fueron pasados por alto en la anotación de los genomas obtenidos de

22 Adrián Cazares López Tesis de Doctorado

GenBank. Los ORFs identificados de esta manera fueron integrados a una segunda ronda de comparación para determinar el pangenoma de forma más robusta. El número de homólogos depositados en GenBank para los diferentes ORFs fágicos del pangenoma se determinó también con búsquedas BLASTp contra la base de datos de proteínas no redundante de NCBI. Las secuencias detectadas como similares se consideraron homólogos confiables si las secuencias comparadas compartían al menos 75% de su longitud total, presentaban un mínimo de 75% en cobertura en el alineamiento y su e-value era de 1e-03 como mínimo. La información sobre el organismo cuyo genoma codificaba la proteína homóloga fue utilizada para clasificar los hits encontrados en las categorías Virus y Bacteria. Matches con proteínas codificadas en vectores (e.g. plásmidos) fueron eliminadas del análisis comparativo. El alineamiento basado en estructura secundaria de proteínas integrasas del grupo F116virus se llevó cabo en el servidor del programa PRALINE (http://www.ibi.vu.nl/programs/PRALINEwww/ [59]).

6.4. Propagación y purificación de bacteriófagos La cepa PA14 fue usada como hospedero de los fagos del grupo D3112virus mientras que la cepa PAO1 fue el hospedero de los fagos tipo F116virus y B3-like. Los bacteriófagos fueron propagados mediante ensayos de infección sobre tapices bacterianos de sus cepas hospederas con el método de capa de agar suave [60]: 100 μl de stock de fagos con un título de ~108 ufp/ml fueron mezclados con el uso de vortex con 150 μl de un cultivo overnight de P. aeruginosa y 3.5 ml de medio TΦ suave previamente derretido. La mezcla se depositó en una caja Petri con medio TΦ solido e incubada overnight a 37°C hasta llegar a la lisis confluente del tapiz bacteriano. Las partículas fágicas fueron recuperadas raspando la capa superior de agar y añadiendo 5 ml de medio TMG modificado (50 mM TrisHCL-pH 8, 10 mM MgSO4, 100 mM NaCl, and 0.01% Gelatine) a la superficie de la caja. La suspensión conteniendo el agar fue recuperada de la caja y se agito lentamente durante

23 Adrián Cazares López Tesis de Doctorado

5 horas a 4°C. Este procedimiento se realizó con cinco cajas cuya suspensión se integró un solo tubo para tener así un volumen final de 25 ml. Posteriormente, la suspensión fue centrifugada a 9300 g durante 10 minutos. El sobrenadante de la suspensión fue tratado con DNAasa I y RNAsa a una concentración de 1 μl/ml durante 30 minutos a 37°C. Las partículas fágicas fueron precipitadas en NaCl 1.4 M y 16% w/v de PEG 8000 a 4°C durante toda la noche. Subsecuentemente, las partículas virales fueron concentradas por centrifugación a 8000 g por 30 minutos y purificadas por gradientes de CsCl. Para ello, se preparó un gradiente discontinuo con cuatro soluciones de cloruro de cesio con densidades de 1.7, 1.5, 1.3 y 1.08. La muestra del fago precipitada con PEG fue diluida con 1 ml de la solución de cesio con densidad de 1.08 y se colocó en la parte superior del gradiente. El gradiente fue centrifugado a 22,000 rpm durante 2:30hrs a 4°C utilizando tubos ultra-clear de Beckman de 12.5 ml y una ultracentrífuga Optima XL-100K de Beckman con el rotor SW40Ti. La banda correspondiente al fago se extrajo con una jeringa con aguja de 25G y la suspensión obtenida fue dializada posteriormente. El stock de bacteriófagos purificado fue almacenado a 4°C en condiciones oscuridad hasta su uso.

6.5. Microscopia electrónica La microscopia electrónica de PaMx73 y H70 se llevó a cabo con los stocks dializados de bacteriófagos purificados por CsCl. 10 μl de stock fueron depositados sobre una rejilla para microscopia electrónica recubierta con formval al 0.3% y se incubaron a temperatura ambiente por 5 minutos. El exceso de solución se retiró con papel filtro y la rejilla fue teñida dos veces con acetato de uranilo al 2%, pH7 por 30 segundos y 2 minutos, respectivamente. Las preparaciones fueron examinadas en un microscopio electrónico de transmisión JEM-2000 a 80 Kv. Las dimensiones de los viriones fueron calculadas a partir de las mediciones de 15 partículas virales.

24 Adrián Cazares López Tesis de Doctorado

6.6. Espectrometría de masas 20 μl de un stock concentrado de fagos purificados por CsCl se resuspendieron en buffer de carga Laemmli y se hirvieron por 5 minutos. Los componentes proteicos de los viriones en la mezcla fueron separados mediante SDS-PAGE en un gel de acrilamida al 10% para el caso de los fagos PaMx73 y Fc02 y al 12% para los fagos H66 y LKA5. El gel fue resuelto a 180 volts durante 1.5 horas. Las bandas correspondientes a las proteínas de las partículas virales fueron teñidas con Azul de Coomassie R250. Los marcadores de peso molecular “SDS-PAGE broad range protein standard (BioRad Hercules, CA, USA)” y “Precision Plus Protein Dual Xtra (BioRad Hercules, CA, USA)” fueron usados para estimar el peso molecular de las proteínas observadas en PaMx73 y el resto de los fagos analizados, respectivamente. Las bandas del gel fueron recortadas cuidadosamente, desteñidas por 12 horas y digeridas en-gel con tripsina grado espectrometría de masas (Promega, Madison, WI, USA). Los péptidos fueron extraídos y analizados por espectrometría de masas en tandem con el sistema LC_ESI_MS/MS en el Laboratorio de Péptidos y Proteínas de la Facultad de Medicina de la UNAM para el caso de los fagos PaMx73 y Fc02, y con el equipo LTQ-Orbitrap Velos en la Unidad de Proteómica del CINVESTAV Irapuato para los fagos H66 y LKA5. El análisis de identificación de proteínas se llevó a cabo con los algoritmos de búsqueda de MASCOT v1.6b9 (http://www.matrixscience.com) para los datos provenientes del análisis de PaMx73 y Fc02, y Trans Proteomic Pipeline v4.8.0 [61] para los datos de los fagos H66 y LKA5.

6.7. Extracción de ADN El ADN viral fue extraído a partir de los viriones purificados por CsCl por el método de fenol-cloroformo. 500 μl del stock de fagos se mezcló en vortex con un volumen igual de fenol-cloroformo y fue centrifugado a 5,724 g durante 5 minutos. La fase acuosa fue recuperada y se le agrego un volumen de

25 Adrián Cazares López Tesis de Doctorado cloroformo y la suspensión se mezcló en vortex y se centrifugó a 5,724 g por 5 minutos. Posteriormente, se recuperó la fase acuosa, se le agregaron dos volúmenes de etanol absoluto para precipitar el ADN y se centrifugó a 17,530 g durante 30 minutos. El ADN empastillado se lavó dos veces con etanol al 70% y se centrifugó a 8,944 g por 10 minutos. El sobrenadante fue descartado, la pastilla de ADN se secó a baja temperatura, se resuspendió en 20 μl de agua inyectable estéril y se almaceno a -20ºC hasta su uso. La extracción de ADN genómico de la cepa PA14, usada como control negativo en los experimentos mostrados en la Figura 2.5, se realizó siguiendo el protocolo reportado previamente [62]. La integridad de todas las muestras de ADN obtenidas se verificó mediante electroforesis en gel de agarosa al 1% el cual fue visualizado mediante tinción con Bromuro de Etidio.

6.8. Aislamiento de cepas lisógenas Los bacteriófagos de interés fueron propagados sobre tapices bacterianos de sus cepas hospederas para obtener placas líticas claramente aisladas. Los centros de diez placas líticas fueron picados con un asa de siembra y estriados en una caja Petri con medio LB que se incubo a 37ºC hasta obtener colonias bacterianas aisladas (~18 horas). Se eligió una colonia bacteriana proveniente de cada paca lítica y se estrió en una nueva caja de LB. Este proceso se repitió tres veces en total para eliminar la posibilidad de acarreo de fago en las cepas candidatas a lisógenas a ser evaluadas. 5 ml de medio LB liquido se inocularon con las colonias bacterianas del tercer pase de siembra y se incubaron a 37ºC durante toda la noche. 1 ml de cada cultivo se centrifugó a 10,000 g durante 10 minutos, se recuperó el sobrenadante y fue goteado sobre un tapiz bacteriano de la cepa silvestre para evaluar la producción de fago por las cepas candidatas a lisógenas. Dicha producción fue evidenciada por la formación de placas líticas. 150 μl de los cultivos overnight se usaron para preparar tapices de las cepas candidatas a

26 Adrián Cazares López Tesis de Doctorado lisógenas y fueron retados contra el fago de interés mediante ensayos de goteo para determinar inmunidad. Se seleccionaron como cepas lisógenas aquellas capaces de producir fago en el sobrenadante y ser resistentes a la infección por el fago parental. La presencia del fago en las cepas lisógenas también se evidenció mediante PCR (ver abajo).

6.9. Análisis por PCR Los oligos descritos en las Tablas 2.1 y 3.1 fueron diseñados con ayuda del programa Primer-BLAST (https://www.ncbi.nlm.nih.gov/tools/primer-blast/ [63]). Primer-BLAST se utilizó también para determinar el tamaño teórico de los amplicones esperados en los genomas de interés con el uso de los diferentes pares de oligos diseñados. Las reacciones de PCR convencionales se realizaron en un volumen final de 10 μl los cuales incluyeron: 5 μl de master mix (GoTaq Green Master Mix, PROMEGA), 2 μl de ADN molde (~20 ng/ μl), 0.25 μl de oligo forward (10 μM) (ver Tablas 2.1 y 3.1), 0.25 μl de oligo reverse (10 μM) (ver Tablas 2.1 y 3.1) y 2.5 μl de agua inyectable estéril. Las PCR de colonia se ajustaron a una mezcla de reacción con volumen final de 10 μl que incluyo: 5 μl de master mix (GoTaq Green Master Mix, PROMEGA), 3 μl de ADN molde, 0.25 μl de oligo forward (10 μM), 0.25 μl de oligo reverse (10 μM) y 1.5 μl de agua inyectable estéril. En este caso, el ADN molde proviene de una suspensión que contenía una colonia bacteriana aislada que fue resuspendida en 20 μl de agua inyectable estéril y calentada a 95ºC durante 5 minutos. Las condiciones de amplificación corresponden a: Desnaturalizacion inicial a 96ºC por 10 minutos, 35 ciclos de: desnaturalización a 96ºC por 30 segundos, hibridación de oligos a una temperatura 5ºC menor a la TM de diseño, extensión a 72ºC por un minuto y un paso de extensión final a 72ºC por 10 minutos. Cabe resaltar que en las PCRs de colonia para la RGP G, en sus dos versiones de oligo Forward, se utilizó una temperatura de hibridación de

27 Adrián Cazares López Tesis de Doctorado oligos 5ºC mayor a la TM de diseño para evitar la aparición de productos inespecíficos. Las reacciones de amplificación fueron visualizadas mediante electroforesis en gel de agarosa al 1% que fue teñido con Bromuro de Etidio. Un marcador de peso molecular Long Range DNA Ladder (Jena Bioscience) fue incluido en todos los geles para verificar el tamaño de los amplicones resueltos en el gel.

6.10. Identificación In silico de elementos fágicos Las secuencias genómicas de P. aeruginosa depositadas en la base de datos de ensamble de NCBI fueron examinadas para determinar si eran adecuadas para estudiar su contenido de elementos fágicos. El criterio de selección fue el grado de ensamble de las secuencias genómicas por lo cual se eligieron los 34 genomas completos albergados en las categorías “complete” y “chromosome”. Los números de acceso de las secuencias genómicas elegidas fueron usados en un script hecho en el laboratorio para automatizar el uso del programa de identificación PHAST [64]. A partir de los resultados arrojados por PHAST se recuperaron solo las coordenadas que indican la posición de los elementos fágicos identificados y el score asignado para tales identificaciones. El archivo gbk de los 34 genomas fue procesado por los scripts disponibles en la paquetería de PhiSpy [65] para producir directorios de entrada para cada genoma requeridos para el análisis por este programa. Dichos directorios fueron analizados con PhiSpy para la identificación de profagos. Las coordenadas de los elementos identificados fueron recuperadas. La detección de elementos mediante dominios conservados partió de la identificación de dominios existentes en una base de datos no redundante de proteínas codificadas en los genomas de fagos de Pseudomonas depositados en RefSeq. La identificación de dominios en la base de datos mencionada se llevó a cabo mediante el uso del programa RPS- BLAST [66] contra la base de datos de dominios CDD [66]. Un archivo conteniendo el identificador, nombre y descripción de los diferentes dominios

28 Adrián Cazares López Tesis de Doctorado identificados fue generado a partir del análisis para su uso posterior. El archivo fue examinado para la presencia de términos relacionados a fago en las descripciones de cada dominio mediante el uso del comando grep. Dos nuevos archivos fueron generados a partir de la búsqueda los cuales albergan los dominios que presentaron los términos de búsqueda relacionados a fago y aquellos en donde dicho termino estuvo ausente. Los identificadores de los dominios conservados enlistados en los archivos descritos anteriormente fueron usados en búsquedas de términos con el comando grep contra listas de dominios generados para cada una de las 34 secuencias genómicas de P. aeruginosa. Dichas listas provienen de búsquedas de dominios en las secuencias codificantes de los genomas de P. aeruginosa las cuales fueron generadas previamente en el laboratorio del Dr. Gabriel Moreno Hagelsieb. Las coordenadas de los ORFs que contienen algún dominio de las listas de dominios descritas previamente fueron almacenadas para cada genoma analizado. Las coordenadas de identificación de los elementos identificados por PHAST y PhiSpy, además de las de los ORFs con dominios identificados en proteínas fágicas, fueron usadas para el mapeo de dichos elementos en los genomas de las cepas correspondientes con el uso de DNAPlotter [57].

29 Adrián Cazares López Tesis de Doctorado

7) CAPÍTULO 1: Caracterización y clasificación genómica de bacteriófagos de P. aeruginosa aislados en México. Resultados Secuenciación y ensamble El laboratorio cuenta con una colección de fagos capaces de infectar P. aeruginosa de los cuales 69 corresponden a fagos virulentos que han sido aislados de fuentes ambientales [39] y 78 a fagos temperados aislados a partir de cepas clínicas [38]. Cuarenta y ocho de estos fagos (37 virulentos y 11 temperados) fueron elegidos para ser secuenciados y continuar con su caracterización a nivel genómico (Tabla 1.1). Dichos ejemplares incluyen representantes de 10 grupos de fagos virulentos [39] y 3 de fagos temperados. Los grupos PaMx10-like, PaMx41-like, Fc02-like y PaMx13-like fueron los que tuvieron un mayor número de representantes secuenciados con 10, 7, 7 y 6, respectivamente (Tabla 1.1). Una vez secuenciados, los genomas fueron ensamblados y clasificados según el grado de fragmentación del ensamble. Los genomas ensamblados en un solo contig se consideraron dentro de la categoría “Completo”, aquellos con pocos contigs de gran tamaño que podrían ser completados mediante primer walking se clasificaron como “Gap filling” y los que quedaron altamente fragmentados presentando un alto número de gaps fueron asignados a la categoría “Resecuenciación”. Veintisiete genomas fueron ensamblados en un solo contig por lo que se consideraron completos (Tabla 1.1). La mayoría de dichos genomas pertenecen a fagos de los grupos Fc02-like y PaMx41-like. Además, doce de los catorce grupos reconocidos en nuestro laboratorio presentaron al menos un representante con genoma completo. Todos los genomas completos y algunos de los pertenecientes a la categoría “gap filling” fueron anotados (ver Capítulos 2-4 para detalles sobre la anotación). A la fecha, diecisiete genomas han sido enviados a GenBank y cuentan con un número de acceso asignado (Tabla 1.1).

30 Adrián Cazares López Tesis de Doctorado

Tabla 1.1. Estatus de secuenciación de la colección de fagos del laboratorio. Fago Estatus Tamaño arquetipo - Miembros Tecnología de Estatus de No. de de del Tipo de del grupo secuenciación ensamble acceso anotación genoma desarrollo

PaMx41 SOLiD Completo Anotado 43490 KU884563

PaMx1 454 Completo Anotado 43537

PaMx41*[6] PaMx33 SOLiD Completo Anotado 43265 KU884561

- PaMx35 SOLiD Completo Anotado 43733 KU884562 Virulento PaMx43 SOLiD Completo Anotado 43223 KU884564

PaMx32 SOLiD Gap filling 41547 JQ067091

PaMx46 SOLiD Completo Anotado 43266 PaMx46

PaMx10 454 Completo Anotado 42954 JQ067086

PaMx6 SOLiD Gap filling ND

PaMx30 SOLiD Gap filling Anotado ND

PaMx44 454 Completo Anotado 43210 PaMx10*[2] PaMx47 SOLiD Gap filling Anotado ND - Virulento PaMx50 SOLiD Gap filling ND

PaMx52 SOLiD Gap filling ND

PaMx53 SOLiD Gap filling ND

PaMx57 SOLiD Gap filling Anotado ND

PaMx58 SOLiD Gap filling ND PaMx42*[1]

- PaMx42 SOLiD/454 Completo Anotado 43225 JQ067092 Virulento

PaMx13 454 Completo Anotado 66450 JQ067083

PaMx14 SOLiD Resecuenciación ND PaMx13*[2] PaMx16 SOLiD Resecuenciación ND - Virulento PaMx19 SOLiD Resecuenciación ND

PaMx65 454 Completo Anotado 65824

PaMx79 SOLiD Resecuenciación ND

31 Adrián Cazares López Tesis de Doctorado

PaMx39 454 Completo Anotado 93227 PaMx39*[2] PaMx38 454 Completo Anotado ND - Virulento PaMx31 454 Completo Anotado 93493 JQ067090

PaMx59 454 Resecuenciación ND PaMx12

- PaMx12 SOLiD Resecuenciación 77914 JQ067088 Virulento PaMx11*[1]

- PaMx11 SOLiD Completo Anotado 59878 JQ067087 Virulento

PaMx25*[1] PaMx25 454 Completo Anotado 57788 JQ067084

- PaMx23 SOLiD Resecuenciación ND Virulento PaMx70 SOLiD Resecuenciación ND PaMx28*[1] PaMx28 454 Completo Anotado 55108 JQ067089 - Virulento PaMx27 SOLiD Resecuenciación ND PaMx74*[1] PaMx74 454 Completo 58637 JQ067093 - Virulento PaMx77 SOLiD Resecuenciación ND PaMx73*[2] PaMx73 454 Completo Anotado 36570 JQ067085 - Temperado H70 SOLiD Completo Anotado 37359 NC_027384

Fc02 454 Completo Anotado 38122

H72 454 Completo Anotado 38579

Fc02*[7] H71 454 Completo Anotado 38223

- Fc22 454 Completo Anotado 38255 Temperado Ps56 454 Completo Anotado 39816

Ps59 454 Completo Anotado 39020

Ps60 454 Completo Anotado 39676 H66*[1]

- H66 454 Completo Anotado 65270 KC262634 Temperado Ps54 Ps54 SOLiD Gap filling Anotado ND -

32 Adrián Cazares López Tesis de Doctorado

Temperado Notas: Las celdas en gris resaltan el caso del genoma de PaMx38 que, debido a un error, corresponde al genoma de PaMx13 que fue secuenciado por duplicado. Las celdas en blanco indican que el genoma correspondiente no ha sido anotado o enviado a GenBank según sea el caso en las columnas 5 y 7. En la columna 6, ND corresponde a No Determinado. En la columna 1, * indica que al menos un representante del grupo cuenta con genoma completo y el número total de genomas del grupo con dicho estatus es indicado entre corchetes [n].

Clasificación Los bacteriófagos pueden ser clasificados taxonómicamente a nivel de familia con base a la morfología de sus partículas virales [3], sin embargo, la clasificación a nivel de género requiere información genómica para determinar la relación que guardan las secuencias en términos del nivel de identidad nucleotídica. El total de fagos virulentos de la colección del laboratorio y la mayoría de los temperados ya han sido clasificados a nivel de familia por lo que en este trabajo se decidió determinar los niveles de identidad de secuencia nucleotídica de los genomas completos del laboratorio respecto a aquellos de fagos de Pseudomonas reportados en GenBank con el fin de inferir sus relaciones genómicas y determinar el género taxonómico al que pertenecen. Las secuencias nucleotídicas de los veintisiete genomas completos del laboratorio más aquellas de los fagos PaMx12 y PaMx32 fueron comparadas mediante BLASTn con los cien genomas fágicos de Pseudomonas depositados en la base de datos RefSeq de NCBI. A pesar de no estar completos, los genomas de PaMx12 y PaMx32 se consideraron en la comparación ya que estudios previos de sus secuencias determinaron la existencia de homología extensa con otros genomas de fagos de Pseudomonas [39] por lo que podrían se clasificados con el nivel actual de ensamble de sus genomas. Setenta y siete de los genomas depositados en RefSeq correspondieron a fagos capaces de infectar P. aeruginosa mientras que los 23 restantes tienen como hospederos a las especies P. syringae, P. tolaasii, P. chlororaphis, P. putida, P. fluorescens y P. plecoglossicida.

33 Adrián Cazares López Tesis de Doctorado

Según el Comité Internacional sobre Taxonomía de Virus (ICTV por sus siglas en inglés) la clasificación actual de los bacteriófagos se basa principalmente en la identidad de secuencia nucleotídica total la cual puede ser estimada como una función del porcentaje de identidad y cobertura obtenidos a partir de alineamientos con BLASTn [Andrew M. Kropinski, Presidente del Subcomité de Virus de Bacterias y Arqueas del ICTV, comunicación personal]. De esta manera, si dos fagos muestran identidad de secuencia mayor a 70% se puede considerar que pertenecen al mismo género taxonómico. Los resultados de la clasificación de los genomas comparados se resumen en la Tabla 1.2. Con base en el valor de corte mencionado anteriormente, 60 géneros fágicos fueron identificados, 39 de ellos agrupando a fagos de P. aeruginosa. Es importante hacer notar que este número contrasta considerablemente con los diecisiete géneros reconocidos oficialmente por el ICTV en la actualidad. Como se esperaba, el número de genomas no se distribuyó homogéneamente entre los grupos identificados y se determinó que los géneros más abundantes corresponden a D3112virus, Pbunavirus, Phikmvvirus y 119X-like que incluyeron 13, 12, 9 y 9 genomas, respectivamente, lo cual representa aproximadamente el 45% de los fagos de P. aeruginosa comparados (Tabla 1.2). Desde el punto de vista de familias taxonómicas, los genomas de Siphovirus fueron los más abundantes seguidos por los de Podovirus y Myovirus que incluyeron 45, 42 y 32, respectivamente. Los genomas de los fagos del laboratorio fueron incluidos en 14 géneros distintos con la mayoría siendo clasificados en los grupos 119X-like y Fc02- like (Tabla 1.2). Es importante mencionar que en estos casos los fagos del laboratorio constituyeron la mayoría del grupo (119X-like) o el grupo en su totalidad (Fc02-like). De forma similar, los grupos PaMx31-like, Ps60-like, PaMx42-like, PaMx28-like, PaMx11-like, PaMx25-like y PaMx74-like se conformaron exclusivamente por fagos del laboratorio. Con excepción de PaMx31-like, los grupos restantes fueron representados por un solo genoma. En resumen, quince de los veintinueve genomas comparados del laboratorio

34 Adrián Cazares López Tesis de Doctorado fueron clasificados en 6 géneros que incluyen fagos de P. aeruginosa depositados en RefSeq (Pbunavirus, 119X-like, D3112virus, Pakpunavirus, Septima3virus y F116virus), cinco de ellos reconocidos por el ICTV, mientras que los catorce restantes conformaron 8 géneros que no incluyen fagos reportados a la fecha (Tabla 1.2). Durante la comparación genómica, además de los fagos que compartieron más del 70% de identidad nucleotídica, se identificaron casos que mostraron niveles de identidad por debajo del valor corte para ser clasificados dentro un género en particular y casos que no exhibieron identidad de secuencia significativa según los parámetros estándar de BLAST. Estos últimos casos fueron considerados “singletons” y correspondieron a los genomas de los fagos PaMx11, PaMx25, EL, PaBG, PhiKZ, LKA1, Pf1, Pf3, PP7, PRR1, PhiPSA1, Phi_Pto-bp6g, 201phi2-1, Lu11, OBP, PhiPsa374, PPpW-3, Phi15, AF, Bf7, phi-2, tf, Phi-8, Phi-6, Phi-12, Phi-13, Phi2954. De estos veintisiete genomas solo los diez primeros fagos tienen como hospedero P. aeruginosa. En contraste, los géneros D3112virus, MP22-like, PaMx42-like, Luz24virus, PaP3-like y Septima3virus mostraron niveles de identidad nucleotídica mayores a 50% con otros grupos. En particular, fagos del grupo MP22-like mostraron hasta 68.8% de identidad nucleotídica con genomas del grupo D3112virus. Estos resultados demuestran la complejidad de las relaciones genómicas existentes entre los genomas de los fagos que infectan bacterias del género Pseudomonas y que va más allá de la clasificación taxonómica de los mismos.

35 Adrián Cazares López Tesis de Doctorado

Tabla 1.2. Clasificación taxonómica de fagos de Pseudomonas.

Tamaño Tipo de Número de Familia Género Miembros del Género * Hospedero genómico (rango GC% ^ genoma # ORFs en pb)

D3112, H70, MP29, JBD5, PaMx73, JD024, PA1-KOR-2010, MP48, D3112virus P. aeruginosa 34553 – 37740 50 - 59 64.34 MP42, JBD30, DMS3, MP38, JBD24

Fc02-like Fc02, H72, H71, Fc22, Ps59, Ps56 P. aeruginosa 38122 - 39816 53 - 57 62.81

73, PaMx44, PaMx10, Septima3virus vB_PaeS_SCH_Ab26, vB_Pae- P. aeruginosa 42844 - 43210 52 - 58 53.56 Kakheti25

MP22-like MP22, JBD88a, MP38, MP48, MP42 P. aeruginosa 36409 - 36885 50 - 55 64.19

ADNdc Siphoviridae Yuavirus YuA, MP1412, M6 P. aeruginosa 58663 - 61167 77 - 85 64.26

D3virus D3, vB_PaeS_PMG1 P. aeruginosa 54024 - 56425 95 - 96 57.80

PaMx31, PaMx39 P. aeruginosa 93227 - 93493 124 55.08 PaMx31-like

B3-like B3 P. aeruginosa 38439 59 63.16

Ps60-like Ps60 P. aeruginosa 39676 57 63.15

PaMx42-like PaMx42 P. aeruginosa 43225 56 54.64

PaMx28-like PaMx28 P. aeruginosa 55108 74 66.50

36 Adrián Cazares López Tesis de Doctorado

PAJU2-like PAJU2 P. aeruginosa 46872 79 56.26

P. aeruginosa 49135 69 62.15 phi297-like phi297

F10-like F10 P. aeruginosa 39199 63 62.08

P. aeruginosa 59878 81 64.45 PaMx11-like PaMx11

P. aeruginosa 57788 74 58.52 PaMx25-like PaMx25

P. aeruginosa 58637 75 68.39 PaMx74-like PaMx74

P. syringae 51090 52 58.57 PhiPSA1-like PhiPSA1

P. tolaasii 26499 68 42.71 Phi_Pto-bp6g Phi_Pto-bp6g

PB1, PaMx65, PaMx13, SPM-1, F8, P. aeruginosa 64144 - 66530 88 - 94 54.93 Pbunavirus LBL3, 14-1, LMA2, SN, KPP12, JG024, NH-4

PAK_P1, vB_PaeM_C2-10_Ab1, Pakpunavirus PaP1, PAK_P4, JG004, PAK_P2, P. aeruginosa 77914 - 93198 158 - 181 49.50 PaMx12 Myoviridae Kpp10virus KPP10, PAK_P5, CHA_P1, PAK_P3 P. aeruginosa 88097 - 88322 158 - 166 54.79

P2virus P. aeruginosa 35580 47 62.62 phiCTX

P. chlororaphis 316674 461 45.34 201phi2-1-like 201phi2-1

EL-like P. aeruginosa 211215 201 49.33 EL

37 Adrián Cazares López Tesis de Doctorado

P. putida 280538 391 50.88 Lu11-like Lu11

P. fluorescens 284757 309 43.46 OBP-like OBP

P. aeruginosa 258139 308 55.82 PaBG-like PaBG

P. aeruginosa 280334 306 36.83 Phikzvirus PhiKZ

PhiPsa374-like P. syringae 97906 173 47.73 PhiPsa374

PPpW-3-like PPpW-3 P. plecoglossicida 43564 66 61.11

119X, PaMx43, PaP2, PaMx41, 119X-like PaMx1, PaMx35, PaMx46, PaMx33, P. aeruginosa 41547 - 43783 53 - 58 44.89 PaMx32

phiKMV, PT2, PT5, vB_Pae- Phikmvvirus TbilisiM32, MPK7, LUZ19, MPK6, P. aeruginosa 42519 - 43548 49 - 54 62.30 phikF77, LKD16

Luz24virus LUZ24, TL, phiIBB-PAA2 P. aeruginosa 45344 - 45696 65 - 69 52.25 Podoviridae PaP3-like PaP3, vB_PaeP_p2-10_Or1 P. aeruginosa 44030 - 45503 58 - 71 52.23

T7virus gh-1, phiPSA2 P. putida 37359 - 40472 42 - 47 57.42

Lit1virus LIT1, vB_PaeP_C2-10_Ab09 P. aeruginosa 72028 - 72544 83 - 90 55.02

phiIBB-PF7A, Phi-S1 P. fluorescens 40192 - 40973 47 - 52 56.27 phiIBB-PF7A-like

F116virus F116, H66 P. aeruginosa 65195 - 65270 70 - 71 63.17

38 Adrián Cazares López Tesis de Doctorado

Phi15-like Phi15 P. putida 39562 50 58.16

vB_PaeP_Tr60_Ab31- P. aeruginosa 45550 69 57.11 vB_PaeP_Tr60_Ab31 like P. aeruginosa 64113 88 60.29 KPP25-like KPP25

P. aeruginosa 74901 115 53.22 LUZ7-like LUZ7

P. plecoglossicida 41386 50 56.78 PPpW-4-like PPpW-4

P. fluorescens 45517 75 51.47 UFV-P2-like UFV-P2

P. putida 42689 65 58.44 AF-like AF

P. tolaasii 40058 46 58.41 Bf7-like Bf7

P. aeruginosa 41593 56 60.90 LKA1-like LKA1

P. fluorescens 43144 44 58.91 phi-2-like phi-2

tf-like Tf P. putida 46271 72 53.20

No P. aeruginosa 49639 70 44.78 clasificado PA11-like PA11

P. aeruginosa 7349 14 61.49 Inovirus Pf1 ADNcs Inoviridae P. aeruginosa 5833 9 45.36 Inovirus Pf3

P. syringae 14984 19 54.02 Phi-8-like Phi-8 ARNdc Cystoviridae P. syringae 13385 13 55.52 Phi-6

39 Adrián Cazares López Tesis de Doctorado

P. syringae 13173 15 54.11 Phi-12-like Phi-12

P. syringae 13652 13 58.36 Phi-13-like Phi-13

P. syringae 12685 14 52.21 Phi2954-like Phi2954

P. aeruginosa 3588 4 54.22 PP7-like PP7 ARNcs Leviviridae P. aeruginosa 3573 4 49.20 PRR1-like PRR1 Notas: Las filas resaltadas en gris indican los géneros taxonómicos que son reconocidos oficialmente por el Comité Internacional en Taxonomía de Virus (ICTV por sus siglas en Ingles). # ADNdc: ADN de doble cadena, ADNcs: ADN de cadena sencilla, ARNdc: ARN de cadena doble, ARNcs: ARN de cadena sencilla. * Genomas fágicos que comparten niveles de identidad nucleotídica total mayores a 70% calculados a partir de comparaciones realizadas con BLASTn. Los fagos de referencia se indican en negritas y los fagos restantes del grupo se enlistan de forma ordenada con base en su grado de similitud respecto al genoma del fago de referencia. ^ El valor reportado en cada celda corresponde al genoma del fago de referencia.

40 Adrián Cazares López Tesis de Doctorado

Comparación del tamaño genómico y contenido de GC Durante las comparaciones de secuencia nucleotídica fue evidente la variación en los tamaños de los genomas estudiados. Con el fin de analizar la diversidad del tamaño de los genomas de fagos que infectan bacterias del género Pseudomonas se decidió ordenarlos en función de dicha característica y graficar los resultados obtenidos (Figura 1.1). Los 129 genomas variaron en un rango de 3,583 a 316,674 nucleótidos, no obstante, dicho rango incluye a los fagos de las familias Cystoviridae, Inoviridae y Leviviridae cuyos genomas no son de ADN de doble cadena (ADNdc) y se sabe son particularmente pequeños. El genoma de ADNdc más pequeño identificado se encuentra compuesto por 26499 pb y corresponde al fago phi_Pto-bp6g de P. tolaasii (Tabla 1.2, Figura 1.1). Respecto a los fagos de P. aeruginosa con genomas de ADNdc el rango de tamaños varió de 34553 a 280334 con los fagos PA1-KOR-2010 y phiKZ siendo los casos más pequeño y más grande reportados, respectivamente. Por su parte, los genomas de los fagos del laboratorio presentaron tamaños que van de 36570 (PaMx73) a 93493 pb (PaMx31). El caso del fago PaMx31 resulta particularmente remarcable ya su genoma ocupa el cuarto lugar de tamaño entre los fagos de P. aeruginosa reportados en RefSeq y el más grande reportado para un Siphovirus a la fecha. La Figura 1.1 evidencia una gran diversidad de tamaños entre los genomas de fagos de Pseudomonas sin embargo fue posible identificar tendencias en función de las familias taxonómicas. Los Myovirus presentaron los genomas con mayor tamaño siendo los fagos PPpW-3 y phiCTX las principales excepciones. Por otra parte, los genomas de los Siphovirus y Podovirus presentaron tamaños pequeños y medianos en la mayoría de los casos presentados en la gráfica. En términos generales, la mayoría de los genomas analizados presentaron un tamaño de alrededor de 40 Kpb. Además, el análisis evidenció un gradiente continuo de tamaños que, interesantemente, presentó una disrupción en el caso de los genomas considerados gigantes a partir de los 211215 pb (EL) y que representa una

41 Adrián Cazares López Tesis de Doctorado diferencia de más de 100 Kpb con el genoma que le precede en tamaño (Figura 1.1). El contenido de GC es otra característica que permite inferir la diversidad del contenido genómico por lo que se decidió explorar también su variación entre los genomas estudiados. Debido a que los integrantes de cada género identificado durante la comparación genómica presentan un contenido de GC casi idéntico, para este fin se eligieron representantes de cada grupo y se ordenaron en función del porcentaje de GC presente en sus genomas (Figura 1.2). La gráfica que presenta el contenido de GC de los sesenta representantes analizados evidenció también la diversidad existente entre los genomas comparados. El contenido de GC varió considerablemente entre todos los genomas (36.83 - 68.39%) e incluso entre aquellos de fagos que infectan al mismo hospedero. Dichos rangos corresponden a 42.7 - 58.4% en P. tolaasii, 43.4 - 58.9% en P. fluorescens, 47.7 - 58.5 en P. syringae, 50.8 - 58.4% en P. putida y 56.7 - 61.1% en P. plecoglossicida. En el caso de los fagos de P. aeruginosa la variación fue tan amplia que presentó los casos con el menor y mayor contenido de GC de la comparación. Cabe destacar que la mayoría de los genomas con alto porcentaje de GC (mayor a 60) correspondieron a fagos de P. aeruginosa entre los cuales hay representantes temperados y virulentos. Respecto a las familias taxonómicas, se observó una tendencia en la que los Myovirus presentaron genomas con bajo contenido de GC mientras que los genomas de los Siphovirus tuvieron un alto porcentaje. Por su parte, los Podovirus se agruparon en la parte media de la gráfica (Figura 1.2). La variación en este rubro se vió reflejada también en los genomas del laboratorio en los cuales se observó un rango de 44.8 (grupo 119X-like) a 68.3% (PaMx74).

42 Adrián Cazares López Tesis de Doctorado

ño del genoma (pb) genoma del ño

Tama

Figura 1.1. Distribución de tamaños genómicos de fagos de Pseudomonas. La figura muestra la gráfica del tamaño de los genomas de 129 fagos cuyos hospederos pertenecen al género Pseudomonas. El nombre de cada fago se indica en la parte superior o inferior de la barra que representa el tamaño de su genoma. Los nombres marcados con *** corresponden a fagos que infectan hospederos distintos a la especie P. aeruginosa. El código de colores de las barras representa la familia taxonómica a la que pertenece el fago correspondiente: Rojo = Myoviridae, Azul = Siphoviridae, Café = Podoviridae, Amarillo = Cystoviridae, Naranja = Inoviridae, Verde oliva = Leviviridae, Morado = No clasificado.

43 Adrián Cazares López Tesis de Doctorado

Porcentaje de GC GC de Porcentaje

Figura 1.2. Contenido de GC en genomas de fagos de Pseudomonas. La gráfica muestra el porcentaje de GC calculado para genomas de referencia de fagos que infectan bacterias del género Pseudomonas. El nombre de cada fago se indica en la parte inferior de la barra que representa el contenido de GC de su genoma. Los nombres marcados con *** corresponden a fagos que infectan hospederos distintos a la especie P. aeruginosa. El código de colores de las barras representa la familia taxonómica a la que pertenece el fago correspondiente: Rojo = Myoviridae, Azul = Siphoviridae, Café = Podoviridae, Amarillo = Cystoviridae, Naranja = Inoviridae, Gris = Leviviridae, Morado = No clasificado.

Análisis genómico del fago Ps54 El bacteriófago Ps54 fue el único representante de los fagos temperados del laboratorio cuyo genoma no pudo ser ensamblado completamente. Dicho ensamble suma un tamaño de 37694 pb dividido en 4 contigs de 24113, 5320, 511 y 7750 pb. En un intento por ordenar tales contigs se realizó una búsqueda tipo BLAST contra los genomas del orden Caudovirales depositados en GenBank la cual evidenció la ausencia de genomas homólogos reportados a la fecha. Dado el tipo de desarrollo temperado de Ps54 y con el objetivo de obtener más información biológica a partir de su secuencia genómica, se decidió anotar sus cuatro contigs y compararlos con las secuencias genómicas de P. aeruginosa depositadas en GenBank. Un total de

44 Adrián Cazares López Tesis de Doctorado

59 ORFs fueron identificados en el genoma del fago y algunas de sus funciones pudieron ser inferidas mediante homología de secuencia aminoacídica y presencia de dominios conservados. El contig 1 presentó ORFs cuyas funciones putativas corresponden a las subunidades pequeña y grande de la terminasa, la proteína portal, una proteína de morfogénesis de la cabeza, la proteína principal de cápside, el conector cabeza-cola, la proteína tail length tape measure, una integrasa y una metil-tranferasa. En el contig 2 se identificaron una proteína integral de membrana y dos reguladores transcripcionales mientras que en el contig 3 se reconoció una posible metil-transferasa. Finalmente, las funciones de ADN helicasa, integrasa, holina, endolisina y endonucleasa HNH fueron inferidas para ORFs codificados en el contig 4. Sorpresivamente, no se identificó homología de secuencia nucleotídica extensa de los cuatro contigs con alguna región particular de los genomas de P. aeruginosa reportados, i.e. no se encontró un profago que compartiera identidad a lo largo de toda su secuencia con Ps54. No obstante, se localizaron dos regiones en el genoma de la cepa DHS01 de P. aeruginosa con segmentos homólogos a uno o más de los contigs de Ps54 (Figura 1.3). Dichas regiones se encuentran separadas por 445710 pb y corresponden presumiblemente a profagos insertados en el genoma bacteriano. Dada su posición el genoma, se decidió referirse a tales regiones como 1 y 2 cuyos tamaños corresponden a 41945 y 36290 pb, respectivamente (Figura 1.3). La región 1 mostró homología con ORFs de los cuatro contigs mientras que la región 2 solo compartió homología con los contigs 1, 2 y 4. Por otra parte, los ORFs fágicos se clasificaron en seis categorías con base en su homología de secuencia: 1) ORFs con homólogos en la región 1, 2) ORFs con homólogos en la región 2, 3) ORFs con homólogos en las dos regiones, 4) ORFs con homología a regiones bacterianas distintas a la 1 y 2, 5) ORFs con homólogos a la región 1 y otra región distinta a la 2 y 6) ORFs que no presentan homólogos en el genoma bacteriano (Figura 1.3). En total, se identificaron 6, 19, 20, 1, 2 y 11 ORFs pertenecientes a las

45 Adrián Cazares López Tesis de Doctorado categorías 1, 2, 3, 4, 5 y 6, respectivamente. El contig 1 presentó una mayoría de ORFs (17 de 35) con homólogos en la región 2 seguida por ORFs pertenecientes a las categorías 3 (11 ORFs), 6 (3 ORFs), 1 (2 ORFs) y 5 (2 ORFs) (Figura 1.3A). Por su parte, la mayoría de ORFs (5 de 11) codificados en el contig 2 no presentaron homología con ninguna región del genoma de DHS01 mientras que los restantes se asignaron a las categorías 1 (2 ORFs), 3 (2 ORFs), 4 (1 ORF) y 2 (1 ORF) (Figura 1.3B). En cuanto al contig 3, sus dos ORFs tuvieron homólogos solo en la región 1 (Figura 1.3C). Finalmente, la mayor parte de los ORFs (7 de 11) del contig 4 mostraron homología con ambas regiones bacterianas y los restantes fueron clasificados en las categorías 6 (3 ORFs) y 2 (1 ORF) (Figura 1.3D). En términos generales, la región 2 de DHS01 presentó un mayor número de ORFs homólogos (39) a Ps54 que la región 1 (28 ORFs homólogos) (Figura 1.3). Los resultados de este análisis comparativo evidenciaron claramente el mosaicismo del fago Ps54 respecto a los profagos putativos de la cepa DHS01. Adicionalmente, considerando la posición de los ORFs que mostraron homología con las regiones bacterianas, se pudo inferir un orden para los contigs que correspondería a 3, 2, 4 y 1. Dado que los últimos ORFs de contig 1 presentaron homología con los primeros de ambas regiones bacterianas, resulta plausible que el genoma de Ps54 presente permutación circular (Figura 1.3A).

46 Adrián Cazares López Tesis de Doctorado

47 Adrián Cazares López Tesis de Doctorado

Figura 1.3. Comparación entre secuencias genómicas de Ps54 y regiones profágicas putativas de la cepa DHS01. Los cuatro contigs correspondientes al genoma del fago Ps54 fueron comparados mediante BLASTn con dos regiones regiones del genoma de la cepa DHS01 de P. aeruginosa. Todas las comparaciones fueron visualizadas con el programa ACT. En cada comparación el contig de Ps54 se muestra

48 Adrián Cazares López Tesis de Doctorado en la parte superior y la región genómica bacteriana en la parte inferior. Los bloques que conectan los contigs de Ps54 y las regiones genómicas bacterianas corresponden a regiones de identidad de secuenica. Los mapas están dibujados a escala. En los mapas de ambas secuencias las barras en gris oscuro representan las cadenas positiva (superior) y negativa (inferior) mientras que las barras en gris claro corresponden a los tres marcos de lectura de las mismas. Las flechas de colores en los contigs representan ORFs e indican su orientación en el genoma. El código de colores denota: rojo, ORFs con homólogos en la región 1; azul, ORFs con homólogos en la región; verde, ORFs con homólogos en las dos regiones; morado, ORFs con homología a regiones bacterianas distintas a la 1 y 2; gris, ORFs con homólogos en la región 1 y otra región distinta a la 2; amarillo, ORFs que no presentan homólogos en el genoma bacteriano. Los ORFs en el genoma de DHS01 se representan con flechas en color café. Las regiones profágicas 1 y 2 se representan como bloques morados en la figura. A. Contig 1 vs Región 1 y 2. B. Contig 2 vs Región 1 y 2. C. Contig 3 vs Región 1. D. Contig 4 vs Región 1 y 2.

Discusión En este capítulo se presentaron los resultados de ensamble de las secuencias genómicas de fagos del laboratorio, la comparación de un grupo de las mismas contra las reportadas en bases de datos y la consecuente clasificación de estas en el contexto de las relaciones de identidad de secuencia nucleotídica detectadas entre fagos de P. aeruginosa. De los 27 genomas ensamblados en un solo contig, 20 casos provienen de secuencias generadas a partir de la tecnología de pirosecuenciación 454. Considerando que 9 de los 10 ensambles de las secuencias en estatus de resecuenciación y la totalidad de casos en estatus Gap filling provienen de la tecnología SOLiD, resulta evidente que la piro secuenciación por 454 mostró un mejor rendimiento para obtener genomas completos posterior al proceso de ensamble que SOLiD. Este hecho puede ser explicado por la longitud de las lecturas que ofrecen dichas tecnologías. Mientras que la longitud de las lecturas de 454 fue de 100-150 nucleótidos, aquellas provenientes de SOLiD estuvieron en un rango de 35 a 50. Se ha reportado que la principal limitación en la generación y uso de lecturas cortas es el ensamble,

49 Adrián Cazares López Tesis de Doctorado particularmente cuando se trata del ensamble de genomas nuevos [67]. En contraste, el uso de la tecnología SOLiD se recomienda en casos donde la gran cantidad de información de secuencia obtenida puede ser mapeada en la secuencia original definida previamente. Análisis transcriptómicos o identificación de polimorfismos son ejemplos de estudios donde el uso de SOLiD ofrece mejores resultados [67]. Aunque luce improbable que los ensambles de los genomas del laboratorio generados con esta tecnología de secuenciación puedan ser mejorados con el uso exclusivo de las lecturas producidas, dicha información aún podría ser útil para determinar los polimorfismos de ciertos genes o regiones de interés en el fago una vez que su genoma sea completado. Las secuencias de fagos de Pseudomonas con las que fueron comparados los genomas del laboratorio fueron obtenidas de RefSeq debido a que es una base de datos bien curada que alberga secuencias de referencia [68]. Del total de secuencias de fagos de Pseudomonas identificadas, 77% corresponde a fagos que infectan P. aeruginosa corroborando el sesgo reportado por otros autores hacia el estudio de esta especie bacteriana [4, 21]. Los resultados del análisis comparativo permitieron la clasificación de los fagos de P. aeruginosa analizados en 39 grupos, o géneros, según el valor de corte sugerido por el ICTV (=> 70% de identidad nucleotídica total). Varios de estos grupos no mostraron identidad de secuencia con el resto de los genomas comparados, sin embargo, en otros casos se detectaron distintos niveles de identidad entre grupos por debajo del nivel de corte utilizado. Dichos resultados muestran la complejidad de las relaciones existentes entre los genomas de fagos capaces de infectar P. aeruginosa y soportan la necesidad de realizar un análisis más detallado en el cual tales relaciones sean representadas de una manera más clara. En este sentido, una alternativa para la representación de nuestros resultados de comparación es en forma de red que podría evidenciar las intrincadas relaciones hasta ahora inferidas entre todos los genomas comparados. Si bien la clasificación de los

50 Adrián Cazares López Tesis de Doctorado genomas en géneros taxonómicos está lejos de aclarar las complejas relaciones evolutivas entre los mismos, la identificación de tales grupos brinda una perspectiva general de su diversidad genética. En este sentido nuestros resultados de comparación soportan y amplían los hallazgos reportados por varios autores respecto a la diversidad de fagos de fagos de P. aeruginosa [4, 17, 21, 28]. Dicha diversidad fue evidente en la distribución de tamaños y contenido de GC de los genomas aquí comparados. Respecto a los tamaños genómicos, nuestro análisis reveló un gradiente continuo de los mismos que es interrumpido abruptamente por un número escaso de genomas gigantes (> 210 Kpb). En 2008 Hatful propuso que esta distribución observada en fagos probablemente refleja los métodos de aislamiento de los mismos y no la distribución real existente en el ambiente. Como ejemplo, menciona que los fagos con genomas gigantes suelen formar placas líticas muy pequeñas que usualmente pasan desapercibidas lo cual explica la escasez en el reporte de este tipo de genomas [6]. Nuestros resultados muestran que el incremento en el número de genomas reportados ha llevado a la identificación de genomas de mayor tamaño, cerrando poco a poco la brecha entre los fagos con genomas grandes y gigantes. El caso de los genomas de nuestros fagos PaMx39 y PaMx31 representa un ejemplo de este hecho. En 2015 Pires y colaboradores [4] reportaron un rango de tamaños de 41.6 a 74.9 Kpb para fagos de la familia Siphoviridae, no obstante, PaMx39 y PaMx31 son Siphovirus con genomas de alrededor de 93 Kpb por lo cual representan los genomas más grandes reportados a la fecha para esta familia taxonómica. En 2010 Ceyssens y Lavigne reportaron la existencia de 13 tipos de fagos para P. aeruginosa y concluyeron que, considerando los 17 tipos de fagos descritos para E. coli, uno de los organismos más estudiados, sería un evento raro identificar más fagos nuevos de P. aeruginosa [21]. Nuestro análisis comparativo mostró que, efectivamente, la mayoría de los genomas analizados pudieron ser clasificados en grupos debido al alto nivel de

51 Adrián Cazares López Tesis de Doctorado identidad de secuencia que comparten y que algunos de estos grupos son particularmente abundantes por lo que representan tipos de fagos aislados comúnmente. Los grupos D3112virus, Pbunavirus y Phikmvvirus, reportados como los más abundantes en 2010 [21], siguieron sumando ejemplares en nuestro estudio, no obstante, el grupo 119X-like no reportado hace seis años y que incluye en su mayoría fagos de nuestro laboratorio, se sumó a los grupos de fagos de P. aeruginosa más comunes. A pesar de la identificación de estos fagos frecuentes aun pudimos encontrar 10 grupos con un solo representante genómico que no mostró identidad de secuencia con los demás genomas. Aunque no sabemos si dichos genomas comparten homología a nivel de secuencia aminoacídica u organización genómica con los demás genomas, es un hecho que fagos con altos niveles de divergencia a nivel nucleotídico aún son comúnmente aislados y podrían superar en algunos años los 17 tipos de fagos descritos para E. coli. El análisis comparativo del genoma del fago temperado Ps54 de nuestra colección con dos profagos putativos de la cepa DHS01 mostró que este representa una quimera conformada por ORFs homólogos al profago 1, al profago 2, compartidos con ambos profagos y exclusivos del fago, entre otros. No obstante, no fue posible identificar un genoma homólogo al comparar los contigs de Ps54 con las secuencias de fagos del orden Caudovirales depositadas en GenBank. A pesar de que casos de genomas fágicos quiméricos ya han sido reportados previamente [44], el de Ps54 resulta particularmente interesante porque su mosaicismo tiene origen principal en dos profagos putativos que no son comunes en bases de datos y no han sido reportados ni descritos a la fecha. Dichos hallazgos soportan la caracterización detallada del bacteriófago Ps54 incluyendo el completar su secuencia genómica. En este punto, nuestros resultados nos permiten concluir que los genomas de fagos de P. aeruginosa, incluyendo los de nuestro laboratorio, son diversos. No obstante, dicha conclusión se fundamenta únicamente en comparaciones

52 Adrián Cazares López Tesis de Doctorado morfológicas y a nivel nucleotídico y requiere de análisis más detallados para determinar las dimensiones de dicha diversidad. En consecuencia, decidimos escoger ciertos grupos identificados en esta etapa para llevar a cabo análisis comparativos y funcionales minuciosos de dichos genomas que consideren criterios como la homología existente gen por gen a nivel de proteínas, la sintenia de dichos genes y las funciones codificadas por los mismos con el fin de determinar, como primer paso, la diversidad existente entre los representantes de tales grupos. Dado que existe un sesgo claro hacia estudio de fagos virulentos para esta especie bacteriana, se priorizó a los fagos temperados en la elección de los grupos y se escogieron aquellos que tienen fagos del laboratorio entre sus representantes. De esta manera, se decidió estudiar a los fagos del grupo D3112virus, que es el más abundante entre los fagos de P. aeruginosa, el grupo F116virus, que alberga fagos cuyo aislamiento es muy raro, y el grupo Fc02-like que está conformado exclusivamente por genomas de fagos de nuestro laboratorio. Los resultados obtenidos se muestran a continuación.

Conclusiones:  Veintisiete de las cuarenta y ocho secuencias genómicas de fagos del laboratorio fueron ensambladas de forma completa en un solo contig. Los grupos PaMx12-like y Ps54-like fueron los únicos que no presentaron algún representante con genoma completo.  Setenta y siete por ciento de los genomas fágicos de Pseudomonas depositados en RefSeQ corresponden fagos que infectan P. aeruginosa.  Treinta y nueve grupos, o géneros taxonómicos, fueron identificados entre los genomas de fagos que infectan P. aeruginosa con base en la comparación de secuencia nucleotídica. Cuarenta y cinco por ciento de los genomas comparados se clasificaron en los grupos D3112virus, Pbunavirus, Phikmvvirus y 119X-like.

53 Adrián Cazares López Tesis de Doctorado

 Las secuencias genómicas de los fagos del laboratorio fueron clasificadas en catorce grupos diferentes. Ocho de los grupos estuvieron conformados exclusivamente por secuencias del laboratorio.  Los genomas de ADN de doble cadena de fagos de P. aeruginosa variaron en un rango de 34553 a 280334 pb respecto a su tamaño y 36.83 a 68.39% en cuanto al contenido de GC.  El genoma del fago temperado Ps54 del laboratorio no presentó homólogos en los genomas fágicos reportados en GenBank. Sin embargo, distintas regiones de sus cuatro contigs compartieron homología con dos profagos putativos presentes en el genoma de la cepa DHS01 de P. aeruginosa. En consecuencia, el genoma de este fago representa una quimera de fagos no caracterizados.

54 Adrián Cazares López Tesis de Doctorado

8) CAPÍTULO 2: Análisis del grupo D3112virus. Resultados Establecimiento del pangenoma del grupo Los genomas de los fagos temperados PaMx73 y H70 del laboratorio mostraron homología a un alto nivel de identidad nucleotídica con el genoma del fago D3112 y otros fagos relacionados. Fagos con genomas de este tipo son clasificados dentro del género D3112virus (ver Capítulo 1) que agrupa fagos transponibles denominados Mu-like debido a sus características genómicas y de desarrollo. Nosotros caracterizamos PaMx73 y H70 mediante criterios morfológicos, genómicos y proteómicos reforzando su inclusión dentro del grupo D3112virus y determinando las características que los diferencian de los otros fagos del grupo y del colifago Mu. Mediante un análisis comparativo detallado de doce ejemplares del grupo determinamos que el pangenoma consiste de 47 ORFs conservados que corresponden al core genómico y 28 ORFs que corresponden al genoma accesorio debido a que no estuvieron presentes en todos los genomas analizados. Adicionalmente, basados en las funciones de ciertos ORFs inferidas en el estudio, propusimos que algunos de los genes accesorios que identificamos podrían ser relevantes funcionalmente al presentar el potencial de conferir ventajas adaptativas al fago que los porta. Es importante destacar que los hallazgos de nuestro estudio permiten extender a los fagos el concepto bacteriano de pangenoma tanto en sus implicaciones funcionales como evolutivas. Los resultados resumidos anteriormente fueron publicados en el siguiente artículo (ver ANEXO 1):  Adrián Cazares, Guillermo Mendoza-Hernández and Gabriel Guarneros (2014). Core and accessory genome architecture in a group of Pseudomonas aeruginosa Mu-like phages. BMC genomics15:1146.

55 Adrián Cazares López Tesis de Doctorado

Actualización y extensión del análisis pangenómico

El análisis pangenómico realizado con los genomas del grupo D3112virus demostró que, aunque dichos fagos se encuentran altamente relacionados en términos de identidad de secuencia nucleotídica, sus genomas exhiben una considerable diversidad genética. Este análisis se llevó a cabo con el estudio de doce ejemplares [27], sin embargo, durante la elaboración del artículo se identificaron más ejemplares recientemente depositados en GenBank. La adición constante de ejemplares pertenecientes al mismo grupo abre la posibilidad de enriquecer y robustecer el análisis comparativo de este tipo de genomas por lo cual se decidió extender el estudio pangenómico integrando todos los genomas disponibles en GenBank hasta Junio del 2016. En primera instancia se realizó una búsqueda mediante BLASTn contra los genomas del orden Caudovirales para identificar el total de genomas fágicos homólogos existentes en la base de datos. Dicha búsqueda llevó a la identificación de 24 genomas pertenecientes al grupo D3112virus (Tabla S1). Por otra parte, ya que en el estudio original las secuencias de profagos representaron más del 30% de los genomas analizados, se realizó una segunda búsqueda de homólogos dirigida exclusivamente contra genomas bacterianos. Los resultaros evidenciaron la presencia de 28 profagos del tipo D3112virus integrados en cepas P. aeruginosa. Previamente definimos que los genomas de fagos del género D3112virus se encuentran flanqueados en sus extremos por el triplete conservado 5’TGT (ver ANEXO 1). Considerando dicha característica se pudo dilucidar que 8 de los profagos encontrados se encuentran incompletos, tres de ellos presentan secuencias de entre 34915 y 36607 pb mientras que los cinco restantes tienen secuencias menores a 27 kpb (Tabla S1). Cabe destacar que los 28 profagos fueron identificados en 19 genomas bacterianos debido a que 5 de ellos contuvieron integrado más de un elemento fágico de este tipo (Tabla S1). La cepa Carb01-63 fue la que presentó un mayor número de profagos con 4, uno de ellos incompleto. Por su

56 Adrián Cazares López Tesis de Doctorado parte los genomas de las cepas NCGM257, S04-90, M37351 y H47921 presentaron 2, 2, 3 y 3 profagos del tipo D3112virus, respectivamente. En el caso de las tres últimas, solo uno de los profagos identificados estuvo completo (Tabla S1). Una vez determinados los extremos de los profagos se analizaron las regiones flanqueantes en el genoma bacteriano para determinar los loci de inserción. Las secuencias nucleotídicas de dichas regiones estuvieron presentes en los genomas de las cepas tipo PAO1 y PA14 por lo que esta última fue utilizada como referencia para mapear los sitios de inserción (Figura 2.1). Basados en nuestro análisis se reconocieron 20 sitios de inserción distintos (Tabla S1). Las inserciones de los fagos en tales sitios produjeron diferentes efectos en los genomas de sus hospederos, once de ellos llevaron a la disrupción de un ORF mientras que los nueve restantes se localizaron en regiones no codificantes (Figura 2.1, Tabla S1). Del total de ORFs que fueron interrumpidos por la inserción de un profago, diez tienen una función asignada y uno codifica una proteína hipotética de función desconocida. El tamaño de los 52 genomas del grupo, considerando solo aquellos identificados como completos, vario de 35394 a 37840 pb (Tabla S1). Con el objetivo de obtener información acerca de su distribución geográfica se investigó el país de aislamiento de los genomas reportados en GenBank (Figura 2.2). Dicha información se encontró disponible para 41 de las 52 secuencias analizadas. La mayoría de los genomas del grupo D3112virus, ya sea como fagos o profagos, han sido aislados en el continente europeo (18) con Inglaterra siendo el país aporta el mayor número de casos (9) seguido por Holanda (6). Trece genomas pertenecen a representantes de Asia donde Corea es el país que más aporta casos (7) seguido por Japón (4). Por su parte, Estados Unidos (7) y México (2) son los únicos países que aportaron genomas en el continente americano con un total de nueve. Finalmente, Costa de Marfil fue el único país de África que aporto un genoma de este tipo de fagos a GenBank. Un árbol, obtenido a partir de la comparación de los genomas completos de los fagos y profagos del grupo D3112virus, evidenció los perfiles

57 Adrián Cazares López Tesis de Doctorado de similitud y la diversidad existentes entre los representantes de este grupo de estudio (Figura 2.2). La topología del árbol reveló la presencia de varios grupos, no obstante, separo los genomas comparados en dos sub-grupos de similitud principales los cuales fueron reportados previamente en nuestro análisis de doce genomas D3112virus [27]. No se identificó una clara correlación geográfica entre los integrantes de los grupos de similitud y su origen de aislamiento, e.g. los fagos MP29, MP48, MP42, MP22 y MP38 fueron aislados en Corea en el mismo laboratorio a partir del mismo set de cepas clínicas, no obstante, los dos primeros fagos pertenecen al sub-grupo de similitud 1 y los tres restantes al sub-grupo 2 (Figura 2.2). El análisis pangenómico previo del grupo D3112virus condujo al reconocimiento de Regiones de Plasticidad Genómica (RGPs por sus siglas en ingles) en las cuales reside la principal variabilidad de este tipo de fagos (ver ANEXO 1). Con el fin de identificar si dichas regiones están presentes en el nuevo set de secuencias analizadas se decidió elaborar los mapas genómicos de todos los elementos estudiados y comparar las secuencias aminoacídicas de los ORFs codificados por los mismos con el pangenoma descrito anteriormente. Los mapas genómicos evidenciaron el alto grado de sintenia existente en los fagos y profagos del tipo D3112virus (Figuras S1 y S2). La comparación de las 2672 proteínas codificadas en los 52 genomas examinados con aquellas que componen el pangenoma del grupo reveló que los 47 ORFs que comprenden el genoma core definido previamente se encuentran conservados también en los genomas completos analizados. Como se esperaba, los ORFs correspondientes al genoma accesorio se localizaron en 10 RGPs, nueve de ellas identificadas anteriormente (Figura 2.3, Figuras S1 y S2), las cuales codificaron un total de 34 ORFs accesorios (aORFs) distintos.

58 Adrián Cazares López Tesis de Doctorado

Figura 2.1. Loci de inserción de profagos del grupo D3112virus. La imagen representa el mapa genómico de la cepa PA14 de P. aeruginosa e indica veinte sitios de inserción identificados para distintos profagos del grupo D3112virus integrados en genomas de varias cepas de la bacteria depositados en GenBank. Los sitios de inserción localizados dentro de secuencias codificantes (CDS) están representados por barras rojas. Los números que acompañan dichas barras indican el nombre del CDS correspondiente que se muestra en el centro del mapa genómico. Los loci de inserción ubicados en regiones no codificantes se indican con flechas verdes en el mapa genómico.

Con base en su contenido genético, se reconocieron dos tipos de RGPs: las que representan el indel de un aORF en particular (RGPs A, B, E, H, I y J) y aquellas que acumulan más de un aORF en diferentes combinaciones (RGPs C, D, F y G) (Figura 2.3). Tanto la RGP C como la G fueron las regiones que acumularon más ORFs por genoma. Cabe destacar que la variabilidad de estos loci no estuvo restringida solo al contenido sino también al orden génico ya que varios rearreglos de los genes presentes en una RGP en particular fueron observados entre los genomas analizados. La abundancia de cada aORF identificado en los genomas fue altamente variable también, los aORFs c6, c7, e, g9 y d1 fueron los más abundantes en contraste a c2, d3, g10, j, f4, c8, g3 and g11 los cuales estuvieron presentes en menos de cinco

59 Adrián Cazares López Tesis de Doctorado casos (Figura 2.4). Tomando en cuenta tanto el contenido como el orden génico del componente accesorio de cada genoma, y excluyendo los genomas incompletos de menos de 27 Kpb (debido a que carecían de varias RGPs), se identificaron 35 perfiles distintos de aORFs (Figura 2.3). Cabe mencionar que cinco perfiles de aORFs estuvieron presentes en más de un genoma (Figura 2.3). Tal es el caso de los fagos JBD16C, JBD88a y el profago 2 de la cepa H47921 y de los profagos 1 de las cepas HB13-138244 y S04-90. La presencia del componente accesorio altamente variable identificado en este análisis comparativo soporta la observación de que, a pesar del alto grado de sintenia e identidad nucleotídica detectados dentro del grupo D3112virus, sus miembros aun muestran divergencia. Dicha divergencia se ve reflejada en la diversidad de grupos similitud identificados en la comparación de genomas completos a nivel nucleotídico (Figura 2.2). De forma remarcable, los distintos perfiles de aORFs identificados coincidieron con los grupos de similitud detectados, i.e. genomas con perfiles de aORFs similares se ubicaron cercanos en el árbol que representa el alineamiento de genomas completos (Figuras 2.2 y 2.3). Estos resultados sugieren que la determinación del perfil de aORFs en los genomas de este tipo de fagos puede ser usado para caracterizar las relaciones de diversidad entre los miembros del grupo. De hecho, identificamos que el aORF h puede representar un buen marcador de diversidad ya que su presencia/ausencia en los genomas permite definir si estos pertenecen a alguno de los dos sub- grupos principales de similitud. En este sentido, con la excepción del fago MP48, el aORF h estuvo presente en todos los genomas del sub-grupo 1 cuyo prototipo es el fago PaMx73.

60 Adrián Cazares López Tesis de Doctorado

Figura 2.2. Árbol Neighbor-joining de los genomas D3112virus comparados en este estudio. El árbol representa la similitud nucleotídica detectada entre 52 secuencias de fagos y profagos del tipo D3112virus comparadas con el programa Mauve. Números consecutivos fueron añadidos como sufijos a los nombres de las cepas en donde más de un profago fue detectado. El país de aislamiento del fago o cepa se indican en corchetes y letras azules delante de los nombres correspondientes en donde dicha información estuvo disponible. La topología del árbol separa los genomas en dos grupos de similitud que fueron marcados en verde (Grupo 1) y morado (Grupo 2) para su fácil identificación. Las ramas en negro no se consideraron dentro de ningún grupo ya que corresponden a profagos incompletos de menos de 27 kpb.

61 Adrián Cazares López Tesis de Doctorado

Figura 2.3. Mapa del pangenoma del grupo D3112virus. El mapa de la parte superior representa el core genómico del grupo D3112virus. Los cORFs corresponden a las flechas de colores numeradas del 1 al 47 debajo del mapa. Promotores identificados en PaMx73 y H70 se indican con flechas negras dentro de cajas amarillas. Las Regiones de Plasticidad Genómica (RGPs A a I) indican la localización de los genes accesorios. Los aORFs individuales para cada genoma se indican en minúsculas debajo de las RGPs correspondientes. Genomas con contenido idéntico de aORFs son indicados en las filas que inician con paréntesis que muestra el número de genomas con dicho caso. El número total de aORFs por genoma se muestra al final de cada fila. ORFs homólogos a proteínas Anti-CRISPR se muestran encerrados en círculos naranja (sistema I-F) y azul (sistema I-E).

62 Adrián Cazares López Tesis de Doctorado

Figura 2.4. Frecuencia de ORFs accesorios en los genomas D3112virus analizados. Las barras indican el número de ocurrencias para cada uno de los aORFs en el pangenoma del grupo. Los colores de las barras diferencian las distintas RGPs.

Diseño de una estrategia de caracterización de genomas D3112virus

Durante el establecimiento del pangenoma del grupo D3112virus se realizó el análisis funcional de los aORFs identificados y se concluyó que estos pueden codificar funciones con el potencial de conferir ventajas adaptativas a los fagos que los portan, e.g. los aORFs de la RGP G codifican diversas proteínas anti-CRISPR mientras que el aORF h codifica una proteína putativa de decoración de la cápside (ver ANEXO 1). Además de sus implicaciones funcionales y en la diversidad genómica, la presencia del componente accesorio tiene implicaciones prácticas que pueden ser explotadas a favor de la caracterización de los genomas de tipo D3112virus. Los resultados del análisis comparativo mostraron una alta diversidad de perfiles de aORFs por lo que los genomas del grupo podrían ser caracterizados en función de la presencia/ausencia y número de aORFs codificados en sus distintas RGPs. Una forma práctica de evidenciar la presencia de los aORFs en los genomas a caracterizar es mediante PCR, no obstante, la diversidad de los mismos complica la estrategia por el alto número de oligos requeridos para buscar los distintos aORFs. Durante el análisis de la localización de las distintas RGPs se determinó que estas se encontraban flanqueadas por ORFs conservados o core ORFs (cORFs). Tomando ventaja de dicha característica, y con el objetivo de incrementar la practicidad del método de caracterización, se decidió diseñar oligos que

63 Adrián Cazares López Tesis de Doctorado fueran capaces de unirse a regiones conservadas y cuya amplificación incluyera segmentos genómicos accesorios, i.e. oligos cuyo blanco sean los cORFs y amplifiquen aORFs. Para dicho fin, los oligos de interés fueron diseñados a partir de alineamientos de las secuencias nucleotídicas de los cORFs que flanquean distintas RGPs. Esta estrategia se utilizó para obtener pares de oligos capaces de amplificar el contenido de las RGPs B, C y G. La RGP B se eligió debido a que cerca de la mitad de los fagos del grupo contienen el aORF b por lo cual representa un buen punto inicial de caracterización. Por otra parte, las RGPs C y G fueron elegidas debido a que son las que más aORFs acumulan y dicha cantidad y diversidad génica ofrecen una mayor capacidad de discriminación. Para las RGPs B y C se pudieron diseñar oligos con las características deseadas (Tabla 2.1), no obstante, debido a la variación de secuencia nucleotídica encontrada en la región izquierda adyacente a la RGP G fue necesario diseñar dos oligos forward, uno para cada sub-grupo de similitud (Figura 2.2). De esta manera, la RGP G de los fagos del sub-grupo 1 solo puede ser amplificada usando el oligo Fs1 mientras que los fagos del sub-grupo 2 requieren del oligo Fs2 (Tabla 2.1). Esta diferencia resulta relevante debido a que, de existir amplificación, es posible determinar a qué sub-grupo pertenece el genoma sujeto a caracterización. Una PCR in silico sobre distintos genomas del grupo evidenció la diversidad de amplicones esperados y su utilidad para discernir entre los fagos a caracterizar (Tabla 2.2).

Tabla 2.1. Oligos para la caracterización de fagos del grupo D3112virus Región a Dirección Secuencia (5’ -> 3’) Longitud TM GC% amplificar del oligo Forward TGGCGTACAAGTGGTCATCC 20 60.04 55.00 PaMx73-rep Reverse TTCCCCAGGATGGAATCGGA 20 60.33 55.00 Forward GATACCTGACCCGCAACGG 19 60.52 63.16 RGPB Reverse AGATGCCGATGGGGATCAGT 20 60.77 55.00 Forward GATCCTCAACGAACCCGAGG 20 60.18 60.00 RGPC Reverse TCGCTGAGGGTGATGGTGTA 20 60.61 55.00

64 Adrián Cazares López Tesis de Doctorado

Forward TCAGAAACGGCCAGCTCAAG 20 60.60 55.00 RGPG-Fs1 Reverse AACGACTGCGGAAACCGTC 19 60.95 57.89 Forward TTCGACGAAAACGGCCAACT 20 60.81 50.00 RGPG-Fs2 Reverse AACGACTGCGGAAACCGTC 19 60.95 57.89 Notas: Los oligos fueron diseñados con la herramienta Primer-BLAST de NCBI. Las TMs mostradas en la tabla corresponden a las calculadas por el programa. Los diferentes juegos de oligos para amplificar la RGP G en fagos del sub-grupo 1 y 2 se indican como Fs1 y Fs2, respectivamente.

Tabla 2.2. Amplicones esperados en la caracterización por PCR de fagos del grupo D3112virus Fago PaMx73 H70 D3112 JBD30 39016_Mu-like Región PaMx73-rep 519 519 - - - RGPB 224 949 952 949 224 RGPC 1238 1315 1217' 1139' 1219' RGPG-Fs1 1070 786 1028 - - RGPG-Fs2 - - - 808^ 1072 Notas: La primera fila indica los fagos a caracterizar y la primera columna los juegos de oligos a usar en la tipificación. Las secuencias de dichos oligos se muestran en la Tabla 2.1. La predicción In Silico de los amplicones esperados y sus tamaños correspondientes se llevó a cabo con la herramienta Primer-BLAST de NCBI. ' Un mismatch fue detectado en la secuencia blanco aunque la región es potencialmente amplificable. ^ Tres mismatches fueron detectados en la porción 3’ de la secuencia blanco por lo cual la región podría no ser amplificable.

Con el fin de poner a prueba los oligos diseñados y su capacidad de diferenciar fagos del grupo D3112virus se realizaron las PCRs correspondientes sobre ADN viral obtenido a partir de extracciones genómicas de los fagos PaMx73, H70, D3112, JBD30, JBD8 y 39016_Mu-like así como ADN genómico de la cepa de P. aeruginosa PA14 que fue usado como control negativo. Los resultados obtenidos evidenciaron la especificidad de los oligos al no producir ningún producto en la cepa PA14 (Figura 2.5). Los amplicones obtenidos en las PCRs de las diferentes regiones para los fagos PaMx73, H70, D3112, JBD30 y 39016_Mu-like coincidieron con el tamaño teórico esperado comprobando así la funcionalidad de los oligos y la

65 Adrián Cazares López Tesis de Doctorado identidad de los fagos evaluados (Figura 2.5). Cabe resaltar los resultados obtenidos para los casos de los fagos 39016_Mu-like y JBD8. El primero fue aislado a partir de su estado de profago en la cepa oftálmica de P. aeruginosa 39016 por Cazares y colaboradores [69]. Dicha cepa posee en su genoma un profago del tipo D3112virus (ANEXO 1) por cual se infirió que este podría corresponder al bacteriófago aislado. Con el uso de los oligos de caracterización diseñados en este trabajo se pudo confirmar la identidad de este fago como parte del grupo D3112virus y su correspondencia al profago reportado en bases de datos ya que todos los amplicones obtenidos coincidieron con el tamaño predicho a partir de dicha secuencia (Figura 2.5). En este sentido, los oligos aquí reportados representan un método rápido para identificar fagos del grupo D3112virus recién aislados. Por otra parte, el fago JBD8 no se encuentra secuenciado, pero ha sido reportado que puede proveer actividad anti-CRISPR [70] la cual es característica de fagos del tipo D3112virus. Los resultados generados soportan la identidad del fago como parte del grupo y proveen información adicional sobre su genoma (Figura 2.5). Por ejemplo, JBD8 cuenta con el ORF accesorio B y posee una RGP en el locus C de alrededor de 1200 pb. Si bien el tamaño del amplicón no determina el contenido génico de la región, una reacción de secuenciación con el par de oligos correspondiente podría revelar dicha información. Este enfoque fue usado exitosamente de forma reciente con el juego de oligos de la RGP G que permitió identificar fagos del grupo D3112virus entre un set de fagos con actividad anti-CRISPR y determinar el contenido de genes responsables de esta actividad los cuales se encuentran codificados precisamente en la RGP G [71]. Además, dado las características de la región y el uso de los dos tipos de oligos forward (Tablas 2.1 y 2.2), se pudo clasificar a los fagos aislados dentro de los subgrupos de similitud 1 y 2. Otro escenario en donde los oligos podrían ser de utilidad es en el caso de contaminación con fagos del grupo ya que son comunes y las placas líticas que forman son indistinguibles entre sí. Como ejemplo, en un caso hipotético de

66 Adrián Cazares López Tesis de Doctorado contaminación entre los fagos PaMx73, H70 y D3112, la amplificación de la región del represor (PaMx73-rep) permitiría identificar o descartar a D3112 mientras que la amplificación de la RGP B permitiría diferenciar a PaMx73 de H70 (Figura 2.5). Dado su tipo de desarrollo temperado, estos fagos pueden estar presentes comúnmente como profagos en el genoma de su hospedero (Figuras 2.2 y 2.3). Teniendo esto en cuenta se decidió probar los oligos en PCRs de colonia de cepas lisógenas de los fagos anteriormente evaluados para determinar si los oligos pueden detectar sus regiones blanco sin la necesidad de aislar los fagos. Los resultados obtenidos fueron idénticos a los generados previamente con ADN viral como molde (datos no mostrados) demostrando así que los oligos podrían ser utilizados también para determinar el contenido de profagos del tipo D3112virus en cepas de P. aeruginosa.

67 Adrián Cazares López Tesis de Doctorado

Figura 2.5. Caracterización por PCR de regiones genómicas variables de fagos tipo D3112virus. ADN proveniente de extracción genómica viral de fagos del grupo D3112virus fue usado como molde en reacciones de PCR para tipificar dichos fagos. Las imágenes corresponden a geles de agarosa al 1% en los cuales fueron separados por electroforesis los productos de PCR obtenidos. El nombre de las regiones

68 Adrián Cazares López Tesis de Doctorado evaluadas, descritas en las Tablas 3 y 4, se muestran en la parte superior del gel correspondiente. Los nombres de los fagos sujetos a tipificación se indican encima de los carriles correspondientes. ADN genómico de la cepa PA14 de P. aeruginosa se usó como control negativo en todos los casos. El carril 1 en todos los geles corresponde al marcador de peso molecular cuyos tamaños se muestran del lado izquierdo de la imagen. El tamaño teórico de los distintos amplicones se muestra en la parte inferior de los geles con excepción de los casos correspondientes a JBD8 ya que no se encuentra secuenciado.

Discusión Bacteriófagos transponibles similares a Mu han sido reportados en α, β y γ proteobacterias [33]. No obstante, a pesar de su ubiquidad, la mayoría de los genomas de este tipo depositados en bases de datos pertenecen al grupo D3112virus que infectan P. aeruginosa [33]. En este trabajo identificamos 52 secuencias genómicas de fagos y profagos de este grupo lo cual refuerza y extiende hallazgos reportados previamente sobre su abundancia [33]. Nuestros resultados indican que los fagos de tipo D3112virus no solo representan los fagos transponibles más comunes (ver Capítulo 4) sino los fagos de P. aeruginosa más abundantes en base de datos (ver Capítulo 1) [17, 21]. Los genomas del tipo D3112virus siguen siendo depositados en GenBank constantemente [27]. La actualización del análisis pangenómico llevó a la identificación de 24 genomas fágicos y 28 correspondientes a profagos depositados en GenBank en Junio de 2016 lo cual representa un incremento de 16 y 24 secuencias, respectivamente, en cuanto al número de casos reportados en el análisis del año 2014. Esto condujo a una extensión de 40 el número de genomas analizados respecto al estudio original. La investigación sobre el origen de aislamiento de los fagos y profagos del grupo permitió concluir que dichos virus tienen una distribución global. Varias de las proteínas de fagos del grupo D3112virus de P. aeruginosa, particularmente aquellas del core genómico, aun exhiben similitud de secuencia con fagos transponibles de diferentes especies bacterianas, incluido el colifago Mu, arquetipo de este tipo de fagos [27]. Esto sugiere que

69 Adrián Cazares López Tesis de Doctorado su tipo de desarrollo ha sido exitoso evolutivamente por lo cual ciertos genes y la organización genómica se han mantenido altamente conservados en el tiempo y a través de amplias brechas filogenéticas impuestas por sus hospederos [21, 72]. A pesar de ello, se ha reportado que el plásmido híbrido RP4::D3112, que contiene el genoma del fago indicado, es capaz de replicarse y expresarse en diferentes especies de bacterias gram-negativas como E. coli y P. putida conduciendo a la formación de progenie de forma frecuente e incluso llevando a lisogenia en ciertas ocasiones [17]. Veintiocho profagos fueron identificados en diecinueve genomas bacterianos evidenciando que las cepas de P. aeruginosa son capaces de acarrear más de un fago del tipo D3112virus a la vez. Este hallazgo resulta remarcable ya que la polilisogenia con fagos del mismo tipo depende mecanisticamente de la ausencia de homoinmunidad, en primera instancia. El fenómeno de homoinmunidad describe la capacidad de una cepa lisógena de impedir la infección por un fago del mismo tipo del cual es lisógena mediante la acción de la proteína represora producida por el primer fago infectante [15]. Previamente reportamos que uno de los genes core que presentó mayor variación de secuencia fue el represor e hipotetizamos que dicha variabilidad, concentrada en el dominio de unión a ADN de la proteína, podría verse reflejada en la distinción de grupos de exclusión dentro del grupo D3112virus [27]. Los resultados de identificación cepas polilisogenas para profagos de este grupo parecen soportar dicha hipótesis. Adicionalmente, Heo y colaboradores reportaron en 2007 que los represores de los fagos D3112 y MP22, miembros de este grupo de fagos transponibles, eran incapaces de generar inmunidad cruzada [73]. Un caso similar ha sido reportado para fagos Stx-like los cuales son responsables de la producción de la toxina Shiga en cepas de E. coli [74]. Variantes de secuencia fueron identificadas para los genes que codifican el represor y anti-represor de fagos Stx-like lo cual se cree promueve la superinfección en este tipo de fagos y la generación de mosaicismo entre los mismos [74]. Si la polilisogenia

70 Adrián Cazares López Tesis de Doctorado producida por fagos tipo D3112virus promueve recombinación entre los profagos coinfectantes o confiere ventajas para su hospedero aún tiene que ser examinado en estudios posteriores. El análisis de las posiciones genómicas en donde fueron encontrados los profagos llevó a la identificación de veinte sitios de inserción distintos. Estos resultados confirman la naturaleza transponible de los fagos del grupo D3112virus cuya integración depende principalmente de la acción de las transposasas codificadas en su genoma y que representa la característica distintiva de los fagos Mu-like [72]. Once de las inserciones detectadas llevaron a la disrupción de ORFs en el genoma bacteriano. A pesar de que las funciones codificadas por dichos ORFs fueron variables, presumiblemente ninguna de ellas es esencial para la bacteria. No obstante, la variabilidad genómica proporcionada por la inserción aleatoria de este tipo de fagos podría resultar en diferencias fenotípicas y ventajas adaptativas para la bacteria en ciertas condiciones. En 2016, Davies y colaboradores mostraron que fagos tipo D3112virus representan una fuente de diversificación genética debido a su naturaleza insercional aleatoria lo que promueve que la cepa de P. aeruginosa PAO1 evolucione y se adapte rápidamente a condiciones de desarrollo en biofilm [9]. Nuestro análisis pangenómico permitió determinar que la principal fuente de variación en los genomas D3112virus reside en las Regiones de Plasticidad Genómica (RGPs) que albergan los ORFs del componente accesorio (aORFs). Treinta y cinco perfiles distintos de aORFs fueron identificados en los genomas analizados los cual refleja un alto grado de diversidad tanto en contenido como en orden génico. No obstante, cinco de dichos perfiles estuvieron presentes en más de un genoma lo cual contrasta con los resultados del estudio pangenómico original realizado con doce ejemplares en donde todos los perfiles de aORFs identificados fueron distintos [27]. Esto sugiere que el componente accesorio en estos fagos podría ser finito, aunque no se sabe cuántos ORFs nuevos podrían ser identificados

71 Adrián Cazares López Tesis de Doctorado antes de llegar a dicho punto. Reforzando dicha hipótesis, 28 tipos de aORFs fueron encontrados mediante la comparación de doce genomas mientras que la adición de cuarenta secuencias al análisis comparativo solo llevó al reconocimiento de 6 nuevos aORFs. Sin embargo, es importante mencionar que existe un sesgo importante hacia la caracterización de fagos tipo D3112virus que están presentes o fueron aislados a partir de cepas clínicas por lo cual la variedad de aORFs observados en el presente estudio podría estar limitada a la poza génica disponible en este nicho particular. El aislamiento y caracterización de fagos tipo D3112virus que infectan cepas ambientales podría dar luz en este sentido. Para una discusión detallada sobre las implicaciones funcionales de los aORFs codificados en los genomas de este grupo de fagos ver el ANEXO 1. En este trabajo se propone que las regiones de variabilidad genética detectadas en los genomas de fagos del grupo D3112virus representan una vía para su tipificación. La estrategia de caracterización por PCR aquí planteada toma ventaja de la arquitectura de los genomas del grupo al usar como sitio blanco las regiones conservadas que flanquean distintas RGPs para dilucidar el contenido genético variable de las mismas. Se ha reportados que el uso de oligos que tienen como blanco marcadores genéticos grupo-específicos de ciertos fagos es sumamente útil en la evaluación de diversidad y abundancia de dichos grupos en distintos ambientes [1]. El uso del gen de la proteína portal para identificar fagos T4-type, el gen Q y el que codifica la toxina Shiga para determinar la abundancia de fagos Stx-like presentes en el suelo, el gen g20 para identificar cianófagos en ambientes marinos y el gen que codifica una ADN polimerasa para evaluar la presencia de cianófagos de la familia Podoviridae en los océanos, representan ejemplos de marcadores que han sido usados exitosamente bajo este enfoque (información recopilada en [1]). Hasta ahora, las diferentes estrategias de identificación por PCR se basan en el uso de un solo gen para la estimación de diversidad y abundancia. Considerando el nivel de mosaicismo reportado

72 Adrián Cazares López Tesis de Doctorado en fagos, la estrategia de tipificación basada en la detección de varias regiones de variabilidad del genoma resulta más robusta. Los oligos aquí diseñados tienen como blanco secuencias altamente conservadas y específicas de genes core de fagos tipo D3112virus por lo que la detección de amplificación conduce a la identificación de estos fagos. El uso de más de un set de oligos conduce a la confirmación de la presencia de fagos transponibles en la muestra y además brinda información sobre los genes accesorios que porta dicho fago. Una aplicación útil de este set de oligos puede ser la caracterización de cepas de P. aeruginosa para determinar su carga de profagos del grupo D3112virus.

Conclusiones:  Se identificaron cincuenta y dos secuencias genómicas depositadas hasta Junio de 2016 en GenBank pertenecientes al grupo D3112virus de fagos transponibles. Veinticuatro de las secuencias correspondieron a genomas fágicos y veintiocho a profagos integrados en genomas de P. aeruginosa.  Los 28 profagos fueron identificados en los genomas de 19 cepas de P. aeruginosa debido a que cinco de ellas fueron polilisogenas para este tipo de fagos. La inserción de este tipo de fagos puede llevar a la disrupción de secuencias codificantes en los genomas de sus hospederos.  Los genomas del grupo D3112virus se pueden clasificar en dos sub- grupos principales con base en sus perfiles de identidad de secuencia nucleotídica y la presencia/ausencia del ORF accesorio h.  El pangenoma del grupo D3112virus aquí examinado comprende 47 genes core y 34 ORFs accesorios que representan la principal fuente de variabilidad de este tipo de fagos. Los ORFs accesorios se localizaron en 10 RGPs distribuidas a lo largo de los genomas.

73 Adrián Cazares López Tesis de Doctorado

 Treinta y cinco perfiles distintos de ORFs accesorios fueron identificados en los genomas analizados. Cinco de estos perfiles fueron detectados en más de un genoma.  Se diseñó una estrategia de caracterización para genomas de fagos tipo D3112virus basada en análisis por PCR de distintas regiones de variabilidad presentes en los mismos. Dicha estrategia mostró ser útil en la caracterización de variabilidad e identificación de este tipo de fagos a partir de ADN genómico viral o bacteriano.

74 Adrián Cazares López Tesis de Doctorado

9) CAPÍTULO 3: Caracterización genómica del grupo F116virus. Resultados Características de los genomas del grupo F116virus El genoma del fago F116 fue reportado en 2005 por Byrne y Kropinski [75] y desde entonces había permanecido como un ORFan en bases de datos, i.e. no presentaba homología con los genomas reportados a la fecha. Sin embargo, el genoma del fago temperado H66 de nuestro laboratorio, aislado a partir de una cepa clínica de P. aeruginosa de un hospital de la Ciudad de México, presentó niveles de identidad nucleotídica de 73.9% con F116. A este caso se le suma el del fago LKA5, aislado a partir de una muestra de agua ambiental en Leuven, Bélgica, cuyo genoma fue 74.6% idéntico al de F116. Como se mencionó anteriormente (ver Capítulo 1), valores de identidad nucleotídica mayores a 70% son suficientes para clasificar a los fagos comparados dentro del mismo género taxonómico. Por su parte, los genomas de H66 y LKA5 fueron 74.2% idénticos. El aislamiento y caracterización de los fagos H66 y LKA5 resulta relevante ya que permite establecer un género fágico de Podovirus cuyo genoma de referencia, F116, había permanecido como singleton a pesar de ser uno de los fagos de P. aeruginosa mejor estudiados históricamente. Fuera de este grupo, denominado F116virus, los genomas que lo integran solo muestran niveles de identidad nucleotídica menores a 5% con el siphofago de P. aeruginosa phi297 respecto al total de genomas fágicos reportados en GenBank. A pesar del alto nivel de identidad que exhiben, los genomas de este grupo presentaron variaciones tanto en el tamaño como en el número de ORFs que codifican. La longitud de los genomas de F116, H66 y LKA5 corresponde a 65195, 65270 y 64746 pb y codifican 75, 71 y 66 ORFs, respectivamente. Por otra parte, respecto al contenido de GC, los tres genomas presentaron valores promedio de alrededor de 63% (Figura 3.1). No obstante, segmentos genómicos de hasta ~40% de contenido de GC se detectaron en los tres casos.

75 Adrián Cazares López Tesis de Doctorado

Figura 3.1. Mapas genómicos de fagos del grupo F116virus. A. Mapas de los genomas de LKA5, F116 y H66. Los nombres de los fagos y los tamaños de sus genomas se muestran del lado izquierdo de los mapas correspondientes. Los genomas fágicos se representan como barras blancas. Los bloques grises que conectan los genomas indican regiones de identidad nucleotídica (>90%) entre los genomas detectadas por BLASTn. Los ORFs codificados en los genomas se muestran como flechas que apuntan hacia la dirección de su transcripción. Las flechas grises y negras que comparten la misma posición genómica representan homólogos detectados por medio de BLASTp en los tres genomas. Los colores de las flechas corresponden a los valores de identidad aminoacídica para dichos homólogos los cuales se indican debajo de los mapas. Las flechas blancas representan ORFs accesorios. Funciones inferidas para ORFs compartidos en los tres genomas se

76 Adrián Cazares López Tesis de Doctorado muestran en la parte superior de los mapas; TerL: Subunidad grande de la terminasa, PEV: Proteína Estructural de Virión, cs: cadena sencilla. Los asteriscos indican ORFs cuyas proteínas fueron identificados como componentes estructurales de partículas virales mediante espectrometría de masas. Los módulos funcionales identificados se muestran en la parte inferior de los mapas. B. Perfil de contenido de GC de los genomas de LKA5, F116 y H66. Los valores máximo, promedio y mínimo, expresados en porcentajes, del contenido de GC de cada genoma se muestran del lado derecho de la imagen.

Análisis comparativo y funcional de los genomas Con el fin de determinar con mayor precisión la variación genómica existente entre los genomas de los fagos del tipo F116virus se llevó a cabo un análisis comparativo detallado de los mismos. En primera instancia, se construyeron los mapas genómicos de los tres fagos y se localizó la posición de las regiones de identidad nucleotídica compartidas entre ellos. Tales regiones fueron identificadas mediante alineamientos obtenidos con BLASTn. Los resultados mostraron que el total de identidad nucleotídica (~70%) de H66 y LKA5 respecto al genoma de F116 se encuentra distribuido en bloques grandes que se encuentran separados por regiones donde no existe homología detectable a nivel de secuencia nucleotídica (Figura 3.1). La distribución y posición de dichas regiones fue homogénea y la mayoría se localizó del lado izquierdo de los genomas. La comparación de los perfiles de contenido de GC de los tres genomas evidenció también regiones de variabilidad entre ellos (Figura 3.1). Posteriormente, las secuencias aminoacídicas de los ORFs codificados en los tres genomas fueron comparadas mediante BLASTp en una estrategia all-vs- all con el fin de determinar el componente core y accesorio del grupo F116virus. Los genomas de H66, F116 y LKA5 codificaron 72, 75 y 66 ORFs, respectivamente. Las 213 secuencias se integraron en un pangenoma de 94 proteínas de las cuales 53 se encuentran conservadas en los tres genomas mientras que 41 corresponden al componente accesorio de los mismos. Cabe mencionar que durante dicha comparación se detectaron 6 ORFs, 5 en F116 y 1 en H66, que habían sido pasados por alto durante la anotación original

77 Adrián Cazares López Tesis de Doctorado por lo cual fueron añadidos a los mapas genómicos correspondientes y considerados en la determinación del pangenoma del grupo (Figura S3). Además de la identificación de dichos ORFs, el análisis comparativo también permitió detectar discrepancias entre la longitud asignada a ciertos ORFs respecto a la de sus homólogos. Algunas de las discrepancias fueron corregidas en los casos donde la mayoría de los ORFs (dos de tres) compartieron una longitud respaldada por la presencia de un sitio de unión a ribosoma cercano al codón de inicio propuesto (Figura S3). Finalmente, un segundo tipo de discrepancias encontrado correspondió a casos donde los ORFs parecen estar divididos en dos partes respecto a sus homólogos. Tales diferencias fueron encontradas en tres pares de ORFs codificados en el genoma del fago F116 (Figura S3). Los ORFs conservados en los tres genomas, que corresponden al componente core del grupo, presentaron en su mayoría niveles de identidad aminoacídica mayores a 90% lo cual era esperado ya que su posición en los genomas correspondió con los bloques de identidad nucleotídica identificados previamente (Figura 3.1). En contraste, otro set de core ORFs (cORFs) coincidió parcial o totalmente con la posición de las regiones sin homología identificadas en la comparación a nivel de nucleótidos. Algunos de estos mostraron niveles de identidad de aminoácidos de entre 70 y 90% mientras que los restantes, designados como altamente variables, presentaron niveles de identidad por debajo del 70% con un caso llegando al 32% (Figura 3.1). Por otra parte, todos los ORFs accesorios (aORFs) se localizaron en regiones de no homología a nivel nucleotídico (Figura 3.1). Este tipo de ORFs se clasificaron en dos categorías, los ORFs únicos y aquellos parcialmente compartidos, i.e. ORFs presentes únicamente en dos de los tres genomas (Figura 3.2). Del total de aORFs identificados, 32 fueron únicos y solo 9 fueron parcialmente compartidos. El contenido de aORFs vario en cada genoma: LKA5 presentó trece (6 únicos), F116 dieciocho (12 únicos) y H66 diecinueve (14 únicos) (Figura 3.2). Como se esperaba, un mayor número de aORFs coincidió con un mayor tamaño del

78 Adrián Cazares López Tesis de Doctorado genoma (Figura 3.1). Los genomas de LKA5 y F116 fueron los que compartieron un mayor número de aORFs con 4 casos, seguidos de LKA5 y H66 que compartieron 3 y H66 y F116 que tuvieron solo 2 aORFs homólogos. En consecuencia, estos dos últimos genomas presentaron el perfil de genoma accesorio más distinto con 33 diferencias lo cual contrasta con las 23 encontradas entre los perfiles de LKA5 y F116. Cabe destacar que los aORFs se encuentran codificados en loci específicos que tienen las mismas posiciones relativas en los tres genomas y que hemos denominado RGPs (ver Capítulo 2). Un total de diez RGPs, designadas de A a J en los mapas genómicos, fueron reconocidas en el análisis (Figura 3.2). Al igual que con los fagos del tipo D3112virus, en este grupo se pudieron reconocer dos tipos de RGPs, las que corresponden al indel de un ORF en particular (RGP H) o aquellas que albergan uno o más aORFs distintos (RGPs A, B, C, D, E, F, G, I y J) (Figura 3.2). En este sentido las RGPs B y C contuvieron el mayor número de aORFs en los genomas de F116virus siendo la primera la que presentó la mayor diversidad de los mismos (14 ORFs diferentes) y el mayor número de aORFs únicos. Del total de aORFs codificados en la RGP B, solo dos fueron parcialmente compartidos (b4 y b14) y el resto fueron únicos con H66, LKA5 y F116 codificando 6, 3 y 3, respectivamente (Figura 3.2). La función de los 94 ORFs que componen el pangenoma del grupo fue inferida mediante homología de secuencia, sintenia y presencia de dominios conservados con el objetivo de obtener más información acerca de la biología de los fagos tipo F116virus. Como sucede con la mayoría de genomas fágicos, una gran parte de los ORFs (69) codifico proteínas putativas cuya función es desconocida. Respecto a los ORFs del genoma core, solo se logró inferir la función de 12, que corresponden a las proteínas LexA-like, asociada a nucleoide, exonucleasa RdgC-like, de unión a ADN de cadena sencilla, exonucleasa, represor, cro-like, subunidad grande de la terminasa, portal, estructural de cápside, holina y endolisina (Figura 3.1). Cabe destacar que los cORFs que codifican las proteínas exonucleasa RdgC-like, subunidad

79 Adrián Cazares López Tesis de Doctorado grande de la terminasa y represor no fueron de los más conservados en secuencia y presentaron niveles de identidad aminoacídica de alrededor de 70% o menor respecto a sus homólogos en los fagos del grupo. Si esta variación de secuencia tiene algún impacto en sus funciones correspondientes requiere ser investigado experimentalmente. En cuanto al componente accesorio, se pudo inferir la función de 13 ORFs que corresponden a tres reguladores transcripcionales (aORFs a1, a2 e i5), una helicasa (b1), un inhibidor de nucleasa del hospedero (b12), cuatro metiltransferasas (c1, c4, c5 y c6), dos subunidades pequeñas de la terminasa (g2 y g3) y dos integrasas (j1 y j2) (Figura 3.3). Resulta particularmente notable que tanto la subunidad pequeña de la terminasa como la integrasa formen parte del genoma accesorio del grupo ya que dichas funciones son esenciales en el ciclo de desarrollo de los fagos y por lo tanto suelen estar asociadas al componente core de los genomas. Más interesante aún resulta el hecho de que los tres fagos cuentan con dichas funciones codificadas en las mismas posiciones genómicas relativas pero en ORFs que no muestran homología en secuencia (Figuras 3.2 y 3.3). Además, mientras que las Subunidades pequeñas de la terminasa son homólogas entre los fagos H66 y LKA5 y difieren de la de F116, las integrasas son homólogas entre LKA5 y F116 y difieren de la de H66 sugiriendo que la sustitución de aORFs con funciones análogas se dio de forma independiente en las dos regiones. Durante la inferencia de funciones para los ORFs que componen el pangenoma del grupo solo se identificaron dos relacionadas con la morfogénesis de las partículas virales, la proteína Portal (cORF 29) y una proteína estructural de cápside (cORF 31). En consecuencia, con el objetivo de enriquecer la anotación funcional del grupo F116virus se decidió llevar a cabo un estudio proteómico de las proteínas que componen los viriones de los fagos H66 y LKA5 mediante espectrometría de masas para así identificar las proteínas estructurales de los mismos. Las partículas virales de ambos fagos fueron purificadas y sus componentes proteicos se separaron mediante SDS-

80 Adrián Cazares López Tesis de Doctorado

PAGE. El gel resultante permitió identificar 16 y 14 bandas para H66 y LKA5, respectivamente (Figura S4). Por su parte, el análisis de las secuencias obtenidas por espectrometría de masas permitió la identificación de 17 y 18 proteínas como componentes estructurales de los viriones de LKA5 y H66, respectivamente. Todas las proteínas identificadas presentaron valores de probabilidad de asignación mayores a .9 de un máximo de 1 (ver Materiales y Métodos), no obstante, el ORF 64 de LKA5 (cORF 50) y los ORFs 47 y 56 de H66 (cORFs 33 y 42) fueron identificados pobremente respecto a los demás ya que su asignación se basó en la detección de menos de diez péptidos. Todos los ORFs identificados formaron parte del core genómico y se localizaron del lado derecho de los genomas fágicos de forma consecutiva (Figura 3.1). Posicionalmente, el primer ORF estructural fue la proteína Portal (cORF 29) mientras que el ultimo (cORF 50) se localizó un ORF después de la proteína de lisis Endolisina (Figura 3.1). De esta manera, el análisis proteómico de los viriones permitió confirmar la función de dos proteínas estructurales putativas y asignar dicha función a otras dieciséis que previamente habían sido designadas como proteínas hipotéticas al igual que sus homólogos en bases de datos. A pesar de ello, un estudio detallado de estas proteínas es necesario para elucidar qué papel juegan o qué posición mantienen en las partículas virales de este tipo de fagos. Reuniendo la información obtenida a partir del análisis funcional de los genomas del grupo se pudieron reconocer módulos funcionales usualmente identificados en fagos. Estos corresponden al módulo de modificación y replicación de ADN, al de control de Lisis/Lisogenia, el de empaquetamiento de ADN, el de proteínas estructurales del virión, el de lisis y el de integración .

81 Adrián Cazares López Tesis de Doctorado

Figura 3.2. Mapa del pangenoma del grupo F116virus. El mapa genómico, que representa el componente core del grupo analizado, fue dividido en dos para su fácil visualización. Las flechas de colores numeradas del 1 al 53 debajo del mapa representan los core ORFs (cORFs). El código de colores denota: rojo, función asignada; verde, función desconocida; morado, proteína estructural identificada por espectrometría de masas en viriones de H66 y LKA5. Los cORFs 29 y 31 también fueron identificados por espectrometría de masas, pero su función estructural había sido asignada previamente por homología de secuencia. Las Regiones de Plasticidad Genómica (RGPs A - J) indican la localización de los ORFs accesorios (aORFs). Los aORFs individuales para cada genoma se indican en minúsculas debajo de las RGPs correspondientes.

82 Adrián Cazares López Tesis de Doctorado

Figura 3.3. Frecuencia de homólogos para ORFs del pangenoma de fagos tipo F116virus. Los ORFs en el pangenoma de los fagos del grupo F116virus fueron analizados con BLASTp para determinar su número de homólogos en la base de datos no redundante de NCBI. El número de homólogos identificado para cada ORF en Virus (barras rojas), Bacterias (barras grises), Arqueas (barras azules) y otras secuencias (plásmidos, eucariontes, etc; asteriscos) se representa en la gráfica. Los cORFs se muestran en letras negras mientras que los aORFs se encuentran etiquetados en azul y sus barras correspondientes sombreadas en verde. Las barras correspondientes a ORFs que codifican proteínas del virión identificadas por espectrometría de masas en H66 y LKA5 se encuentran sombreadas en morado. Funciones inferidas para algunos ORFs se muestran en la parte inferior de la gráfica bajo los nombres de los ORFs correspondientes. El orden de los ORFs en la gráfica se presenta como en los genomas fágicos.

83 Adrián Cazares López Tesis de Doctorado

Como se mencionó anteriormente, los genomas de los fagos tipo F116virus no mostraron identidad de secuencia nucleotídica extensa con otros genomas fágicos depositados en GenBank, sin embargo, matches contra proteínas de diversos fagos y bacterias fueron detectados durante la anotación de las proteínas que conforman el pangenoma del grupo. Con el objetivo de investigar la relación de los ORFs del grupo F116virus con aquellos depositados en bases de datos a nivel aminoacídico y obtener información sobre el origen de los mismos se decidió determinar el número de homólogos disponibles en GenBank para cada ORF del pangenoma. Los distintos ORFs del grupo fueron usados como queries en búsquedas tipo BLASTp contra la base de datos no redundante de NCBI y el total de matches obtenidos fue categorizado según su origen taxonómico, i.e. Virus, Bacteria, Arquea y Eucariota. Los resultados correspondientes fueron graficados y organizados según la categoría taxonómica de los ORFs homólogos identificados (Figura 3.3). Sorpresivamente, el número de homólogos detectados para el total de ORFs del grupo fue dominado por la categoría Bacteria con 19615 casos, seguido por las categorías Virus y Arquea con 716 y 61 homólogos, respectivamente. El número de homólogos detectado para cada ORF fue sumamente variable con la mayoría (57 de 94) registrando menos de 150 homólogos. Estos casos incluyen a la proteína LexA-like, la mayoría de las proteínas estructurales del virión y una gran parte de los ORFs accesorios, entre otros (Figura 3.3). En contraste, algunos ORFs tuvieron más de 600 homólogos y correspondieron a una metiltransferasa (aORF c5), la proteína asociada a nucleoide, la exonucleasa RdgC-like, la proteína de unión a ADN de cadena sencilla, los aORFs f2 y f3, la subunidad grande de la terminasa, la proteína portal, una proteína estructural de virión (cORF 31), la endolisina y la proteína cro-like que registro un total de 1044 matches (Figura 3.3). En términos generales, los aORFs presentaron un menor número de homólogos que los cORFs con varios mostrando valores de 20 o menos. Los aORFs b5, b8, b9, b13, c2, e2, h, i2, i3, b10 y d2 corresponden a

84 Adrián Cazares López Tesis de Doctorado dichos casos y los dos últimos resultan particularmente interesantes ya que representan ORFans en la base de datos, i.e. no existen homólogos reportados para tales secuencias. En contraste, los aORFs a2, b3, b7, b14, c1, c6, f1, g3 e i1 representan algunos casos que fueron la excepción a esta tendencia presentando más homólogos que varios cORFs.

Estudio de las propiedades de integración de H66 y LKA5 Debido a que los genomas de fagos del tipo F116virus no mostraron identidad nucleotídica extensa con otros representantes fágicos depositados en GenBank se decidió realizar una búsqueda de secuencias homólogas a las de estos virus mediante el uso de BLASTn contra genomas de P. aeruginosa. Los resultados obtenidos mostraron la presencia de regiones bacterianas extensas pertenecientes a tres cepas distintas que fueron altamente similares al genoma de H66 así como segmentos pequeños de los genomas de varias cepas que fueron homólogos a regiones discretas en el genoma del fago (Figura 3.4). Estas últimas regiones, dos de ellas localizadas en el lado izquierdo y una del lado derecho de los genomas de F116virus, fueron analizadas para determinar su correspondencia con ORFs en los genomas que las comparten. De esta manera se logró identificar que las regiones ubicadas del lado izquierdo corresponden a ORFs que codifican una metiltranferasa de citosinas (aORF c1) y la proteína asociada a nucleoide (cORF 6) mientras que la región del lado derecho alberga un ORF que codifica una integrasa (aORF j2) (Figura 3.4). Este resultado es interesante ya que en ninguna de las cepas donde dichos segmentos homólogos fueron encontrados se pudo detectar homología adicional de las secuencias nucleotídicas adyacentes respecto al fago H66 sugiriendo que en estos genomas bacterianos el material genético compartido con este tipo de fagos se restringe a los ORFs ya mencionados (Figura 3.4). Por otra parte, la identificación de posibles regiones profágicas relacionadas a fagos tipo F116virus resulta sumamente sorpresiva debido a que el fago F116 fue

85 Adrián Cazares López Tesis de Doctorado caracterizado como no integrativo y su naturaleza episomal durante el estado de profago ha sido demostrada experimentalmente [76]. En contraste, la presencia de estos profagos putativos en los genomas de las cepas de DHS01, H27930 y N15-01092 sugiere la capacidad de fagos altamente similares a F116 de integrarse en genomas de P. aeruginosa. Las regiones profágicas putativas fueron analizadas con el fin de determinar los bordes fago-bacteria y la longitud correspondiente a las secuencias fágicas para realizar un análisis comparativo detallado de las mismas. Basado en dicho análisis se determinó una longitud de 65579, 64137 y 65469 pb para los profagos de las cepas DHS01, H27930 y N15-01092. Estos tamaños, que fueron similares a los de sus homólogos vegetativos F116, H66 y LKA5, sumados a niveles de identidad nucleotídica totales de ~70% respecto a los fagos del grupo sugieren que los profagos en cuestión están completos (Figura 3.5). Subsecuentemente, las regiones adyacentes a los tres profagos fueron comparadas entre sí para determinar los loci de inserción. De forma inesperada, se identificaron dos sitios de inserción distintos, uno para los profagos de las cepas H27930 y N15-01092 y otro para el profago en la cepa DHS01. Notablemente, tales loci estuvieron separados por más de 1.2 millones de pares de bases tomando como referencia el genoma de la cepa PAO1 (Figura 3.6). El locus de inserción de los profagos en H27930 y N15- 01092 correspondió a una región de tRNAs dentro de la cual el profago se insertó en la parte 3’ terminal (17 pb antes del final) del gen que codifica el tRNA de Leucina (tag). Por otra parte, el locus de inserción del profago encontrado en DHS01 se localizo en la porción amino terminal (codón 25) de la proteína tRNA dihidrouridina sintetasa (DusA). La integración de un genoma fágico es mediada por la acción de su proteína integrasa la cual es responsable de catalizar reacciones de recombinación unidireccionales de ADN altamente sitio especificas [77]. Considerando esta información se hipotetizo que los diferentes sitios de inserción identificados para estos profagos altamente similares podrían estar relacionados con la presencia de

86 Adrián Cazares López Tesis de Doctorado integrasas distintas codificadas en dichos genomas. El análisis de las secuencias profágicas condujo a la identificación de los ORFs que codifican las integrasas en los tres casos y evidenció dos tipos de las mismas, los cuales se correlacionaron con los sitios de integración detectados, i.e. las integrasas de los profagos en H27930 y N15-01092 fueron casi idénticas mientras que la del profago en DHS01 fue diferente. Como se mencionó anteriormente, las integrasas de los fagos F116, LKA5 y H66 se encuentran codificadas en ORFs accesorios lo cual sugiere que dichos fagos podrían exhibir también la bifuncionalidad integrativa observada en los profagos relacionados. La comparación de las integrasas fágicas y profágicas reveló que estas pueden ser clasificadas en dos grupos: el primero incluye a las codificadas por F116 y LKA5 y los profagos de las cepas H27930 y N15- 01092 mientras que el segundo incluye las integrasas del fago H66 y el profago en DHS01. Con base en estos resultados resulta probable que las integrasas de los fagos H66 y LKA5 sean funcionales y permitan la integración de los genomas de los mismos. Las integrasas similares a la de LKA5, aquí denominadas LKA5-like, son 96% idénticas y presentan un tamaño de 411 aminoácidos, con excepción de la del profago en H27930 compuesta por 410 (ANEXO 2). Por otro lado, las integrasas que definimos como H66-like muestran un nivel de identidad de 99% y un tamaño de 368 aminoácidos (ANEXO 2). La comparación entre ambos tipos de integrasas mediante el uso de BLASTp y PRALINE evidenció la presencia de 14 y 51 aminoácidos idénticos entre ellas, respectivamente, lo cual correspondió a porcentajes de identidad de 4 y 14% (ANEXO 2). Bajo la suposición de que ambos tipos de integrasas son funcionales, resulta probable que dichas proteínas compartan residuos en posiciones importantes para llevar a cabo su función a pesar de la disimilitud encontrada. Para evaluar esta posibilidad ambas secuencias fueron analizadas mediante el uso de InterProScan con el fin de identificar la presencia de dominios conservados. Los resultados obtenidos mostraron que los dos tipos de integrasas

87 Adrián Cazares López Tesis de Doctorado presentan los dominios IPR011010, IPR013762 e IPR002104 los cuales se localizaron en las porciones media y carboxilo terminal de las secuencias y se relacionan con las funciones de integrasa y ruptura y re-unión de ADN (Figura 3.7). Además, ambos tipos de proteínas fueron asociadas con términos de ontología de genes (GO por sus siglas en Ingles) relacionados con unión a ADN (GO:0003677), recombinación (GO:0006310) e integración (GO:0015074) (Figura 3.7). No obstante, las integrasas LKA5-like presentaron los dominios IPR025166 y IPR023109 los cuales se localizan en la porción amino terminal, están ausentes de las integrasas H66-like y corresponden a un dominio de función desconocida y de recombinasa/integrasa, respectivamente (Figura 3.7). Debido a que la búsqueda de dominios conservados mostró un mayor grado de similitud entre los dos tipos de integrasas, se procedió a predecir los modelos tridimensionales de las mismas con el fin de inferir su homología a nivel estructural. La superposición de los modelos estructurales obtenidos con I- TASSER evidenció una alta similitud entre ellos (RMSD= 2.282) los cuales a su vez fueron altamente similares a la estructura cristalizada de la integrasa del bacteriófago lambda (RMSD= 1.55 para LKA5 y 1.83 para H66). Considerando que la especificidad de integración se encuentra mediada por el tipo de integrasa, resulta plausible que los sitios de inserción para los fagos H66 y LKA5 sean los mismos que los identificados para los profagos de las cepas DHS01 y N15-01092, respectivamente. La reacción de recombinación sitio especifica catalizada por las integrasas depende, en primera instancia, del reconocimiento de secuencias de unión (sitios att) presentes tanto en el genoma bacteriano (attB) como el fágico (attP) las cuales son altamente similares entre si [77]. Posterior a la inserción, ambos sitios att se conservan y quedan ubicados en los extremos del nuevo profago integrado por lo cual se designan como attL y attR según el mecanismo descrito para el bacteriófago lambda [77].

88 Adrián Cazares López Tesis de Doctorado

Figura 3.4. Regiones genómicas bacterianas homólogas a genomas F116virus. El genoma del fago F116 fue usado como query en búsquedas BLASTn contra los genomas de P. aeruginosa depositados en GenBank. Las regiones homólogas identificadas se muestran como barras rojas en la figura. Las tres primeras corresponden a regiones en los genomas de las cepas H27930, N15-01092 y DHS01, respectivamente. En la parte derecha de la figura se muestra la correspondencia de ciertas regiones de homología con su posición en los mapas genómicos de fagos del grupo F116virus. Las regiones marcadas en bloques café, verde y azul corresponden a los ORFs que codifican la integrasa de tipo F116- like, la Proteína asociada a nucleoide y una Metiltransferasa, respectivamente. En los dos últimos casos se señalan los ORFs correspondientes en los mapas dentro de óvalos. La posición de la integrasa no se indica dado que se encuentra en el extremo derecho de los mapas.

89 Adrián Cazares López Tesis de Doctorado

A

B

C

Figura 3.5. Comparación nucleotídica de genomas F116virus con regiones profágicas. La figura muestra las comparaciones realizadas con BLASTn y visualizadas con el programa ACT entre genomas del tipo F116virus y regiones genómicas de tres cepas de P. aeruginosa.

90 Adrián Cazares López Tesis de Doctorado

En cada comparación, el nombre del genoma fágico comparado y su mapa correspondiente se muestran en la parte superior de la imagen mientras que el mapa de la región genómica bacteriana y el nombre de la cepa correspondiente (Posterior al prefijo P_a_) se muestran en la parte inferior. Los bloques verdes con punta de flecha en ambos mapas representan las secuencias codificantes de los ORFs las cuales apuntan hacia la dirección de su transcripción. Los bloques de colores que conectan ambos mapas corresponden a regiones de identidad nucleotídica (> 90%) detectadas entre ambos genomas de forma directa (bloques rojos) o reverso-complementaria (bloques azules). Las diagonales en amarillo indican la región homóloga correspondiente al ORF que codifica la integrasa el cual se encuentra encerrado en un círculo morado y marcado como int en letras moradas para su fácil identificación. Note que en la región profágica int pasa a ser el primer ORF en contraste a la topología del genoma fágico en donde es el último. La región genómica bacteriana que corresponde al profago se muestra como un bloque verde en el mapa. A. H66 vs DHS01. B. F116 vs H27930. C. F116 vs N15-01092.

Figura 3.6. Sitios de inserción probables para los fagos H66 y LKA5. El mapa genómico de la cepa PAO1, infectable por fagos del grupo F116virus, se muestra del lado izquierdo de la figura y se usa como referencia para indicar los sitios de inserción putativos de fagos con integrasas del tipo LKA5-like y H66-like. Ambos sitios de inserción, señalados con flechas negras, fueron determinados mediante la inspección de las regiones genómicas adyacentes a los profagos del tipo F116virus de las cepas DHS01 (H66-like), y H27930 y N15-01092 (LKA5-like). La escala en nucleótidos del genoma de PAO1 se muestra en el círculo externo del mapa. El sitio de inserción LKA5-like se localiza en la posición 1947646 mientras que el sitio H66-like se encuentra en la posición 3152549. Del lado derecho de la figura se muestran esquemas que representan las dos regiones de inserción. En la parte inferior de

91 Adrián Cazares López Tesis de Doctorado cada esquema se muestra la topología del sitio cuando está libre y en la parte superior se muestra el escenario donde el sitio se encuentra ocupado por un profago. Los esquemas están dibujados a escala.

A

B

Figura 3.7. Dominios conservados identificados en las secuencias proteicas de las integrasas de los fagos H66 y LKA5. Las secuencias aminoacídicas de las integrasas fueron analizadas con la herramienta InterProScan. Los reportes obtenidos se muestran en la figura. En la parte superior de cada reporte se indica el nombre y tamaño de la proteína analizada. Debajo de dicha información se muestran, en forma de barras, los dominios identificados y su posición en la secuencia proteica. Los detalles de dichos dominios, incluyendo su número de acceso en InterProScan (en letras azules del lado izquierdo de la imagen, IPR…), se presentan más abajo en el reporte. Barras del mismo color representan dominios de familias relacionadas. En la parte inferior del reporte se muestran los términos de Ontología de

92 Adrián Cazares López Tesis de Doctorado

Genes (GO, por sus siglas en Ingles) predichos para la secuencia analizada. A. Integrasa del fago H66. B. Integrasa del fago LKA5.

Con el objetivo de reforzar la hipótesis de que los loci de inserción de los fagos tipo F116virus son los mismos que los encontrados en los profagos y obtener más información sobre el posible proceso de integración de los mismos, se analizaron los genomas de H66, LKA5 y de la cepa PAO1, la cual infectan ambos fagos, en busca de los sitios att. A pesar de representar el arquetipo del grupo, el genoma del fago F116 fue omitido de este analisis y posteriores experimentos debido a que no se logro conseguir una muestra del fago incluso en el laboratorio donde se reporto la secuenciación de su genoma. Los genomas mencionados fueron comparados y los matches obtenidos en las regiones cercanas a los sitios de inserción putativos se inspeccionaron para determinar la presencia de los sitios de unión. Un segmento de 17 nucleótidos idénticos entre los genomas de LKA5 y PAO1 fue identificado adyacente al sitio de inserción putativo en el genoma bacteriano y rio arriba de la integrasa codificada en el genoma fágico (Figura 3.8). Cabe destacar que dicha secuencia, que corresponde a 5’-tctctccgtccgcacca-3’ existe solo una vez en los genomas bacteriano y fágico y representa los últimos 16 nucleótidos del tRNA de Leucina en PAO1. Además, esta secuencia se encuentra presente dos veces en la cepa N15-01092, una en cada extremo del profago lo cual coincide con la huella de inserción descrita anteriormente para el fago lambda [15] (Figura 3.8). Considerando estos hallazgos, la integración del genoma del fago no conduciría al corte disruptivo del tRNA ya que este se vería reconstituido por la secuencia complementaria del attP. De la misma manera, una secuencia de 23 nucleótidos altamente similar entre los genomas de H66 y PAO1 fue identificada en las mismas posiciones relativas que el caso anterior, i.e. adyacente al sitio de integración putativo para este tipo de fago en PAO1 y rio arriba de la integrasa en el genoma fágico. No obstante, a diferencia del att putativo identificado para LKA5 el

93 Adrián Cazares López Tesis de Doctorado de H66 no fue idéntico al de su contraparte bacteriana y presentó 5 mismatches respecto al sitio homólogo en el genoma de PAO1 (Figura 3.9). De esta manera los sitios attP y attB putativos correspondieron a las secuencias 5’-tccatcatcggtgcgacagaaaa-3’ y 5’-tccatcattggcgcaacggagaa-3’, respectivamente. En este caso también se identificó un par de secuencias altamente similares a las mencionadas anteriormente localizadas en los extremos del profago encontrado en la cepa DHS01. Cabe destacar que dichas secuencias no fueron idénticas entre ellas, el sitio de unión putativo encontrado del lado izquierdo del profago fue idéntico al att fágico y presentó 5 mismatches respecto al bacteriano mientras que aquel encontrado del lado derecho presentó 3 disimilitudes respecto a su homólogo en H66 y 2 en relación al identificado en PAO1 (Figura 3.9). Esos resultados respaldan la existencia de sitios att en el genoma de PAO1 para la integración de fagos del tipo F116virus y refuerza la hipótesis de que estos virus tienen la capacidad de llevar a cabo dicho mecanismo durante el establecimiento de su estado de profago en dos sitios distintos dependiendo del tipo de integrasa que portan. Para probar dicha hipótesis se planteó determinar mediante análisis por PCR de cepas lisógenas si los fagos H66 y LKA5 eran capaces de ocupar, mediante integración en su hospedero, los sitios propuestos por el análisis de secuencia. Para tal fin se diseñaron distintos sets de oligonucleótidos, algunos flanquean los sitios de inserción en el genoma bacteriano, es decir, tienen como blanco secuencias bacterianas adyacentes a los sitios att putativos (F-PAO1-LKA5, R-PAO1-LKA5, F-PAO1-H66-long, F- PAO1-H66-short y R-PAO1-H66), y otros tienen como blanco secuencias fágicas localizadas en ambos extremos de los profagos (F-LKA5-pro-right, R- LKA5-pro-left, F-H66-pro-right y R-H66-pro-left) (Tabla 3.1, Figura S5). El racional del experimento se basa en el uso de los oligonucleótidos diseñados en diferentes combinaciones. El uso de los pares de oligos que flanquean los sitios de inserción pretende evidenciar si el locus de interés ha sido ocupado por la inserción del profago. En una cepa con genoma intacto se espera un

94 Adrián Cazares López Tesis de Doctorado amplicón con el uso de estos pares de oligos mientras que la inserción de un profago llevaría a la pérdida del mismo (Figura S5). Dos oligos forward distintos (F-PAO1-H66-long y F-PAO1-H66-short, ver Tabla 3.1) fueron diseñados para el caso del sitio de inserción de H66 ya que los análisis de diferentes genomas de P. aeruginosa depositados en bases de datos indicaron que algunos elementos de inserción no fágicos también pueden ocupar un sitio cercano al evaluado. En este escenario la ausencia de amplicón evidenciada con el uso del oligo forward F-PAO1-H66-long (Tabla 3.1) podría ser el resultado de la presencia de alguno de estos elementos de inserción y el uso del oligo F-PAO1-H66-short, más cercano al locus de inserción del profago, permitiría diferenciar dicho evento. En cuanto a la identificación del genoma fágico insertado, el uso combinado de uno de los oligos que flanquea el sitio de inserción con otro localizado en uno de los extremos del profago llevaría a la amplificación de un segmento hibrido que contiene ADN bacteriano y profágico evidenciando así la inserción. En contraste, la ausencia de integración en el sitio llevaría a la ausencia de amplicón (Figura S5). Cabe destacar que los oligos diseñados con base en los extremos de los profagos putativos están orientados hacia afuera de dicha región, no obstante, en un genoma vegetativo los extremos profágicos corresponden a una región continua y por ende la orientación de los oligos se ve modificada. En consecuencia, el uso de los oligos de ambos extremos, que no produce amplificación en un profago, permitiría evidenciar la presencia de fago no integrado en caso de existir un amplicón. Para llevar a cabo los experimentos de determinación de integración se aislaron cepas lisógenas para los fagos H66 y LKA5 a partir de ensayos de infección sobre la cepa PAO1 y se confirmó la identidad de las mismas mediante ensayos de inmunidad, identificación de fago libre en el sobrenadante y PCR usando oligos específicos para genes de cada fago proporcionados por el M. en C. Marco Carballo Ontiveros (Figura 3.10).

95 Adrián Cazares López Tesis de Doctorado

A

B

Figura 3.8. Sitios att candidatos de fagos tipo F116virus LKA5-like. Alineamientos de secuencias nucleotídicas correspondientes a regiones genómicas bacterianas (arriba), profágicas (en medio) y fágicas (abajo). La secuencia del genoma de PAO1 corresponde a la región que incluye el tRNA de Leucina que es el blanco de inserción del profago mientras que la secuencia del genoma de LKA5 corresponde a la región rio arriba del gen de la integrasa. Las secuencias de origen bacteriano se encuentran resaltadas en color gris mientras que las de origen fágico se indican en color rojo. El segmento de secuencia idéntica entre los genomas de la bacteria, el profago y el fago, que corresponde al sitio att putativo, se indica en la parte inferior del alineamiento. Los caracteres “O” representan segmentos de secuencia sin homología en el alineamiento. A. Alineamientos correspondientes a la región izquierda del profago tipo F116virus de la cepa N15-0192. B. Alineamientos correspondientes a la región derecha del profago tipo F116virus de la cepa N15-0192.

96 Adrián Cazares López Tesis de Doctorado

A

B

Figura 3.9. Sitios att candidatos de fagos tipo F116virus H66-like. Alineamientos de secuencias nucleotídicas correspondientes a regiones genómicas bacterianas (arriba), profágicas (en medio) y fágicas (abajo). La secuencia del genoma de PAO1 corresponde a una región del gen DusA que es el blanco de inserción del profago mientras que la secuencia del genoma de LKA5 corresponde a la región rio arriba del gen de la integrasa. Las secuencias de origen bacteriano se encuentran resaltadas en color gris mientras que las de origen fágico se indican en color rojo. El segmento de secuencia homóloga entre los genomas de la bacteria, el profago y el fago, que corresponde al sitio att putativo, se indica en la parte inferior del alineamiento. Los mitmatches identificados se muestran en letras rojas en el alineamiento y en verde en la secuencia consenso. Los caracteres “O” representan segmentos de secuencia sin homología en el alineamiento. A. Alineamientos correspondientes a la región izquierda del profago tipo F116virus de la cepa DHS01. B. Alineamientos correspondientes a la región derecha del profago tipo F116virus de la cepa DHS01.

97 Adrián Cazares López Tesis de Doctorado

Del total de cepas lisógenas confirmadas se eligieron tres de cada fago para llevar a cabo los experimentos posteriores. La estandarización de las reacciones de PCR permitió identificar las temperaturas de alineamiento ideales y corroboró que en la cepa PAO1 silvestre los sitios de integración se encuentran intactos por lo cual se obtienen los amplicones esperados con el uso de los oligos adyacentes al sitio: PCRs etiquetadas como LKA5-like I (sitio de inserción para LKA5), H66-like IL (sitio de inserción para H66, oligo F-PAO1-H66-long) y H66-like IS (sitio de inserción para H66, oligo F-PAO1- H66-short) en la Figura 3.10. Además, ningún amplicón fue producido con el uso de los oligos dirigidos a secuencias fágicas: PCRs etiquetadas como LKA5-like Left (extremo izquierdo del profago LKA5), LKA5-like Right (extremo derecho del profago LKA5), H66-like Left (extremo izquierdo del profago H66), H66-like RightS (extremo derecho del profago H66, oligo F- PAO1-H66-short) y H66-like RightL (extremo derecho del profago H66, oligo F-PAO1-H66-long) en la Figura 3.10. Debido a que los oligos F-PAO1-H66- long y F-PAO1-H66-short exhibieron el mismo tipo de resultado se eligió únicamente el ultimo para los experimentos posteriores. Se realizaron PCRs de colonia a tres cepas lisógenas de cada fago y a la cepa PAO1 de forma paralela para evaluar la presencia de un gen especifico del fago, el estado de los sitios de inserción para ambos fagos, la presencia de los extremos izquierdo y derecho del profago y la existencia de fago no integrado. Los resultados obtenidos para el caso de H66 se muestran en la Figura 3.11. Las tres cepas lisógenas para el fago H66 (H66L, H5 y H8) mostraron el amplicón correspondiente al ORF_5 corroborando así la presencia del fago en las mismas y su identidad, lo cual contrastó con la cepa PAO1 en donde dicho amplicón estuvo ausente como era esperado. En la misma línea, las tres cepas lisógenas mostraron los amplicones correspondientes al segmento hibrido de ambos extremos del profago a diferencia de la cepa silvestre, demostrando así la capacidad de inserción de H66 en su estado de profago. Como era esperado, los sitios de inserción para el fago LKA5 permanecieron

98 Adrián Cazares López Tesis de Doctorado intactos tanto en las cepas lisógenas como en PAO1 lo cual fue evidenciado por la presencia de amplicón. Sin embargo, también se identificaron amplicones en todas las cepas para el sitio de integración de H66. De forma concordante, fago no integrado fue detectado en las cepas lisógenas, no así en la cepa silvestre (carriles etiquetados como H66-like IntUp en la Figura 3.11). Juntos, estos dos últimos resultados indican que en las muestras evaluadas existe una mezcla de fagos integrados y no integrados y por ende sitios ocupados y libres. Por su parte, los resultados obtenidos para el fago LKA5 (Figura 3.12) siguieron el mismo patrón observado en H66. Las tres lisógenas de LKA5 (L1, L2 y L4) presentaron el amplicón para el gen Int evidenciando la presencia del profago a diferencia de la cepa PAO1. Asimismo, los amplicones correspondientes a los segmentos híbridos de ambos extremos del profago fueron identificados solo en las cepas lisógenas revelando que el fago LKA5 también es capaz de integrarse en un sitio distinto al de H66. Al igual que el caso anterior, se detectaron amplicones para todas las cepas evaluadas en los sitios de integración tanto de H66 como de LKA5. Además, fago no integrado también fue detectado en las cepas lisógenas de LKA5 (carriles etiquetados como LKA5-like IntUp en la Figura 3.12) sugiriendo así la coexistencia de fago integrado y no integrado en las muestras analizadas como fue observado para el caso del fago H66. De esta manera, los resultados del presente estudio demuestran, por primera vez, las propiedades integrativas de fagos del tipo F116virus durante el estado de lisogenia. Además, conducen a la identificación de sitios att candidatos los cuales son distintos entre los fagos de tipo H66 y LKA5 y se correlacionan con el tipo de integrasa que portan los mismos. De forma significativa, este parece ser el primer caso descrito en donde fagos cercanamente relacionados codifican integrasas en su componente genómico accesorio y son capaces de insertar su genoma de manera sitio-especifica en dos loci diferentes y distantes en el genoma de su hospedero.

99 Adrián Cazares López Tesis de Doctorado

Tabla 3.1. Oligos para la identificación de inserción de fagos del grupoF116virus en la cepa PAO1. Amplicones esperados (pb) Región a Blanco Oligo Secuencia 5’->3’ Longitud TM GC% PAO1 PAO1 amplificar PAO1 H66 LKA5 (H66) (LKA5)

Sitio de F-PAO1-LKA5 TATCTGCTGGCGAAGGTTGG 20 60.11 55.00 LKA5- inserción 904 904 - NA NA like I R-PAO1-LKA5 GATTGGGTACCGGAAAGGCA 20 60.03 55.00 de LKA5 Sitio de H66-like F-PAO1-H66-long TGAATACAGGTGCCGGACCG 20 62.23 60.00 inserción 500 - 500 NA NA IL de H66 R-PAO1-H66 ATCATGTTGTGCTGGACCCG 20 60.68 55.00 Sitio de F-PAO1-H66- H66-like ATAAAATCCCTCGCCCTGCTC 21 60.20 52.38 inserción short 381 - 381 NA NA IS de H66 R-PAO1-H66 " " " " Extremo F-PAO1-LKA5 " " " " LKA5- izquierdo - - 764 NA NA like Left del profago R-LKA5-pro-left GGAAGCCAACGGAAGAGACTA 21 59.45 52.38 de LKA5 Extremo F-LKA5-pro-right TAGGTCATTCCATCCAGCGG 20 59.24 55.00 LKA5- derecho del - - 866 NA NA like Right profago de R-PAO1-LKA5 " " " " LKA5 Extremo R-PAO1-H66 " " " " H66-like izquierdo - 760 - NA NA Left del profago R-H66-pro-left CATCCCCCAGCCATGTCG 18 60.20 66.67 de H66

100 Adrián Cazares López Tesis de Doctorado

Extremo F-H66-pro-right CCCACGATTCCGCACTGGTA 20 62.23 60.00 H66-like derecho del - 492 - NA NA RightS profago de F-PAO1-H66- " " " " H66 short Extremo F-H66-pro-right " " " " H66-like derecho del - 839 - NA NA RightL profago de F-PAO1-H66-long " " " " H66 Región F-LKA5-pro-right LKA5- Upstream " " " " like de la - - - - 726 IntUp integrasa R-LKA5-pro-left " " " " de LKA5 Región F-H66-pro-right Upstream " " " " H66-like de la - - - 872 - IntUp integrasa R-H66-pro-left " " " " de H66 Gen int de Int-F GTGGCCCAAGGTATCGATCC 20 60.25 60.00 Int* - - 562 - 562 LKA5 Int-R TTTCTAGATCGAAGTCTGCCG 21 57.58 47.62 ORF 5 de ORF_5-F GCGATGGTGGAGTTGATCCT 20 59.82 55.00 ORF_5* - 229 - 229 - H66 ORF_5-R AGTAGAACCGGCTGAGTTCC 20 59.10 55.00

ORF 60 de ORF_60-F GAAGTCACCGATGTGACTCC 20 58.00 55.00 ORF_60* LKA5 y - 1618 1654 1618 1654 ORF_60-R GAATCACCCTCACCTCTTCG 20 57.70 55.00 H66

101 Adrián Cazares López Tesis de Doctorado

Notas: Debido a que varias de las regiones a amplificar dependen de combinaciones distintas de un set común de oligos (Figura S5), en la tabla se reportan las secuencias y características de los oligos solo una vez para evitar que se repitan. En dichos casos la información correspondiente es remplazada con el signo ". Las filas de las distintas regiones a amplificar se resaltan en blanco y gris para su fácil diferenciación. PAO1(H66) y PAO1(LKA5) corresponden a versiones lisógenas de la cepa PAO1 con los fagos indicados entre paréntesis. NA en la columna de amplicones esperados significa No Aplica. El signo – indica que no se espera amplificación con el uso de los oligos correspondientes. * Los oligos fueron proporcionados amablemente por el M. en C. Marco Carballo Ontiveros.

Figura 3.10. Estandarizacion de PCR para identificar inserción de fagos tipo F116virus. Las PCRs de las regiones indicadas en la parte superior de la figura fueron sometidas a electroforesis en un gel de agarosa al 1%. Las etiquetas arriba de cada carril indican. el origen del ADN usado como molde y, entre paréntesis, la región a amplificar. Las regiones a amplificar y sus oligos correspondientes se describen en la Tabla 3.1. El carril 1 corresponde al marcador de peso molecular cuyos tamaños se muestran del lado izquierdo de la imagen. En los carriles 2 al 10 el ADN molde fue obtenido a partir de colonias bacterianas de las cepas indicadas mientras que en el carril 11 el molde proviene del sobrenadante de la lisógena evaluada en el carril 10. El tamaño teórico de los distintos amplicones se muestra en la parte inferior del gel.

102 Adrián Cazares López Tesis de Doctorado

Figura 3.11. Análisis de Integración del fago H66 mediante PCR. Las imágenes corresponden a geles de agarosa al 1% en los cuales fueron separados por electroforesis las PCRs de las regiones indicadas en la parte superior de cada gel. Las etiquetas arriba de cada carril indican el origen del ADN usado como molde y, entre paréntesis, la región a amplificar. Las regiones a amplificar y sus oligos correspondientes se describen en la Tabla 3.1. El carril 1 en ambos geles corresponde al marcador de peso molecular cuyos tamaños se muestran del lado izquierdo de la imagen. Con excepción de los últimos 6 carriles del segundo gel, donde el ADN utilizado proviene de extracción genómica viral, el ADN molde fue obtenido a partir de colonias bacterianas de las cepas indicadas. El tamaño teórico de los distintos amplicones se muestra en la parte inferior de los geles.

103 Adrián Cazares López Tesis de Doctorado

Figura 3.12. Análisis de Integración del fago LKA5 mediante PCR. Las imágenes corresponden a geles de agarosa al 1% en los cuales fueron separados por electroforesis las PCRs de las regiones indicadas en la parte superior de cada gel. Las etiquetas arriba de cada carril indican el origen del ADN usado como molde y, entre paréntesis, la región a amplificar. Las regiones a amplificar y sus oligos correspondientes se describen en la Tabla 3.1. El carril 1 en ambos geles corresponde al marcador de peso molecular cuyos tamaños se muestran del lado izquierdo de la imagen. El ADN molde utilizado en todas las reacciones de amplificación fue obtenido a partir de colonias bacterianas de las cepas indicadas. El tamaño teórico de los distintos amplicones se muestra en la parte inferior de ambos geles.

104 Adrián Cazares López Tesis de Doctorado

Discusión El bacteriófago F116 es el arquetipo de fagos temperados que no son comúnmente aislados y caracterizados en P. aeruginosa (Tabla 1.2). F116 fue aislado en 1960 [78] y caracterizado morfológicamente como un Podofago con propiedades distintivas que incluyen: degradación de biofilm, infección de algunas cepas de Burkholderia cepacia, transducción generalizada y replicación en forma de plásmido durante el ciclo lisogénico [17, 21, 75]. A pesar de su relevancia, F116 no pudo ser incluido en los experimentos realizados en este trabajo debido a que dicho ejemplar se extravío en el laboratorio del Dr. Kropinski y no pudo ser recuperado de otra fuente. Este hecho remarca la importancia de caracterizar otros fagos homólogos a F116 como lo son H66 y LKA5. El genoma de F116 fue secuenciado en 2005 [75] y desde entonces había permanecido como un ORFan en bases de datos públicas. Durante el ensamble de F116, los autores reportaron que 2.6% de las secuencias obtenidas correspondían a genes del hospedero localizados entre las coordenadas 2.05 y 3.43 del genoma de PAO1 lo cual confirma la naturaleza de F116 como fago de transducción generalizada [75]. Dicha propiedad no ha sido evaluada para el fago H66 en nuestro laboratorio, sin embargo, las lecturas obtenidas en la secuenciación y que fueron descartadas del ensamble final podrían ser examinadas para inferior si también exhibe la propiedad de transducción. Los genes que codifican el represor y anti-represor (Cro-like) en H66 y LKA5 fueron identificados en una orientación divergente en la misma posición que sus homólogos en F116. Esto sugiere que el circuito regulatorio de la decisión lisis/lisogenia en los fagos del grupo F116virus es parecido al descrito para otros fagos temperados incluyendo el colifago λ [75]. No obstante, nosotros identificamos que ambos genes corresponden a ORFs de secuencia variable en el componente core del pangenoma. Mientras que el represor y anti- represor son casi idénticos entre los fagos H66 y F116, estos muestran

105 Adrián Cazares López Tesis de Doctorado niveles de identidad de aminoacídica de ~73 y 60% respecto a sus homólogos en LKA5. La variación de dichos elementos regulatorios ya ha sido reportada en otros grupos de fagos y ha sido ligada con la ausencia de inmunidad cruzada en las capacidades de infección de los fagos involucrados [27, 73, 74]. Dichos reportes sugieren que el fago H66 podría ser capaz de infectar exitosamente cepas lisógenas para el fago LKA5 y viceversa lo cual aún requiere ser evaluado. Uno de los hallazgos interesantes en el genoma de F116 fue el reconocimiento de un homólogo de LexA que fue identificado mediante homología de secuencia con proteínas de este tipo y la presencia del dominio de unión a ADN tipo LexA [75]. Sin embargo, el homólogo en el fago F116 corresponde a la mitad en longitud respecto a sus homólogos. El producto de 69 aminoácidos de dicho gen fue uno de los que exhibió un mayor grado de conservación en nuestra comparación con niveles de 98-100% de identidad de secuencia. La proteína LexA actúa como un represor involucrado en la respuesta SOS bacteriana [79] que a su vez se ha relacionado con proceso de inducción de varios tipos de profagos. Si la proteína LexA-like de los fagos de tipo F116virus está involucrada en el proceso de inducción del profago, juega un papel distinto en el fago o su hospedero o incluso es capaz de unirse a operadores fágicos o bacterianos requiere de un estudio experimental detallado. El descubrimiento más sobresaliente de la anotación del genoma de F116 fue la identificación del gen que codifica la integrasa [75]. Las integrasas son una clase proteínas comúnmente encontradas en fagos temperados ya que son responsables de catalizar la inserción del genoma fágico durante el estado de lisogenia [77]. Sin embargo, su presencia en el genoma de F116 era inesperada debido a que este fago representa uno de los pocos casos que ha sido caracterizado experimentalmente como no integrativo durante la lisogenia [76]. En 2005 Birne y Kropinski hipotetizaron que la cepa PAO1 no es el hospedero natural de F116 y carece de sitios attB para integración del

106 Adrián Cazares López Tesis de Doctorado fago por lo cual F116 sufrió cambios evolutivos que le permitieron su replicación en forma de plásmido para sobrevivir en PAO1 [75]. En este trabajo identificamos tres profagos en los genomas de distintas cepas de P. aeruginosa los cuales están altamente relacionados a fagos del grupo F116virus. Este resultado nos llevó a hipotetizar que los fagos tipo F116virus son capaces de integrarse en el genoma de su hospedero y por lo tanto sus integrasas son funcionales en el contexto genómico de P. aeruginosa. Los loci de inserción identificados para los profagos fueron ubicados en el genoma de PAO1 pero sorpresivamente correspondieron a dos sitios distintos separados por ~1.2 Mpb. Esta diferencia de loci de inserción parece concordar con el hecho de que las integrasas de este grupo de fagos forman parte del genoma accesorio y por lo cual proponemos que los dos tipos de integrasas que identificamos dirigen la integración diferencial de fagos del tipo F116virus. En contraste a la hipótesis propuesta por Byrne y Kropinski, en nuestro estudio identificamos dos sitios attB putativos en el genoma de la cepa PAO1 los cuales fueron compatibles con los sitios attP candidatos identificados en los genomas de H66 y LKA5. Los sitios attP de H66 y LKA5, que codifican distintos tipos de integrasas, fueron diferentes entre sí tanto en longitud como en secuencia y cada uno fue compatible con uno de los dos sitios attB de PAO1 reforzando así que las integrasas de los fagos del grupo F116virus son las responsables de sus propiedades diferenciales de Inserción. Se ha reportado que los sitios attP se localizan típicamente en regiones ricas en nucleótidos AT en la posición downstream del gen de la integrasa [80] lo cual llevó a Byrne y Kropinski a especular sobre la existencia de un posible sitio attP en el genoma de F116 en una región rica en AT localizada rio arriba del gen de la integrasa [75]. Los sitios attP identificados en nuestro estudio también se ubican en la posición rio arriba de la integrasa para ambos fagos, sin embargo, son distintos a los propuestos por Byrne y Kropinski y de hecho corresponden a regiones con una proporción mayor o similar de nucleótidos GC, 64.7% en el caso de LKA5

107 Adrián Cazares López Tesis de Doctorado y 47.8 en el caso de H66. Se esperaba que los attP de F116 y H66 fueran distintos dado que codifican integrasas diferentes, sin embargo, la integrasa y región rio arriba de la misma son casi idénticas a nivel nucleotídico entre LKA5 y F116 por lo cual uno de los sitios propuesto debe ser erróneo. Notablemente, nuestros resultados sobre la identificación por PCR de la Integración de H66 y LKA5 en lisógenas de PAO1 certifican la ocurrencia de dicho evento de forma diferencial en los sitios que propusimos, aunque aún está pendiente confirmar la secuencia de los sitios att. De esta manera, nuestro hallazgo resuelve el enigma que ha existido desde la caracterización de F116 sobre las capacidades integrativas de los fagos del grupo F116virus y brinda una explicación a la presencia de genes de integrasas en este tipo de genomas. No obstante, aún es necesario formular una hipótesis que explique porque este tipo de fagos presentan una dualidad de integración y existencia extracromosomal durante el estado de lisogenia. Que señales y mecanismos regulan la inducción de ambos estados, si estos coexisten durante la lisogenia y bajo que dinámica también requiere de una investigación a fondo del fenómeno. A pesar de que los genomas de los fagos del tipo F116virus están altamente relacionados en términos de identidad de secuencia, también exhiben un alto grado de diversidad y mosaicismo. De forma interesante, esta característica es particularmente evidente en genes que codifican funciones esenciales para la biología del fago. El represor, anti-represor, las subunidades pequeña y grande de la terminasa y las integrasas representan los ejemplos más sobresalientes de este hecho. Si bien el fago no prescinde de dichas funciones, estas se encuentran codificadas en ORFs de secuencia variable u ORFs accesorios. Este hecho abre la interrogante de si los genomas de bacteriófagos requieren de una definición alternativa de los componentes core y accesorio del pangenoma. Si bien las integrasas y subunidades pequeñas de la terminasa se encuentran codificadas en ORFs accesorios, estas podrían considerarse como parte de un “core funcional” en los genomas

108 Adrián Cazares López Tesis de Doctorado del grupo dada su importancia en el desarrollo del fago. Esta importancia queda evidenciada por el hecho de que estos fagos son capaces de suplir dichas funciones con proteínas no homólogas antes de prescindir de las mismas. Antes de considerar el concepto de “core funcional” en los pangenomas fágicos sería necesario determinar con precisión cual es el conjunto de funciones esenciales para estos virus y sus diferentes grupos. Con base en nuestro análisis comparativo no queda claro si la variabilidad observada en genes esenciales les proporciona alguna ventaja a los fagos del grupo F116virus o si se trata solo de una característica dada por su origen evolutivo. Incluso considerando el segundo escenario es complicado dilucidar el patrón de origen de dichos genes. Como ejemplo, H66 y F116 presentan un represor y anti-represor casi idénticos y comparten los aORFs b4 y h mientras que LKA5 y F116 mantienen exonucleasas Rdg-like casi idénticas y comparten el ORF accesorio de la integrasa. Por otra parte, LKA5 y H66 codifican secuencias casi idénticas para la subunidad grande de la terminasa y comparten los ORFs accesorios que codifican la subunidad pequeña de la terminasa y una metiltransferasa. Dichos mosaicos de similitud/disimilitud entre los tres fagos se encuentran distribuidos a lo largo del genoma por lo cual es difícil inferir en qué orden ocurrieron los eventos que originaron dicha topología. Byrne y Kropinski mencionan que el mosaicismo de F116 se ve reflejado en los genes que presentaron homología con genes de distintas especies del género Pseudomonas o en P. aeruginosa en posiciones muy distantes del genoma [75]. Nosotros identificamos también dichos casos los cuales correspondieron a los genes que codifican la proteína asociada a nucleoide, una de las metiltransferasas y la integrasa de tipo F116 que fueron identificadas en varios genomas de P. aeruginosa en donde no fue detectada alguna región adicional homóloga a fagos tipo F116virus, implicando así que estos fagos tienen la capacidad de adquirir genes de origen bacteriano o a partir de profagos no relacionados.

109 Adrián Cazares López Tesis de Doctorado

Conclusiones:  Los fagos H66 y LKA5 fueron clasificados dentro del grupo F116virus debido a que exhiben una organización genómica similar y altos niveles de identidad nucleotídica. Fuera de este grupo, dichos genomas no muestran identidad de secuencia extensa con ningún fago reportado.  El pangenoma determinado para el grupo F116virus está compuesto por 53 ORFs core y 41 ORFs accesorios. La mayoría de los primeros se localizaron en regiones de identidad nucleotídica mientras que los segundos se posicionaron en bloques de ausencia de homología.  Treinta y dos de los ORFs accesorios identificados fueron de presencia única en los genomas correspondientes.  La Subunidad pequeña de la terminasa y la integrasa de este tipo de fagos forman parte del componente accesorio del pangenoma.  Diecisiete y dieciocho proteínas estructurales del virión fueron identificadas mediante espectrometría de masas para los fagos LKA5 y H66, respectivamente. Todas las proteínas identificadas formaron parte del core genómico.  Los fagos H66 y LKA5 son capaces de integrarse diferencialmente en el cromosoma de la cepa PAO1 durante su estado de profago. Los sitios de inserción para ambos fagos están separados por más de 1.2 Mpb en el genoma bacteriano.  Sitios att putativos fueron identificados para H66, LKA5 y la cepa PAO1. Los sitios attP se localizan rio arriba del gen de la integrasa en ambos casos. El attB para el fago LKA5 se ubica en el tRNA de Leucina en PAO1 mientras que el de H66 se localiza en el extremo 5' del gen DusA.

110 Adrián Cazares López Tesis de Doctorado

10) CAPÍTULO 4: Análisis comparativo y funcional del grupo B3-like. Resultados Características y análisis comparativo de genomas de fagos B3-like del laboratorio Del total de fagos temperados de nuestro laboratorio con genoma completo, solo tres se clasificaron dentro de dos géneros taxonómicos establecidos por el ICTV (D3112virus y F116virus). Por su parte, los siete genomas restantes fueron clasificados en dos grupos distintos: Fc02-like y Ps60-like. El primero incluye a los fagos Fc02, H72, H71, Fc22, Ps59 y Ps56 mientras que el segundo solo tiene al fago Ps60 como representante. Estos grupos cumplieron con el criterio de identidad nucleotídica total mayor a 70% entre sus integrantes, sin embargo, relaciones de identidad considerable entre dichos grupos y otros fagos también fueron identificadas. Los integrantes del grupo Fc02-like mostraron niveles de identidad en un rango de 35.5 a 49.9% respecto al genoma del fago B3 el cual a su vez fue 42.6% idéntico al de Ps60. Adicionalmente, este último presentó valores de identidad de entre 18 y 26% con los representantes del grupo D3112virus. De manera interesante, dichos resultados parecen dibujar un gradiente de identidad entre grupos que incluyen bacteriófagos temperados transponibles bien caracterizados, e.g. D3112, PaMx73, H70 y B3. El grupo D3112virus incluye a la mayoría de estos fagos bien caracterizados (ver Capítulo 2). Por su parte, B3 representa el segundo tipo de fagos transponibles reportado para P. aeruginosa y muestra valores de identidad nucleotídica de 5.7 a 8.5% con los integrantes del grupo D3112virus. La característica de inserción genómica por transposición que define a este tipo de fagos, aunada a su mecanismo de empaquetamiento de ADN tipo head-full, produce que sus viriones transporten segmentos de ADN de su hospedero unidos a ambos extremos del genoma fágico [27]. Con el objetivo de determinar si los fagos de nuestro laboratorio presentan esta propiedad y definir con precisión sus extremos genómicos se inspeccionaron los ensambles de los genomas en busca de

111 Adrián Cazares López Tesis de Doctorado secuencias pertenecientes al genoma de su hospedero. En todos los casos analizados se identificaron lecturas de secuencia heterogénea posicionadas en ambos extremos del genoma. Tales lecturas fueron recortadas hasta el último nucleótido conservado y las secuencias descartadas fueron usadas como query en búsquedas tipo BLASTn contra la base de datos no redundante de NCBI. La totalidad de las lecturas presentó matches contra diversas regiones genómicas de cepas de P. aeruginosa confirmado así que nuestros fagos exhiben propiedades similares a las de fagos transponibles. Respecto a los extremos genómicos, todos los casos estuvieron flaqueados por los dinucleótidos terminales 5’-TG. Los genomas presentaron tamaños en un rango de 38122 a 39816 pb siendo los de Fc02 y Ps56 el más pequeño y más grande, respectivamente. El contenido de GC fue de alrededor de 63% para todos los casos. Con el fin de continuar con su caracterización, los genomas del grupo Fc02-like y el de Ps60 fueron anotados y comparados entre ellos y con el del fago B3. Los genomas presentaron un promedio de 55 ORFs. El fago con un mayor número de ORFs fue B3 con 59 mientras que su contraparte correspondió a Fc22 con 53. Los datos de identificación de ORFs fueron utilizados para generar mapas genómicos de los fagos analizados. De forma interesante, tanto los genomas del grupo Fc02-like como el de Ps60 fueron altamente sinténicos respecto al de B3 (Figura 4.1). La organización genómica del fago B3 resulta peculiar ya que presenta rearreglos genéticos considerables respecto al genoma del colifago Mu [56], prototipo de los fagos transponibles, a pesar de compartir varios ORFs homólogos con él. Tales re- arreglos también son evidentes al comparar la organización genómica de B3 respecto a la de los fagos tipo D3112virus (ver Capítulo 2) a pesar de que estos también son transponibles e infectan P. aeruginosa y por lo cual dicha organización parece única de B3. Esta información sugiere que tanto los fagos Fc02-like como Ps60 se encuentran más cercanamente relacionados a B3 que al grupo D3112virus. En consecuencia, a pesar de que los genomas de los fagos Fc02-like y Ps60 no presentan los valores de identidad nucleotídica,

112 Adrián Cazares López Tesis de Doctorado entre ellos y respecto a B3, requeridos para pertenecer al mismo género taxonómico según el ICTV se decidió categorizarlos en un grupo denominado B3-like cuyos criterios de inclusión son la homología de secuencia y sintenia. Cabe destacar que Ps60 representa un caso particularmente interesante en el grupo ya que su genoma es el que muestra mayor nivel de identidad de secuencia nucleotídica respecto a los fagos del grupo D3112virus (18-26%). En contraparte, el fago Fc02 muestra valores en un rango de 7.2 a 10.1% mientras que B3 presenta valores de 5.7 a 8.5%. Por lo tanto, Ps60 podría representar el vínculo que mejor conecta a los dos tipos de fagos transponibles reportados en P. aeruginosa.

Determinación del pangenoma de fagos B3-like Con el objetivo de determinar el componente de ORFs conservados y accesorios del grupo B3-like se decidió comparar las secuencias aminoacídicas codificadas por los mismos. Para robustecer el análisis y dado que solo un fago del grupo se encontraba reportado en base de datos (B3), y fue obtenido a partir de RefSeq, se decidió buscar más genomas homólogos en la base de datos no redundante de GenBank mediante búsquedas BLASTn personalizadas contra los taxa Caudovirales y Bacteria. Los resultados de la búsqueda permitieron identificar a los fagos JBD25, JBD18 y JBD67 y dos profagos putativos en las cepas de P. aeruginosa NCGM2 y PACS458 como parte del grupo B3-like. Estas secuencias genómicas presentaron tamaños y número de ORFs similares a los identificados previamente para el grupo (Figura 4.1). La longitud de las secuencias correspondientes a los profagos putativos fue determinada mediante inspección de la región en cepas que no portan dicho profago y la identificación de los extremos 5’-TG característicos de los genomas de fagos vegetativos. Cabe mencionar que en el caso del profago de la cepa NCGM2 el extremo derecho, incluyendo el ultimo ORF del profago, fue identificado de forma intacta pero separado del resto del genoma por una inserción de 488

113 Adrián Cazares López Tesis de Doctorado

Kpb y con el ultimo ORF codificado en dirección opuesta respecto a sus homólogos (Figura 4.1). Un análisis más detallado de la región que interrumpe el profago es necesario para inferir su origen. Por otra parte, ni el ultimo ORF ni el dinucleótido 5’-TG del extremo derecho del profago en PACS458 pudieron ser identificados. Como se esperaba, la organización de los nuevos genomas fue altamente similar a la de los genomas del grupo (Figura 4.1). Las secuencias de los ORFs codificados por los trece genomas fueron comparadas entre ellas mediante búsquedas BLASTp. La homología y sintenia exhibida por los ORFs de los genomas B3-like permitió identificar 25 secuencias codificantes que fueron pasadas por alto durante la anotación de los genomas correspondientes (Figura 4.1, asteriscos en gris). El profago de la cepa NCGM2 fue el que presentó un mayor número de ORFs previamente no identificado con 8 casos. De forma similar, la longitud de nueve ORFs fue corregida de acuerdo a la de sus homólogos (ver materiales y métodos) (Figura 4.1, asteriscos en rosa). Una vez identificados todos los ORFs de los genomas B3-like analizados, estos fueron integrados a la comparación all-vs-all de las secuencias aminoacídicas. Basados en los resultados obtenidos, los 723 ORFs comparados correspondieron a 85 secuencias proteicas distintas. Cuarenta de estos ORFs estuvieron presentes en la mayoría de los genomas examinados y fueron considerados como el componente core del pangenoma del grupo B3-like (Figura 4.1). Solo cinco de dichos ORFs no se conservaron en secuencia en la totalidad de los genomas, no obstante, fueron categorizados como cORFs bajo alagunas consideraciones. Basados en búsquedas con BLASTp no fue posible identificar un homólogo para el cORF 8 en el genoma de Ps60, sin embargo, dicho genoma codifica un ORF de tamaño similar en la misma posición y contiene un dominio de unión a ADN al igual que los ORFs identificados en los otros genomas (Figura 4.1). Aunado a esto, el cORF 8 representa un caso de secuencia variable entre los ORFs comparados (34 a 100% de identidad) por lo cual se decidió clasificarlo como parte del componente core asumiendo

114 Adrián Cazares López Tesis de Doctorado que el ORF correspondiente en Ps60 podría no haberse detectado por el grado de divergencia en su secuencia. El caso de los cORFs 22, 23 y 24 es similar al anterior. El homólogo para el cORF 22 no fue detectado para B3 mientras que los cORFs 23 y 24 fueron idénticos entre los fagos JB18, JBD67, B3 y Ps60 aunque no se detectó homología de secuencia con los ORFs que ocuparon la misma posición en el resto de los genomas (Figura 4.1). No obstante, todos los ORFs presentaron matches con proteínas de bases de datos que codifican funciones similares (ver abajo). Finalmente, el cORF 40 estuvo ausente en los genomas del profago en PACS458 y el fago JBD25 (Figura 4.1). En el primer caso, dicho ORF no fue identificado junto con el resto del extremo derecho del genoma lo cual podría ser el resultado de los procesos de deleción de secuencia que suelen sufrir los profagos en el genoma bacteriano. Respecto a JBD25, la porción correspondiente al amino terminal del cORF 40 fue detectada en la secuencia, no obstante, la secuencia termina abruptamente con el extremo derecho del genoma por lo cual resulta probable que la secuencia genómica del fago este incompleta. Trece cORFs (1, 2, 16, 17, 19, 20, 21, 25, 26, 27, 28, 29 y 30) mostraron perfiles de similitud que los dividen en dos grupos. Tales ORFs fueron idénticos entre los fagos JB18, JBD67, B3 y Ps60 y menos similares respecto a los homólogos de los fagos restantes que, a su vez, fueron idénticos entre sí. En contraste, los cORFs 3, 13, 14 y 32 presentaron secuencias altamente conservadas (90 – 100% de identidad) entre los trece genomas del grupo. Los cuarenta y cinco ORFs del pangenoma que fueron de presencia variable en los genomas analizados se consideraron como el componente accesorio del grupo B3-like. Cabe destacar que la mayoría de los aORFs presentaron valores de identidad aminoacídica mayores a 90% entre sus homólogos sin importar si estos pertenecían a genomas alejados en la comparación nucleotídica, e.g. Fc02 y Ps60. Los aORFs se encuentran distribuidos en once distintos loci o RGPs (ver Capítulos 2 y 3) a lo largo del genoma. Dichas RGPs fueron designadas con los sufijos A – K según su posición del extremo

115 Adrián Cazares López Tesis de Doctorado izquierdo a derecho en el genoma (Figuras 4.1 y 4.2). Las RGPs A, C, F y H corresponden al indel de un ORF en particular mientras que las RGPs restantes acumulan aORFs distintos. Tanto la RGP E como la B son las que mayor diversidad de aORFs albergan (Figuras 4.1 y 4.2). La primera puede codificar de uno a cinco ORFs por genoma los cuales pueden ser de hasta 10 tipos mientras que la segunda codifica trece aORFs diferentes que pueden estar presentes en grupos de 4 a 7 por genoma fágico. Los genomas del grupo B3-like son capaces de albergar entre trece y dieciocho aORFs (Figura 4.2). El genoma del fago B3 fue el que presentó el mayor número de los mismos mientras que el de Fc22 fue el que presentó menos. Respecto a los aORFs, b6 fue el más abundante entre los fagos B3-like al presentarse en doce genomas en contraste a varios aORFs que fueron únicos al genoma que los codifica, e.g. b2, b10, e3, e5, e6, e11 (Figura 4.2). Los perfiles de aORFs fueron comparados para identificar lo más similares. Basado en los resultados obtenidos, no hubo dos genomas con perfiles idénticos y los más similares correspondieron a los de JBD25 y Ps56 que mostraron solo dos diferencias (Figura 4.2). Es importante mencionar que las diferencias observadas corresponden a los aORFs d1 y j1 que están ausentes del genoma de Ps56, sin embargo, dichos ORFs fueron anotados por los autores de la secuencia en la cadena opuesta donde un cORF ya está anotado y por lo tanto podrían representar falsos positivos del proceso de predicción de genes. Los aORFs d2, d3, d4, e1, f y h representan casos similares que, junto con los ya mencionados, necesitan verificarse mediante la inspección detallada de las regiones genómicas correspondientes. Por lo tanto, el componente accesorio aquí reportado aún debe ser depurado. En contraste al caso de los fagos JBD25 y Ps56, el genoma de B3 respecto al de los fagos H72 y JBD25 fueron las comparaciones que arrojaron el mayor número de diferencias entre perfiles de aORFs con 27 (Figura 4.2).

116 Adrián Cazares López Tesis de Doctorado

Figura 4.1. Comparación genómica de bacteriófagos del grupo B3-like. Los mapas genómicos están dibujados a escala. El nombre del fago, o cepa que alberga el profago, y el tamaño del genoma se indican del lado izquierdo de la imagen. El país de aislamiento y el porcentaje de identidad nucleotídica respecto al genoma de Fc02 se muestran en el lado derecho de la imagen. Los genes del core genómico están numerados, y la posición de las RGPs indicada (A - K), encima del mapa de Fc02. Las flechas de colores representan ORFs y su orientación. El código de colores denota: rojo, función asignada; verde, función desconocida; morado, proteína estructural identificada por espectrometría de masas en viriones de Fc02, y amarillo, ORFs accesorios (aORFs). Los asteriscos arriba de las flechas indican ORFs previamente no identificados (* en gris) o cuya longitud original fue corregida (* en rosa). ORFs que comparten color y posición en diferentes genomas representan homólogos (ver Métodos). Los tipos de aORFs se describen en la Figura 4.2. Líneas en rojo y azul conectan ORFs divididos por un gap en JBD67 con sus homólogos correspondientes en el resto de los genomas. Líneas punteadas conectan ORFs cuya homología no pudo ser inferida mediante similitud de secuencia. Las funciones inferidas se indican en la parte inferior de la imagen; TerS: Subunidad pequeña de la terminasa, TerL: Subunidad grande de la terminasa, PPC: Proteína principal de Cápside, PEC: Proteína de ensamble de cola.

117 Adrián Cazares López Tesis de Doctorado

Figura 4.2. Mapa del pangenoma del grupo B3-like. El mapa genómico representa el componente core del grupo analizado. Los cORFs corresponden a las flechas de colores numeradas del 1 al 40 debajo del mapa. El código de colores es el mismo que en la Figura 4.1. Las Regiones de Plasticidad Genómica (RGPs A - K) indican la localización de los genes accesorios. Los aORFs individuales para cada genoma se indican en minúsculas debajo de las RGPs correspondientes.

Análisis funcional del pangenoma del grupo B3-like Las funciones codificadas por los cuarenta ORFs que componen el core genómico del grupo fueron inferidas mediante homología de secuencia determinada en búsquedas BLASTp contra la base de datos no redundante de GenBank, búsqueda de dominios funcionales y sintenia. Basado en estos criterios se logró inferir la función de 17 secuencias proteicas. Dichas funciones corresponden al regulador transcripcional Mor (cORF 1), transposasa B (cORF 5), transposasa A (cORF 6), proteína de unión a ADN (cORF 8), proteína Ner-like (cORF 11), represor (cORF 12), holina (cORF 13), endolisina (cORF 14), subunidad pequeña de la terminasa (cORF 17), subunidad grande de la terminasa (cORF 18), proteína portal (cORF 19), dos proteínas de morfogénesis del virión (cORFs 20 y 21), proteasa-Scaffold (cORF 22), proteína principal de cápside (cORF 24), proteína Tail length tape measure (cORF 31) y proteína de ensamble de cola (cORF 35) (Figura 4.1). De estas funciones, siete están relacionadas con la morfogénesis de las partículas virales (cORFs 19, 20, 21, 22, 24, 31 y 35) por lo cual se decidió estudiar los componentes proteicos de los viriones de uno de los fagos del grupo mediante espectrometría de masas. Los componentes proteicos de las

118 Adrián Cazares López Tesis de Doctorado partículas virales purificadas del fago Fc02 fueron separadas mediante SDS- PAGE y las bandas observadas fueron recortadas y procesadas para su análisis por espectrometría de masas. Trece bandas fueron observadas en el gel y se determinó la identidad de trece proteínas comparando las secuencias péptidas obtenidas en el análisis con las secuencias aminoacídicas de los ORFs de Fc02 (Figura 4.3). La identificación confirmo la función estructural inferida a partir de homología de secuencia para cinco de las siete proteínas mencionadas anteriormente (cORFs 19, 20, 24, 31 y 35). La Proteasa- Scaffold (cORF 22) se ha descrito como un componente de morfogénesis pero no estructural del virión lo cual explica su ausencia en la identificación. Respecto al cORF 21, que codifica otra proteína de morfogénesis, puede representar un caso similar al anterior o no haber presentado suficiente cantidad de péptidos en la muestra analizada para lograr su identificación. El análisis por espectrometría de masas también permitió la identificación de ocho proteínas como componentes estructurales del virión y que previamente permanecían como proteínas hipotéticas de función desconocida en el grupo B3-like. No obstante, su localización en la partícula viral y el papel que juegan en la misma requiere aun de análisis In silico y experimentales más profundos. Es importante destacar que el ORF 35 de Fc02, el cual corresponde al cORF 23 del pangenoma y fue identificado como componente estructural de virión, mostró identidad de 49% a nivel de aminoácidos con el gen 36 del fago PaMx73 que pertenece al grupo D3112virus. Dicho ORF también fue identificado como parte del virión de PaMx73 por espectrometría de masas y se infirió codifica una proteína con función putativa de decoración de cápside [27]. Sin embargo, de forma interesante, esta proteína corresponde al ORF accesorio h del pangenoma del grupo D3112virus. El por qué una proteína del virión corresponde a un componente conservado y otro variable en los pangenomas de dos grupos de fagos transponibles de P. aeruginosa requiere de un estudio evolutivo y funcional más profundo. En cuanto al genoma accesorio del grupo B3-like,

119 Adrián Cazares López Tesis de Doctorado los 45 ORFs presentaron matches en búsquedas BLASTp con proteínas hipotéticas de función desconocida en la base de datos o proteínas cuyas funciones propuestas no estaban soportadas por evidencia experimental o presencia de dominios conservados. En consecuencia, no se pudo asignar una función a proteínas del componente accesorio. Búsquedas de dominios conservados así como búsqueda de homología estructural aún están pendientes para presumir la función de dichos ORFs.

Figura 4.3. SGS-PAGE de las proteínas estructurales del virión del fago Fc02. Los componentes proteicos de viriones purificados por CsCl del fago Fc02 fueron resueltos por SDS-PAGE en un gel al 10% y tenidos con azul de coomassie. Las trece bandas identificadas que fueron procesadas para su análisis por espectrometría de masas se enumeran e indican en la imagen. Un marcador de peso molecular fue incluido como referencia en el carril de la izquierda.

Discusión Los bacteriófagos transponibles, cuyo arquetipo es el colifago Mu, ocupan un lugar especial en la biología de P. aeruginosa ya que representan los fagos

120 Adrián Cazares López Tesis de Doctorado temperados, y presumiblemente de cualquier tipo, más abundantes aislados para esta especie bacteriana [81, 82]. A pesar de que decenas de genomas de fagos y profagos de este tipo se encuentran depositadas en bases de datos, más de una centena han sido aislados [21, 81]. Notablemente, dicha abundancia es particular de P. aeruginosa ya que muy pocos de estos fagos han sido aislados han sido aislados de otras bacterias gram-negativas como el grupo Enterobacteriaceae al cual pertenece al fago Mu [82]. El bacteriófago B3 representa el segundo tipo de fago transponible de P. aeruginosa además de D3112 y presenta una organización genómica única con respecto a todos los fagos transponibles reportados, con excepción del fago de Burkholderia BcepMu que se considera parte del mismo linaje que B3 [33, 56]. En nuestro laboratorio obtuvimos las secuencias de los fagos temperados Fc02, H72, H71, Fc22, Ps59, Ps56 y Ps60. El análisis comparativo de dichos genomas reveló que los seis primeros fagos comparten niveles de identidad nucleotídica por encima del 80% y de entre 23 y 42% respecto al genoma de Ps60, no obstante, todos estos genomas comparten un alto grado de sintenia entre ellos y respecto al genoma del fago B3. En este trabajo decidimos tomar dicha característica como el sello distintivo del grupo que denominamos B3-like bajo el entendido de que los valores de corte de identidad de secuencia nucleotídica pueden ser subjetivos y no reflejan con certeza las relaciones existentes entre fagos. Por otra parte, la organización genómica y sintenia podrían representar características más sensibles para determinar relaciones evolutivas. El caso del grupo B3-like refleja el problema al que se enfrenta el ICTV al intentar crear un esquema de clasificación taxonómico adecuado para los bacteriófagos ya que la adición constante de genomas provoca que los criterios de evaluación o valores de corte sean reconsiderados [Andrew M. Kropinski, Presidente del Subcomité de Virus de Bacterias y Arqueas del ICTV, comunicación personal]. Una de las cuestiones más interesantes a investigar respecto a los fagos B3- like es su relación con los fagos del grupo D3112virus. Históricamente se ha

121 Adrián Cazares López Tesis de Doctorado reconocido a los fagos B3 y D3112 como los representantes de clados distintos de fagos transponibles [33]. Esta propuesta ha sido reforzada por el hecho de que estos fagos solo comparten homología de secuencia nucleotídica en una región de 7.5 Kpb localizada cerca del extremo derecho del genoma [81] a pesar de que ambos muestran características de desarrollo similares e infectan al mismo hospedero. En el análisis comparativo de este trabajo se determinó que dicha homología entre B3 y 3112 corresponde a 7.8% de identidad nucleotídica total entre los dos genomas. Notablemente, con la adición de los genomas del laboratorio que consideramos B3-like, la distancia entre los clados de fagos transponibles se hace menos evidente. Valores de identidad de entre 7.4 y 25.1% fueron detectados entre nuestros fagos B3- like respecto al genoma de D3112, siendo el de Ps60 y el que presentó el valor de identidad más alto. Estos resultados sugieren que los dos tipos de fagos transponibles de P. aeruginosa podrían estar más cercanamente relacionados de lo que se reportó inicialmente y la adición de más genomas al análisis comparativo podría hacer cada vez más borrosos los bordes que separan dichos tipos. Nuestros resultados esbozan además un gradiente de similitud entre los dos grupos de fagos en donde Fc02 y PaMx73 representarían los extremos y B3 y Ps60 son los fagos del grupo B3-like más cercanos al grupo D3112virus en orden ascendente. Un análisis comparativo más detallado a nivel aminoacídico y considerando la organización de ambos tipos de genomas brindaría más información sobre la relación que mantienen los fagos transponibles de P. aeruginosa y permitiría inferir como es que estos comenzaron a divergir. A pesar de ser uno de los primeros bacteriófagos Mu-like descritos, el genoma del bacteriófago B3 fue secuenciado hasta 2004 por Braid y colaboradores [33, 56]. Ambos extremos del genoma del fago B3 fueron definidos como el dinucleótido 5’-TG el cual fue identificado en todos los extremos genómicos de los fagos B3-like de nuestro laboratorio a pesar de la variación de secuencia observada a lo largo del genoma. En el trabajo de

122 Adrián Cazares López Tesis de Doctorado

Braid y colaboradores se reportó que el genoma de B3 no mostró identidad de secuencia nucleotídica extensa con otras secuencias depositadas en base de datos hasta ese momento [56]. Por su parte, Hulo y colaboradores reportaron en 2015 la existencia de otros tres fagos de P. aeruginosa con organización genómica similar a la de B3 [33]. En este trabajo incorporamos dichos genomas al análisis comparativo de nuestros siete fagos B3-like e identificamos además dos profagos relacionados al grupo en genomas de P. aeruginosa. A pesar de que este tipo de fagos transponibles no parece ser tan abundante como el tipo D3112virus, su presencia en bases de datos comienza a ser más evidente. De hecho, los profagos aquí reportados fueron identificados en genomas depositados en la base de datos RefSeq por lo que resulta plausible que más profagos B3-like residan en genomas de P. aeruginosa depositados en otras bases de datos. Cabe destacar que uno de los profagos B3-like que identificamos es albergado por la cepa NCGM2 en la cual también encontramos un profago tipo D3112virus sugiriendo que ambos tipos de fagos transponibles suelen coexistir en el genoma de su hospedero. Considerando los distintos niveles de identidad nucleotídica observados en nuestros resultados entre ambos tipos de fagos cabe preguntar si estos podrían ser objeto de eventos de recombinación homóloga que lleven al intercambio génico entre ellos o la generación de genomas quiméricos. La comparación de trece genomas del grupo a nivel de aminoácidos condujo a la identificación del pangenoma que se compone por 40 ORFs correspondientes al genoma core y 45 que conforman en componente accesorio del grupo. Tanto los porcentajes de identidad detectados en las comparaciones nucleotídicas como el número de ORFs accesorios identificados denotan un alto grado de diversidad para el grupo B3-like. Como punto de comparación, en el primer análisis pangenómico del grupo D3112virus identificamos 28 tipos de ORFs accesorios comparando doce genomas. Además, los fagos del grupo D3112virus presentaron un core genómico que comprende 47 ORFs a pesar de presentar tamaños genómicos

123 Adrián Cazares López Tesis de Doctorado similares a los del grupo B3-like, i.e. ~1.9 Kpb menores [27]. Estos datos sugieren que el grupo B3-like presenta mayor variabilidad genética que el otro tipo de fagos transponibles de P. aeruginosa. Un mayor número de genomas comparados es necesario para robustecer el análisis y respaldar dicha hipótesis. Sin embargo, si este es el caso, los estudios de genomas fágicos desde un punto de vista pangenómico podrían brindar información valiosa para determinar su diversidad e inferir su flexibilidad para aceptar y acomodar material genético nuevo donde la principal limitante podría ser el tamaño de la cápside. En este trabajo se realizó un análisis por espectrometría de masas del virión del fago Fc02 lo que representa el primer estudio de este tipo para un fago B3-like. Los resultados permitieron identificar trece proteínas estructurales las cuales, en su mayoría, presentaron homólogos conservados en secuencia en todos los genomas del grupo B3-like. El hallazgo más interesante al respecto es el de la proteína estructural codificada por el ORF 32 de Fc02, correspondiente al core ORF 23 en el pangenoma del grupo, la cual mostró homología con el ORF accesorio h del grupo D3112virus que fue identificado también por espectrometría de masas en el virión del fago PaMx73. Dado que los dos tipos de fagos transponibles comparten una morfología de virión que los distingue de otros fagos Mu-like de diversas especies bacterianas [33], era esperado que compartieran homología a nivel aminoacídico en las proteínas que dan origen a la partícula viral, sin embargo, resulta sorpresivo que el componente estructural codificado en los ORFs mencionados sea indispensable en el grupo B3-like y prescindible en el D3112virus. En un estudio previo propusimos que el ORF h codifica una proteína de decoración de cápside y, basados en la sintenia que muestra con la proteína análoga del colifago λ, hipotetizamos que su carácter accesorio se debía a una deleción génica sufrida por varios miembros del grupo D3112virus [27]. El hecho de que un homólogo de dicha proteína sea parte del core genómico de un grupo

124 Adrián Cazares López Tesis de Doctorado relacionado de fagos transponibles hace más plausible un evento de deleción para explicar su ausencia en los fagos del tipo D3112virus.

Conclusiones:  Los bacteriófagos temperados Fc02, H72, H71, Fc22, Ps59, Ps56 y Ps60 del laboratorio fueron integrados en el grupo que denominamos B3-like. El criterio principal de inclusión fue la organización genómica y el alto grado de sintenia que comparten con el genoma del fago transponible B3.  Los bacteriófagos del grupo B3-like se encuentran relacionados a los del grupo D3112virus en diferentes grados de identidad nucleotídica pero no en la organización genómica global. El genoma del fago Ps60 representa el vínculo que mejor conecta los dos grupos de fagos transponibles de P. aeruginosa.  El pangenoma de los fagos B3-like analizados se compone de 85 ORFs distintos, 40 de ellos conforman el componente core y los 45 restantes el accesorio en este tipo de fagos.  Los ORFs accesorios se encuentra codificados en 11 RGPs distribuidas a lo largo del genoma. No se identificaron dos perfiles de ORFs accesorios idénticos entre los genomas comparados. La existencia de algunos de los ORFs accesorios identificados aún tiene que ser verificada por inspección.  Trece proteínas fueron identificadas como componentes estructurales del virión mediante análisis por espectrometría de masas de las partículas virales del fago Fc02.  El ORF 32 de Fc02, que corresponde al core ORF 23 en el pangenoma y fue identificado como componente estructural del virión por espectrometría de masas, es homólogo al ORF accesorio h del grupo D3112virus también identificado por espectrometría de masas y que codifica una proteína de decoración de cápside putativa.

125 Adrián Cazares López Tesis de Doctorado

11) CAPÍTULO 5: Identificación In silico de profagos en genomas de P. aeruginosa. Resultados Se ha reportado que el genoma accesorio de P. aeruginosa es clave para su biología y éxito ecológico debido a que representa la fuente principal de variación intraespecífica y se relaciona con múltiples rasgos adaptativos [83]. Los fagos forman parte de este componente accesorio ya que han sido reportados como agentes de conversión lisogénica en múltiples casos y representan vectores de transmisión génica [84]. Dicha importancia ha sido documentada para una variedad de grupos bacterianos [16], pero aún no existe un estudio que examine la presencia y el impacto de los elementos fágicos en los genomas de P. aeruginosa. En los estudios comparativos previos de genomas de distintos grupos de fagos temperados (ver Capítulos 1- 4) se han identificado varios profagos en genomas de diversas cepas de P. aeruginosa sugiriendo que en esta especie bacteriana los elementos fágicos son un componente constante que no ha sido examinado sistemáticamente. Por tal motivo, en el trabajo presentado en este capítulo se pretende establecer una estrategia de búsqueda detallada In silico que permita identificar elementos fágicos en genomas de P. aeruginosa y así estimar su impacto y contribución a la vasta diversidad genómica de su hospedero. Como primer paso determinamos el set de genomas bacterianos de estudio mediante el análisis de las secuencias depositadas en las diferentes categorías de la base de datos de ensamble de NCBI. El objetivo fue determinar cuáles secuencias genómicas eran las más completas y, en consecuencia, las más adecuadas para buscar elementos fágicos. Las categorías de ensamble "Complete", "Chromosome", "Scaffold" y "Contig" albergaron 20, 14, 3315 y 67027 secuencias que correspondieron a 20, 13, 142 y 89 organismos, respectivamente (Figura 5.1). Debido a la fragmentación evidente en las secuencias genómicas depositadas en las categorías "Scaffold" y "Contig" decidimos establecer el set de estudio con las

126 Adrián Cazares López Tesis de Doctorado

34 secuencias depositadas en las categorías "Complete" y "Chromosome". Treinta y tres de estas secuencias correspondieron a cromosomas y la restante a un plásmido. Con el fin de identificar elementos fágicos en nuestro set de estudio, decidimos utilizar los programas PHAST y PhiSpy. Dichos programas fueron elegidos debido a que sus enfoques de búsqueda son distintos. PHAST es un programa basado en un criterio de similitud y está enfocado en identificar regiones fágicas conocidas. En contraste, PhiSpy está basado en un enfoque de composición y fue diseñado para detectar con mayor sensibilidad regiones fágicas desconocidas. Una vez automatizado el uso de ambos programas, PHAST permitió detectar 147 regiones fágicas mientras que PhiSpy fue capaz de encontrar 54 en el set de estudio (Figura 5.2). Es importante mencionar que elementos fágicos fueron detectados en todas las secuencias analizadas, evidenciando así su prevalencia en los genomas bacterianos de P. aeruginosa.

Figura 5.1. Características de las secuencias genómicas de P. aeruginosa depositadas en la base de datos de ensamble de NCBI. La figura muestra las gráficas de longitud (Izquierda) y contenido de GC (Derecha) de las secuencias de P. aeruginosa depositadas en la base de datos de ensamble de NCBI hasta Febrero de 2016. Las cuatro categorías de nivel de ensamble de la base de datos se muestran en colores distintos en ambas gráficas y corresponden a: Genoma completo, rojo; Cromosoma, azul; Scaffold, verde y Contig, amarillo. Las gráficas indican la distribución del total de secuencias en cada categoría, expresado en términos de porcentaje.

127 Adrián Cazares López Tesis de Doctorado

Además del uso de programas reportados, decidimos proponer y explorar una estrategia de búsqueda de elementos fágicos propia basada en el uso de dominios conservados (CD's por sus siglas en Ingles). Dicha estrategia se basó en identificar los CD's reportados que se encuentran presentes en proteínas de fagos que infectan P. aeruginosa y determinar cuántos de ellos se encuentran también en proteomas de cepas de la especie bacteriana analizada. Como primer paso se construyó una base de datos no redundante que integro 7529 proteínas provenientes de fagos de Pseudomonas depositados en la base de datos RefSeq de NCBI. El análisis de este set de datos nos permitió identificar 1663 CD's diferentes. Por otra parte, obtuvimos y analizamos los proteomas codificados en las 34 secuencias de nuestro set de estudio para elucidar la presencia de CD's en el total de las proteínas (esta parte del trabajo fue realizada previamente por el Dr. Gabriel Moreno Hagelsieb). Finalmente, comparamos los CD's encontrados en cada proteoma bacteriano con los 1663 identificados en proteínas fágicas. A partir de 170589 proteínas bacterianas analizadas encontramos que 13462 de ellas tienen CD's que también estuvieron presentes en proteínas de fagos. Estas proteínas con CD's compartidos con fagos representaron el 7.9% del número total de proteínas analizadas. En promedio, cada proteoma presentó 406 proteínas de este tipo (Figura 5.3). Cabe destacar que, de forma similar a lo observado con los programas de detección, fuimos capaces de detectar este tipo de proteínas en todos los proteomas analizados. Con el fin de determinar si las diferentes estrategias de búsqueda identificaron regiones fágicas distintas en los genomas, elegimos la cepa NCGM 1984 para mapear las posiciones de los elementos fágicos detectados por PHAST y PhiSpy, así como la localización de las proteínas que contuvieron CD's presentes en proteínas fágicas (Figura 5.4). Nuestro mapeo nos permitió determinar que los elementos fágicos identificados por PhiSpy coincidieron posicionalmente con aquellos encontrados por PHAST. En cuanto a las proteínas con CD's compartidos, estas tendieron a concentrarse

128 Adrián Cazares López Tesis de Doctorado en sitios donde alguna región fágica había sido identificada por los programas, no obstante, muchas otras de este tipo proteínas se localizaron a lo largo del genoma lo cual representa ruido en nuestra estrategia de detección.

Figura 5.2. Número de elementos fágicos identificados por los programas PHAST y PhiSpy. La gráfica muestra el número de elementos fágicos (eje principal Y) identificados por los programas PHAST (barras verdes) y PhiSpy (barras naranjas) en las secuencias genómicas de las cepas de P. aeruginosa analizadas (eje X). El tamaño de dichas secuencias también se encuentra graficado y representado como una línea azul punteada (eje secundario Y).

Figura 5.3. Número de proteínas bacterianas que contienen Dominios Conservados presentes en proteínas fágicas En la gráfica se indica el número total de proteínas (barras azules, eje Y) codificadas por los genomas de las cepas de P. aeruginosa analizadas (eje X). La proporción de dichas proteínas que comparten Dominios Conservados con proteínas fágicos se indican en barras rojas y con el número correspondiente arriba de las mismas.

129 Adrián Cazares López Tesis de Doctorado

Figura 5.4. Mapeo de los elementos fágicos identificados en el genoma de la cepa NCGM 1984 con tres diferentes estrategias de búsqueda. La posición de los elementos fágicos identificados con PHAST, PhiSpy y búsqueda de Dominios Conservados (CD’s) en el genoma de la cepa de P. aeruginosa NCGM 1984 se muestra en el mapa. De afuera hacia adentro los círculos del mapa representan: 1) la escala en nucleótidos del genoma de NCGM 1984, 2) las secuencias codificantes (CDS) del genoma en la cadena positiva, 3) las CDS presentes en la cadena negativa, 4) las proteínas del genoma que comparten CD’s con proteínas fágicas, 5) los elementos fágicos identificados con PHAST, 6) aquellos detectados con PhiSpy y 7) la distribución del contenido de GC en el genoma (amarillo y morado corresponden a valores por encima y debajo del promedio, respectivamente). En el centro del mapa se describe el código de colores de los elementos en los círculos arriba mencionados.

Con el objetivo de encontrar un set de CD's que permitieran una identificación especifica, clasificamos nuestra lista de 1663 con base en su descripción funcional o de conservación para establecer cuántos y cuáles de ellos se encuentran relacionados a fagos. Esta clasificación permitió dividir los CD's en dos grupos: 1408 no se relacionaron a fagos ya que su descripción estuvo relacionada a bacterias o fue ambigua (no indica su relación a un tipo

130 Adrián Cazares López Tesis de Doctorado de organismo en particular), mientras que 255 tuvieron una clara relación a fagos según su descripción. La posición de las proteínas de la cepa NCGM 1984 conteniendo CD's para cada uno de estos grupos fue determinada mediante mapeo en busca de establecer si la utilización de CD's relacionados a fagos permite eliminar el ruido en la identificación de regiones fágicas (Figura 5.5). Nuestros resultados muestran claramente que la ubicación de las proteínas con CD's relacionados a fagos coincide con los elementos fágicos detectados por PHAST y/o PhiSpy mientras que aquellas con CD's no relacionados a fagos corresponden en su mayoría al ruido observado previamente en la identificación. Es importante destacar que varios de las proteínas con CD's no relacionados a fagos también se ubicaron en regiones predichas por los programas por lo cual se puede concluir que las regiones fágicas representan una mezcla de proteínas con CD's relacionados y no relacionados a fagos (Figura 5.6). Dicho mapeo se realizó con los genomas de otras 10 cepas evidenciando el mismo comportamiento (datos no mostrados). Estas observaciones nos permiten proponer estos 255 CD's como buenos marcadores para la identificación de regiones fágicas en genomas de P. aeruginosa. Dada la importancia del set de 255 CD's relacionados a fagos mencionado anteriormente, decidimos explorar más acerca de su papel funcional y los clasificamos en 8 categorías basadas en funciones conservadas en proteínas fágicas (Tabla 5.1). La mayoría de estos CD's se encuentran relacionados a la morfogénesis y estructura del virión (30.6%), no obstante, 19.2% de los CD's no tienen alguna función descrita, destacando así la necesidad de caracterizarlos experimentalmente.

131 Adrián Cazares López Tesis de Doctorado

Figura 5.5. Mapeo de las proteínas bacterianas de la cepa NCGM 1984 que contienen CD’s relacionados y no relacionados a fagos según su descripción. La posición de los elementos fágicos identificados con PHAST, PhiSpy y búsqueda de Dominios Conservados (CD’s) en el genoma de la cepa de P. aeruginosa NCGM 1984 se muestra en el mapa. De afuera hacia adentro los círculos 1, 2, 3, 4, 7, 8 y 9 del mapa corresponden a los círculos 1, 2, 3, 4, 5, 6 y 7 de la Figura 5.4 (ver descripción del pie de figura). El circulo 5 en el presente mapa indica la posición de las proteínas bacterianas con CD’s encontrados también en proteínas de fagos cuya descripción no está asociada a funciones fágicas. El circulo 6 muestra la localización de las proteínas que presentan CD’s compartidos con proteínas de fagos y cuya descripción los relaciona exclusivamente con funciones o presencia fágica. En el centro del mapa se describe el código de colores de los elementos en los círculos arriba mencionados.

Como siguiente paso en la búsqueda de elementos fágicos, evaluamos si las estrategias de identificación utilizadas eran capaces de detectar profagos ya reportados y caracterizados experimentalmente. Para tal fin comparamos nuestros resultados de identificación en la cepa LESB58 con las regiones fágicas anotadas y caracterizadas por los autores de la secuencia (Figura 5.7). Dichos autores anotaron 6 profagos en el genoma de LESB58 y la

132 Adrián Cazares López Tesis de Doctorado presencia de cuatro de ellos (profagos 2-5) fue reportada en los sobrenadantes del cultivo de la cepa mediante PCR, determinando así que tales regiones fágicas podían producir partículas virales [85]. Además, los profagos 2 y 3 fueron aislados mediante ensayos de placa y visualizados mediante microscopia electrónica. Nuestros resultados muestran que las estrategias de identificación utilizadas fueron capaces de detectar todos los profagos anotados por los autores por lo cual son adecuadas para evidenciar la presencia de profagos en otros genomas (Figura 5.7).

Figura 5.6. Elemento fágico identificado por PHAST en la cepa 39016. Las barras grises de la parte superior de la imagen representan la cadena positiva del genoma de la cepa 39016 mientras que las barras inferiores corresponden a la cadena negativa. El elemento fágico identificado por el programa PHAST en el genoma se representa como un bloque rojo en la figura. Las proteínas con CD’s compartidos con fagos y cuya descripción esta (verde oscuro) o no (verde claro) asociada a funciones o presencia fágica se muestran como bloques verdes en la cadena y posición donde se encuentran codificadas (ver Figura 5.5 y texto para mayor descripción). Todos los elementos mostrados en la figura están a escala. Las coordenadas en nucleótidos del genoma de 39016 se muestran como referencia de la posición de los elementos indicados.

133 Adrián Cazares López Tesis de Doctorado

Tabla 5.1. Clasificación funcional del set de 255 CD’s con descripciones relacionadas a fagos.

Categoría funcional de los CD’s Número / Porcentaje de CD’s incluidos Estructura y morfogénesis del virión 78 / 30.6% Desconocido 49 / 19.2% Recombinacion-replicacion 30 / 11.8% Lisis 26 / 10.2% No clasificado 24 / 9.4% Empaquetamiento de ADN 18 / 7% Regulación transcripcional 16 / 6.3% Integración 14 / 5.5% Notas: Los Dominios Conservados (CD’s) cuya descripción está asociada a funciones o presencia en fagos fueron clasificados funcionalmente según categorías descritas para fagos. La categoría “No clasificado” incluye CD’s que no pudieron ser clasificados en las otras categorías, e.g. dominios de metiltransferasa.

Hasta ahora la determinación correcta de los extremos de las regiones fágicas identificadas sigue siendo un problema a resolver, particularmente cuando las predicciones de dos programas se sobrelapan posicionalmente de forma total o parcial. Otro problema radica en la identificación del número total de elementos fágicos encontrados por cepa, el cual también está dado por el sobrelapamiento de las regiones detectadas. No obstante, este último problema está siendo dirigido mediante la elaboración de un script que permite la comparación y clasificación de las regiones predichas a partir de diferentes estrategias de detección. El trabajo mostrado en el presente capítulo se realizó durante dos estancias de investigación en la Wilfrid Laurier University, Canadá, y San Diego State University, Estados Unidos, bajo la dirección de los Doctores Gabriel Moreno Hagelsieb y Robert Edwards, respectivamente. Cabe destacar que el Dr. Gabriel Moreno Hagelsieb propuso la estrategia de identificación por medio del uso de dominios conservados y el Dr. Robert Edwards participo activamente en el diseño de un esquema de automatización para integrar los resultados obtenidos de las tres estrategias usadas en el estudio.

134 Adrián Cazares López Tesis de Doctorado

Figura 5.7. Mapeo de los elementos fágicos identificados en el genoma de la cepa LESB58 con tres diferentes estrategias de búsqueda y aquellos reportados por Winstanley et al 2009. Los elementos fágicos identificados con PHAST, PhiSpy y búsqueda de Dominios Conservados (CD’s), así como aquellos reportados en [85] para el genoma de la cepa de P. aeruginosa LESB58 se muestran en el mapa. De afuera hacia adentro los círculos del mapa representan: 1) la escala en nucleótidos del genoma de LESB58, 2) las secuencias codificantes (CDS) del genoma en la cadena positiva, 3) las CDS presentes en la cadena negativa, 4) las proteínas del genoma que comparten CD’s con proteínas fágicos, 5) la proporción de dichas proteínas cuyos CD’s compartidos no están asociados a funciones fágicas, 6) las proteínas que

135 Adrián Cazares López Tesis de Doctorado presentan CD’s compartidos con proteínas de fagos y cuya descripción los relaciona exclusivamente con funciones o presencia fágica, 7) los profagos reportados en [85] para LESB58 (numerados de acuerdo a la tabla de la derecha, ver abajo), 8) los elementos fágicos identificados con PHAST, 9) aquellos detectados con PhiSpy y 10) la distribución del contenido de GC en el genoma (amarillo y morado corresponden a valores por encima y debajo del promedio, respectivamente). En el centro del mapa se describe el código de colores de los elementos en los círculos arriba mencionados. Del lado derecho de la imagen se muestra una tabla con datos de los profagos reportados en [85] que incluye el número al que corresponden en el mapa genómico (columna 1), su tamaño (columna 2), similitud con fagos reportados (columna 3) y la evidencia de si dichos profagos son funcionales, i.e. son inducibles (columna 4).

Discusión La lisogenia es un estado común en muchos grupos bacterianos. En consecuencia, los genomas bacterianos depositados en bases de datos frecuentemente contienen números variables de profagos [16, 86]. En algunos casos docenas de profagos pueden ser identificados lo cual llega a representar una parte considerable del genoma bacteriano [87]. Un caso sobresaliente es el de la cepa O157:H7 Sakai de Escherichia coli que presenta 18 elementos fágicos que corresponden a 16% del contenido genómico [16]. Varios estudios han demostrado que los profagos no solo contribuyen al tamaño genómico de su hospedero sino representan vectores de transferencia horizontal de genes. Esto representa una fuente importante de diversidad intra-específica y pueden codificar factores que incrementan la capacidad de adaptación del hospedero a diversos nichos (Revisado en [16] y [7]). Los profagos forman parte del genoma accesorio de P. aeruginosa el cual ha sido reconocido como un elemento clave en la evolución de esta especie debido al gran número de funciones que le proporcionan ventajas adaptativas [84]. Grupos de genes que codifican vías catabólicas, factores de virulencia y elementos de resistencia a antibióticos son algunos ejemplos de funciones proporcionadas por el componente accesorio del pangenoma de P. aeruginosa [84]. Algunas de estas funciones han sido vinculadas a genes

136 Adrián Cazares López Tesis de Doctorado presentes en genomas de fagos temperados de P. aeruginosa (ver abajo) y ciertos estudios han investigado el impacto de los profagos en el genoma de este patógeno oportunista, sin embargo, a la fecha no se ha reportado un análisis detallado que indique la proporción y diversidad de elementos fágicos existente esta especie bacteriana. En este capítulo se presentaron los resultados de un estudio sistemático In silico que nos permitió determinar que los elementos fágicos son prevalentes en genomas de P. aeruginosa. El trabajo se basó en la identificación de elementos fágicos mediante el uso de una estrategia de búsqueda de dominios conservados, así como la implementación de los programas PHAST y PhiSpy. Debido a la importancia de los elementos fágicos encontrados en genomas bacterianos, varios programas de identificación de profagos han sido diseñados [64, 65, 87]. En términos generales, dichos programas trabajan sobre secuencias bacterianas basando su funcionamiento en criterios de homología [64] o composición [65]. Sin embargo, ambos criterios enfrentan retos técnicos para la identificación de los elementos de interés. Los programas basados en detección de homología tienen como problema principal el que solo detectan con alto grado de confianza regiones parecidas a secuencias fágicas ya reportadas lo que dificulta el descubrimiento de regiones fágicas nuevas [65]. Cuando no es posible encontrar regiones homólogas a profagos descritos, las estrategias de homología suelen basar su identificación en la detección de genes clave como las integrasas, sin embargo, es difícil discernir si una integrasa está relacionada a fagos ya que otros elementos fágicos suelen portarlas lo cual lleva a la generación de falsos positivos [16, 64]. Finalmente, las estrategias basadas en homología se basan principalmente en búsquedas tipo BLAST por lo cual están sujetas a valores de corte que no siempre pueden ser ajustados por el usuario y si existe un alto grado de divergencia entre dos proteínas fágicas estas no serán detectadas. Por otra parte, los programas basados en el criterio de composición tienen como punto clave el reconocimiento de regiones que

137 Adrián Cazares López Tesis de Doctorado exhiben un contenido nucleotídico atípico al del genoma bacteriano (e.g. sesgo de GC, AT o firmas fágicas), sin embargo, no todos los profagos descritos exhiben dicha composición atípica [64]. Hasta ahora no han sido establecidos criterios uniformes para la detección de profagos por lo que el análisis de genomas bacterianos utilizando ambas estrategias bajo un enfoque unificado es poco común. En nuestro trabajo decidimos hacer uso de PHAST (detección por homología [64]) y PhiSpy (detección por composición [65]) debido a que son programas usan estrategias de búsqueda distintas y fueron diseñados para minimizar las debilidades mencionadas anteriormente. Con base en nuestros resultados determinamos que el programa PHAST fue más efectivo que PhiSpy para detectar elementos fágicos. Sin embargo, el uso de PhiSpy es clave en el estudio ya que fue diseñado para identificar elementos fágicos nuevos o desconocidos, es decir, que no hayan sido reportados anteriormente. En este sentido, PhiSpy fue capaz de identificar un elemento fágico en el genoma de la cepa YL84 y el plásmido de la cepa PA96 en donde PHAST no dio ningún resultado positivo. En los casos en donde fueron mapeados los elementos identificados por PHAST y PhiSpy se encontró que estos coincidían en posición por lo que es necesario determinar para el total de los genomas analizados si hay más casos en donde PhiSpy detectó elementos distintos a PHAST. Además de PHAST y PhiSpy decidimos explorar una nueva estrategia de identificación de elementos fágicos basada en búsquedas de dominios conservados. La ventaja de dicha estrategia radica en el uso de información de secuencia de dominios los cuales representan unidades de evolución molecular de las proteínas y por tanto exhiben patrones de conservación entre ellas. Esto permite que dominios del mismo tipo, o familia, puedan ser reconocidos por distintos métodos a pesar de la divergencia exhibida por la secuencia total de las proteínas comparadas [66]. El primer paso de nuestra estrategia implica la identificación de dominios conservados presentes en proteínas de fagos de Pseudomonas y codificadas en los genomas de cepas P. aeruginosa. Dado que

138 Adrián Cazares López Tesis de Doctorado un profago representa un grupo de secuencias codificantes contiguas en un genoma bacteriano, este correspondería también a un conjunto de dominios conservados cercanos entre sí. Bajo dicho racional procedimos a determinar cuáles dominios conservados de las proteínas de P. aeruginosa estaban presentes también en proteínas fágicas e ubicamos su posición en el genoma bacteriano para tratar de identificar grupos los cuales podrían corresponder a regiones fágicas. Nuestros resultados muestran que las proteínas con dominios conservados presentes en proteínas fágicas tienden a agruparse y dichos grupos corresponden posicionalmente los elementos fágicos detectados tanto por PHAST y PhiSpy. De forma notable, estos resultados indican que nuestra estrategia es capaz de detectar regiones bacterianas enriquecidas en proteínas con dominios conservados presentes también en proteínas fágicas e identificar así elementos fágicos con la misma sensibilidad que dos programas que usan estrategias de búsqueda muy distintas entre sí. El análisis detallado de distintos elementos fágicos evidenció casos donde el profago identificado por alguno de los programas carecía de los dominios conservados detectados por nuestra estrategia lo cual podría corresponder a un falso positivo y nuestra estrategia de búsqueda sería útil para detectarlos. Adicionalmente, el análisis reveló que nuestra estrategia de dominios conservados podría ayudar a definir la longitud correcta de los profagos detectados por PHAST y PhiSpy basado en la presencia/ausencia de dominios en las regiones predichas (Figura S6). Aunque la estrategia de identificación de elementos fágicos por medio de dominios conservados propuesta en el presente trabajo aún necesita ser refinada (e.g. identificar la colección más adecuada de dominios conservados a utilizar) y automatizada, muestra evidencias claras de su capacidad para detectar profagos predichos y caracterizados experimentalmente y representa un enfoque novedoso que merece ser explorado y desarrollado a profundidad. En cuanto al contenido de elementos fágicos en genomas de P. aeruginosa, nuestros resultados nos permitieron identificarlos en todas las secuencias

139 Adrián Cazares López Tesis de Doctorado analizadas. Se cree que la mayoría de los aislados de P. aeruginosa se encuentran lisogenizados por al menos un fago [78, 84], sin embargo, hasta la fecha no se ha reportado algún estudio sistemático de identificación de profagos en genomas de esta especie bacteriana que soporte dicha hipótesis. Nuestro trabajo no solo soporta la hipótesis, sino que sugiere que la proporción de profagos podría ser más grande de lo supuesto o reportado a la fecha [16, 84]. En la revisión de Canchaya y colaboradores de 2003 los autores dedican una pequeña sección P. aeruginosa y mencionan el caso de la cepa PA01 en donde han sido encontrados únicamente dos profagos [16]. Por su parte, Kung y colaboradores, en una revisión sobre el genoma accesorio de P. aeruginosa publicada en 2010, escriben sobre la contribución de los elementos fágicos a dicho componente del pangenoma y refieren al caso de la cepa LESB58 en donde fueron identificados seis profagos [84, 85]. En ambas revisiones se menciona además el tipo de fagos temperados de P. aeruginosa que han sido aislados a partir de su estado de profago y algunos de los cuales se ha demostrado contribuyen a la conversión lisogénica de su hospedero, sin embargo, no reportan más análisis sobre la presencia de profagos en genomas de la bacteria que los mencionados anteriormente. Por otra parte, nuestros resultados coinciden con el análisis de genomas bacterianos reportado por Touchon y colaboradores en 2016 donde se establece que los profagos son frecuentes en bacterias patógenas [86]. Los resultados de nuestro análisis muestran también que el contenido de elementos fágicos es altamente variable en los genomas pues estos fueron encontrados en un rango de 1 a 9 en las distintas cepas analizadas. La lisogenia es un fenómeno complejo que está asociado a múltiples factores, siendo los sistemas defensa bacterianos uno de ellos [86]. El sistema CRISPR-Cas, presente en P. aeruginosa, es uno de los sistemas de defensa más estudiados en años recientes debido a su sofisticación para proteger a la bacteria de elementos genéticos móviles, incluyendo los bacteriófagos [13]. En este sentido, Touchon y colaboradores reportaron que las cepas lisógenas

140 Adrián Cazares López Tesis de Doctorado son más propensas a contener sistemas CRISPR-Cas, sin embargo, estas presentan menos secuencias espaciadoras que aquellas cepas no lisógenas que portan el sistema de defensa lo cual podría limitar su capacidad de protección contra fagos [86]. Dado que el sistema CRISPR-Cas es activo en P. aeruginosa, este podría estar involucrado en las diferencias que observamos en el número de elementos fágicos albergados en los genomas analizados y por lo cual sería informativo evaluar si existe una correlación de estas observaciones con la presencia del sistema y el número de espaciadores que contiene. Finalmente, dos preguntas que quedan pendientes de nuestro trabajo son la diversidad de los elementos fágicos y su impacto funcional en el hospedero. Respecto a la diversidad, suponemos que es alta basados en distintos resultados y reportes. En 2009 Winstanley y colaboradores reportaron la existencia de seis profagos en el genoma de la cepa LESB58 de los cuales dos fueron quimeras de fagos reportados y los otros mostraron grupos de genes distintos a los de sus genomas homólogos reportados en bases de datos [85]. Adicionalmente, la comparación de la secuencia genómica del fago temperado Ps54 de nuestro laboratorio (ver Capítulo 1) mostró resultados similares ya que Ps54 representa una quimera de dos profagos no caracterizados de la cepa DHS01. En cuanto al impacto funcional de los elementos fágicos, está pendiente el identificar si genes con potencial de conversión lisogénica están asociados a los elementos fágicos identificados.

Conclusiones:  1663 dominios conservados distintos fueron identificados en una base de datos de 7529 proteínas de fagos Pseudomonas. 255 de los dominios encontrados presentan una descripción relacionada con funciones u origen fágico. Funciones de morfogénesis y estructura de virión, así como desconocidas, son las más abundantes en el set de dominios específicos de fago.

141 Adrián Cazares López Tesis de Doctorado

 7.9% del total de proteínas codificadas en los genomas de estudio de P. aeruginosa presentaron dominios conservados identificados también en proteínas fágicas. En promedio, cada genoma presentó 406 proteínas de este tipo.  Se identificaron elementos fágicos en todos los genomas bacterianos de estudio mediante el uso de los programas PHAST y PhiSpy. PHAST identificó un mayor número de elementos fágicos que PhiSpy.  Varios de los elementos identificados por los dos programas de detección coincidieron en posición en algunos genomas de estudio analizados. Los dominios conservados presentaron una tendencia a agruparse en la posición de los elementos fágicos identificados, aunque una gran proporción se distribuyó a lo largo del genoma. El uso del set de 255 dominios conservados específicos de fagos eliminó la distribución no relacionada a elementos fágicos.  Los elementos fágicos representan combinaciones de proteínas con dominios conservados específicos y no específicos de fagos, con función asignada y de función desconocida.  Nuestra estrategia de búsqueda es capaz de reconocer profagos verificados experimentalmente.

142 Adrián Cazares López Tesis de Doctorado

12) PERSPECTIVAS. CAPÍTULO 1:  Representar en forma de red las relaciones de identidad nucleotídica observadas entre los bacteriófagos que infectan P. aeruginosa.  Completar la secuenciación del genoma del fago Ps54 e identificar ejemplares homólogos en el laboratorio para caracterizarlos a partir de un análisis comparativo. CAPÍTULO 2:  Probar experimentalmente las funciones de anti-CRISPR y proteína de decoración de cápside inferidas para los ORFs accesorios g2 y h.  Determinar las funciones codificadas en otros ORFs accesorios del grupo D3112virus para dilucidar si estas confieren ventajas adaptativas al fago y/o su hospedero.  Evaluar la prevalencia de fagos del grupo D3112virus en la colección de cepas de P. aeruginosa del laboratorio mediante PCR con los oligos de caracterización propuestos en este trabajo. CAPÍTULO 3:  Secuenciar los amplicones correspondientes a las regiones izquierda y derecha de los profagos del grupo F116virus para determinar si las secuencias de los sitios att coinciden con las propuestas en este estudio.  Realizar ensayos de infección cruzada con los fagos H66 y LKA5 y sus lisógenas correspondientes para determinar si existe homoinmunidad.  Determinar si las lisógenas de los fagos H66 y LKA5 muestran características fenotípicas diferentes que pudieran ser ocasionadas por el profago (e.g. producción de biofilm, motilidad, etc.). CAPÍTULO 4:  Refinar la anotación de los fagos del grupo B3-like a partir de los resultados obtenidos del análisis comparativo.

143 Adrián Cazares López Tesis de Doctorado

 Realizar un análisis comparativo detallado entre los genomas B3-like y D3112virus para inferir las relaciones evolutivas de los fagos transponibles de P. aeruginosa. CAPÍTULO 5:  Determinar el número total de elementos fágicos distintos identificados para cada genoma de P. aeruginosa analizado.  Comparar las secuencias de todos los elementos identificados para determinar su diversidad genética.  Automatizar el proceso de detección basado en la estrategia de búsqueda de dominios.  Identificar el conjunto de dominios conservados más apropiado para identificar elementos fágicos.

144 Adrián Cazares López Tesis de Doctorado

13) Material Suplementario

Tabla S1. Información sobre las secuencias de fagos y profagos D3112virus comparadas en este estudio. Coordenadas en la cepa de Tamaño del Locus de inserción en Nombre # aORFs origen ID * Acc_num ^ genoma (pb) PA14 Inicio Final JBD26 37840 14 N/A N/A N/A N/A N/A JBD5 37740 13 N/A N/A N/A N/A N/A YMC11-11-R1836 37714 12 N/A N/A N/A N/A N/A D3112 37611 11 N/A N/A N/A N/A N/A P_a_Carb01-63_D3112virus_prophage3 37587 13 1397496 1435082 Non-coding Región N/A N/A P_a_Carb01-63_D3112virus_prophage2 37452 15 1124000 1161451 Hypothetical protein RS04565 WP_003137628.1 Cystathionine beta- 37397 11 491389 528785 RS02120 WP_004365040.1 P_a_NCGM257_D3112virus_prophage synthase P_a_NCGM257_D3112virus_prophage2 37394 11 3109379 3146772 Enterochelin esterase RS13425 WP_003139194.1 JD024 37380 11 N/A N/A N/A N/A N/A F_HA0480sp 37374 11 N/A N/A N/A N/A N/A H70 37359 11 N/A N/A N/A N/A N/A Ab30 37238 12 N/A N/A N/A N/A N/A JBD24 37095 12 N/A N/A N/A N/A N/A 2P1 37087 12 N/A N/A N/A N/A N/A P_a_39016_D3112virus_prophage 37071 12 5538713 5575783 Non-coding Región N/A N/A P_a_DHS01_D3112virus_prophage 37033 10 1103531 1140563 Non-coding Región N/A N/A P_a_8380_D3112virus_prophage 36981 10 564734 601714 Non-coding Región N/A N/A Peptidyl-prolyl cis-trans 36961 13 915171 952131 RS03990 WP_003093561.1 P_a_Carb01-63_D3112virus_prophage isomerase P_a_LESlike7_D3112virus_prophage 36955 10 1641794 1678748 Non-coding Región N/A N/A P_a_LESlike5_D3112virus_prophage 36955 10 1684020 1720974 Non-coding Región N/A N/A P_a_LESlike4_D3112virus_prophage 36955 10 1683496 1720450 Non-coding Región N/A N/A P_a_LESlike1_D3112virus_prophage 36955 10 1683633 1720587 Non-coding Región N/A N/A P_a_LESB65_D3112virus_prophage 36955 10 1683433 1720387 Non-coding Región N/A N/A

145 Adrián Cazares López Tesis de Doctorado

P_a_LESB58_D3112virus_prophage 36955 10 1683962 1720916 Non-coding Región N/A N/A P_a_LES431_D3112virus_prophage 36955 10 1641800 1678754 Non-coding Región N/A N/A P_a_LES400_D3112virus_prophage 36955 10 1683668 1720622 Non-coding Región N/A N/A JBD30 36947 10 N/A N/A N/A N/A N/A JBD69 36938 11 N/A N/A N/A N/A N/A MP38 36885 8 N/A N/A N/A N/A N/A MP42 36847 11 N/A N/A N/A N/A N/A MP48 36838 10 N/A N/A N/A N/A N/A LPB1 36814 9 N/A N/A N/A N/A N/A MP29 36632 9 N/A N/A N/A N/A N/A JBD93 36629 9 N/A N/A N/A N/A N/A P_a_HB13-138244- 36609 8 459228 495836 Non-coding Región N/A N/A contig000004_D3112virus_prophage Sensor histidine P_a_S04-90_D3112virus_prophage2- 36607 14 6206628 6243234 kinase/response RS26245 WP_003111227.1 incomplete regulator PaMx73 36570 9 N/A N/A N/A N/A N/A P_a_M37351_D3112virus_prophage2 36549 10 349145 385693 Hypothetical protein RS14105 WP_003089408.1 JBD16C 36436 9 N/A N/A N/A N/A N/A JBD88a 36429 9 N/A N/A N/A N/A N/A DMS3 36415 10 N/A N/A N/A N/A N/A P_a_H47921_D3112virus_prophage2 36411 9 245630 282040 Non-coding Región N/A N/A MP22 36409 8 N/A N/A N/A N/A N/A P_a_S04-90_D3112virus_prophage 35394 8 5597641 5633034 Flavodoxin RS23880 WP_003141343.1 P_a_NCGM2-S1_D3112virus_prophage- 35025 10 5795314 5830338 Non-coding Región N/A N/A incomplete P_a_Carb01- 34915 14 3566761 3601675 Non-coding Región N/A N/A 63_D3112virus_prophage4_incomplete PA1_KOR_2010 34553 11 N/A N/A N/A N/A N/A Trans-2,3-dihydro-3- P_a_H47921_D3112virus_prophage3- 26050 2 6810366 6836415 hydroxyanthranilate RS03820 WP_003093628.1 incomplete isomerase P_a_VRFPA04_D3112virus_prophage- 25317 2 5886133 5911449 phospho-2-dehydro-3- RS03835 WP_011666542.1

146 Adrián Cazares López Tesis de Doctorado

incomplete deoxyheptonate aldolase P_a_H47921_D3112virus_prophage- 21141 8 1 21141 Esterase RS15210 WP_015502989.1 incomplete P_a_M37351_D3112virus_prophage- 19698 6 1 19698 Exidoreductase RS14110 WP_003089406.1 incomplete P_a_M37351_D3112virus_prophage3- 17324 1 6879908 6897231 Esterase RS15210 WP_015502989.1 incomplete Notas: Los fagos están ordenados en la tabla de arriba hacia abajo con base en el tamaño de sus genomas, de mayor a menor. Los fagos se resaltan celdas grises mientras que los profagos se diferencian en celdas amarillas (completos) y verdes (incompletos). N/A: No Aplica. Las columnas 4-8 proveen información exclusiva de los profagos. Los datos de las columnas 6, 7 y 8 corresponden a información textual disponible en el archivo gbk del genoma de la cepa PA14 de P. aeruginosa. * Identificador del CDS correspondiente en el archivo gbk de PA14. ^ Número de acceso de GenBank para la proteína correspondiente de PA14.

147 Adrián Cazares López Tesis de Doctorado

Figura S1. Mapas y comparación genómica de fagos tipo D3112virus. Los mapas de los genomas están dibujados a escala. El nombre de los fagos se muestra del lado izquierdo del mapa correspondiente. Los genomas se representan como barras grises y los ORFs que codifican como flechas de colores que apuntan hacia su dirección de transcripción (ver Capítulo 2, Figura 2.3). Las flechas grises y de colores corresponden a ORFs del core genómico, pero las últimas flanquean RGPs. El código de colores denota: Verde, función desconocida; Rojo, función conocida; Morado, proteínas estructurales del virión. Las flechas amarillas representan los ORFs accesorios de los genomas comparados.

Figura S2. Mapas y comparación genómica de profagos tipo D3112virus. La descripción de la presente figura es la misma que en la Figura S1. Debido a que el profagos en la cepa VRFPA04 presenta varias deleciones se incluyeron líneas que conectan ORFs homólogos con el fin de lograr una visualización más sencilla de dicho caso.

Figura S3. Comparación genómica de bacteriófagos del grupo F116virus. Los mapas genómicos fueron divididos arbitrariamente en dos partes para su fácil observación. El nombre de los fagos y el tamaño de su genoma se indican del lado izquierdo de los mapas correspondientes. El país de aislamiento y el porcentaje de identidad nucleotídica respecto al genoma de LKA5 se muestran en el lado derecho de los mapas. Los genes del core genómico están numerados, y la posición de las RGPs indicada (A - J), encima del mapa de LKA5. Las flechas de colores representan ORFs y su orientación en el genoma. El código de colores denota: rojo, función asignada; verde, función desconocida; morado, proteína estructural identificada por espectrometría de masas en viriones de H66 y LKA5, y amarillo, ORFs accesorios (aORFs). Los cORFs 29 y 31 también fueron identificados por espectrometría de masas, pero su función estructural había sido asignada previamente por homología de secuencia. Los asteriscos arriba de las flechas indican ORFs previamente no identificados (* en gris) o cuya longitud original fue corregida (* en rosa). ORFs que comparten color y posición en diferentes genomas representan homólogos (ver Métodos). Los tipos de aORFs se describen en las Figuras 3.2 y 3.3. Líneas negras conectan ORFs divididos en F116 con sus homólogos de longitud completa. Las funciones inferidas se indican en la parte inferior de los mapas genómicos; TerL: Subunidad grande de la terminasa, cs: cadena sencilla.

Figura S4. SGS-PAGE de las proteínas estructurales de los viriones de H66 y LKA5. Los componentes proteicos de los viriones purificados por CsCl de los fagos H66 y LKA5 fueron resueltos por SDS-PAGE en un gel al 10% (izquierda) y otro al 12.5% (derecho) y

148 Adrián Cazares López Tesis de Doctorado posteriormente fueron teñidos con azul de coomassie. Las muestras separadas en el gel de la izquierda provienen de stocks purificados con títulos de ~1011 mientras que en el gel de la derecha se separó una concentración 5X de dichas muestras para lograr la visualización de un mayor número de bandas. Las bandas identificadas en cado caso se enumeran e indican en ambos geles. Solo las bandas observadas en el gel de la derecha fueron procesadas para su análisis por espectrometría de masas. Un marcador de peso molecular fue incluido como referencia en el carril de la izquierda de cada gel.

Figura S5. Localización de los oligos para la determinación de integración de fagos del tipo F116virus. Los diferentes esquemas muestran la localización de los oligos descritos en la Tabla 3.1 y utilizados en los experimentos de las Figuras 3.10, 3.11 y 3.12 para determinar la integración de los fagos H66 y LKA5 por PCR (ver Capítulo 3 para mayor descripción).

Figura S6. Regiones profágicas identificadas en el genoma de la cepa LESB58. Las regiones genómicas correspondientes a los profagos 1 y 2 (Figura 5.7) de la cepa LESB58 se muestran e indican en la imagen. Las barras amarillas corresponden a las regiones caracterizadas y reportadas por Winstanley y colaboradores [85]. Las barras roja y azul representan las regiones identificadas por los programas PHAST y PhiSpy, respectivamente. En medio de las regiones profágicas se muestra una escala que corresponde a las coordenadas del genoma de LESB58 (Figura 5.7). Los bloques verdes representan secuencias codificantes que contienen dominios conservados encontrados en proteínas fágicas. La ubicación de estos en la parte superior o inferior de la región indica si están codificados en la cadena positiva o negativa y cual es su marco de lectura (barra gris claro). Note las diferencias entre la longitud de las regiones predichas y las caracterizadas. Los elementos de la imagen están a escala.

149 Adrián Cazares López Tesis de Doctorado

Figura S1

150 Adrián Cazares López Tesis de Doctorado

Figura S2

151 Adrián Cazares López Tesis de Doctorado

Figura S3

152 Adrián Cazares López Tesis de Doctorado

Figura S4

153 Adrián Cazares López Tesis de Doctorado

Figura S5

154 Adrián Cazares López Tesis de Doctorado

Figura S6

155 Adrián Cazares López Tesis de Doctorado

14) REFERENCIAS

1. Clokie, M.R., et al., Phages in nature. , 2011. 1(1): p. 31-45. 2. Rohwer, F. and A.M. Segall, In retrospect: A century of phage lessons. Nature, 2015. 528(7580): p. 46-8. 3. Nelson, D., Phage taxonomy: we agree to disagree. J Bacteriol, 2004. 186(21): p. 7029-31. 4. Pires, D.P., et al., Phage Therapy: a Step Forward in the Treatment of Pseudomonas aeruginosa Infections. J Virol, 2015. 89(15): p. 7449-56. 5. Suttle, C.A., Viruses in the sea. Nature, 2005. 437(7057): p. 356-61. 6. Hatfull, G.F., Bacteriophage genomics. Curr Opin Microbiol, 2008. 11(5): p. 447-53. 7. Davies, E.V., et al., The role of temperate in bacterial infection. FEMS Microbiol Lett, 2016. 363(5): p. fnw015. 8. Held, N.L., et al., CRISPR associated diversity within a population of Sulfolobus islandicus. PLoS One, 2010. 5(9). 9. Davies, E.V., et al., Temperate phages both mediate and drive adaptive evolution in pathogen biofilms. Proc Natl Acad Sci U S A, 2016. 113(29): p. 8266-71. 10. Campbell, A., The future of bacteriophage biology. Nat Rev Genet, 2003. 4(6): p. 471- 7. 11. Calendar, R., The bacteriophages. 2nd ed. 2006, Oxford ; New York: Oxford University Press. xiii, 746 p. 12. Lieb, M., The establishment of lysogenicity in Escherichia coli. J Bacteriol, 1953. 65(6): p. 642-51. 13. Labrie, S.J., J.E. Samson, and S. Moineau, Bacteriophage resistance mechanisms. Nat Rev Microbiol, 2010. 8(5): p. 317-27. 14. Lwoff, A., Lysogeny. Bacteriol Rev, 1953. 17(4): p. 269-337. 15. Gottesman, M.E. and R.A. Weisberg, Little lambda, who made thee? Microbiol Mol Biol Rev, 2004. 68(4): p. 796-813. 16. Canchaya, C., et al., Prophage genomics. Microbiol Mol Biol Rev, 2003. 67(2): p. 238- 76, table of contents. 17. Krylov, V.N., Bacteriophages of Pseudomonas aeruginosa: long-term prospects for use in phage therapy. Adv Virus Res, 2014. 88: p. 227-78. 18. Bobay, L.M., M. Touchon, and E.P. Rocha, Pervasive domestication of defective prophages by bacteria. Proc Natl Acad Sci U S A, 2014. 111(33): p. 12127-32. 19. McGrath, S., G.F. Fitzgerald, and D. van Sinderen, The impact of bacteriophage genomics. Curr Opin Biotechnol, 2004. 15(2): p. 94-9. 20. Kutter, E. and A. Sulakvelidze, Bacteriophages : biology and applications. 2005, Boca Raton, FL: CRC Press. 510 p. 21. Ceyssens, P.J. and R. Lavigne, Bacteriophages of Pseudomonas. Future Microbiol, 2010. 5(7): p. 1041-55. 22. Ackermann, H.W., 5500 Phages examined in the electron microscope. Arch Virol, 2007. 152(2): p. 227-43. 23. Fiers, W., et al., Complete nucleotide sequence of bacteriophage MS2 RNA: primary and secondary structure of the replicase . Nature, 1976. 260(5551): p. 500-7. 24. Sanger, F., et al., Nucleotide sequence of bacteriophage phi X174 DNA. Nature, 1977. 265(5596): p. 687-95. 25. Sanger, F., et al., Nucleotide sequence of bacteriophage lambda DNA. J Mol Biol, 1982. 162(4): p. 729-73. 26. Brussow, H. and R.W. Hendrix, Phage genomics: small is beautiful. Cell, 2002. 108(1): p. 13-6. 27. Cazares, A., G. Mendoza-Hernandez, and G. Guarneros, Core and accessory genome architecture in a group of Pseudomonas aeruginosa Mu-like phages. BMC Genomics, 2014. 15: p. 1146.

156 Adrián Cazares López Tesis de Doctorado

28. Kwan, T., et al., Comparative genomic analysis of 18 Pseudomonas aeruginosa bacteriophages. J Bacteriol, 2006. 188(3): p. 1184-7. 29. Lima-Mendez, G., A. Toussaint, and R. Leplae, Analysis of the phage sequence space: the benefit of structured information. Virology, 2007. 365(2): p. 241-9. 30. Hendrix, R.W., Bacteriophages: evolution of the majority. Theor Popul Biol, 2002. 61(4): p. 471-80. 31. Liu, J., G. Glazko, and A. Mushegian, Protein repertoire of double-stranded DNA bacteriophages. Virus Res, 2006. 117(1): p. 68-80. 32. Hatfull, G.F., et al., Exploring the mycobacteriophage metaproteome: phage genomics as an educational platform. PLoS Genet, 2006. 2(6): p. e92. 33. Hulo, C., et al., A structured annotation frame for the transposable phages: a new proposed family "Saltoviridae" within the Caudovirales. Virology, 2015. 477: p. 155- 63. 34. Casjens, S.R., Comparative genomics and evolution of the tailed-bacteriophages. Curr Opin Microbiol, 2005. 8(4): p. 451-8. 35. Wang, X., et al., Cryptic prophages help bacteria cope with adverse environments. Nat Commun, 2010. 1: p. 147. 36. Roux, S., et al., VirSorter: mining viral signal from microbial genomic data. PeerJ, 2015. 3: p. e985. 37. Cazares, A., Caracterización de la secuencia genómica y análisis proteómico de la particula viral del fago Φ73 de Pseudomonas aeruginosa. Tesis de Maestría especialidad Genética y Biología Molecular, CINVESTAV, 2011. 38. Carballo, M.C., Selección de profagos que excluyen la infección secundaria por otros fagos en cepas clínicas de Pseudomonas aeruginosa. Tesis de Maestría especialidad Genética y Biología Molecular, CINVESTAV, 2012. 39. Sepúlveda-Robles, O.A., Diversidad de los bacteriófagos de Pseudomonas aeruginosa: aislamiento, caracterización e identificación de nuevas especies. Tesis de Doctorado especialidad Genética y Biología Molecular, CINVESTAV, 2012. 40. Hertveldt, K., et al., Genome comparison of Pseudomonas aeruginosa large phages. J Mol Biol, 2005. 354(3): p. 536-45. 41. Ceyssens, P.J., et al., Genomic analysis of Pseudomonas aeruginosa phages LKD16 and LKA1: establishment of the phiKMV subgroup within the T7 supergroup. J Bacteriol, 2006. 188(19): p. 6924-31. 42. Ceyssens, P.J., et al., The genome and structural proteome of YuA, a new Pseudomonas aeruginosa phage resembling M6. J Bacteriol, 2008. 190(4): p. 1429- 35. 43. Sepulveda-Robles, O., L. Kameyama, and G. Guarneros, High diversity and novel species of Pseudomonas aeruginosa bacteriophages. Appl Environ Microbiol, 2012. 78(12): p. 4510-5. 44. Latino, L., et al., A novel Pseudomonas aeruginosa bacteriophage, Ab31, a chimera formed from temperate phage PAJU2 and P. putida lytic phage AF: characteristics and mechanism of bacterial resistance. PLoS One, 2014. 9(4): p. e93777. 45. Zerbino, D.R. and E. Birney, Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res, 2008. 18(5): p. 821-9. 46. Milne, I., et al., Tablet--next generation sequence assembly visualization. Bioinformatics, 2010. 26(3): p. 401-2. 47. Borodovsky, M., et al., Prokaryotic gene prediction using GeneMark and GeneMark.hmm. Curr Protoc Bioinformatics, 2003. Chapter 4: p. Unit4 5. 48. Suzek, B.E., et al., A probabilistic method for identifying start codons in bacterial genomes. Bioinformatics, 2001. 17(12): p. 1123-30. 49. Carver, T., et al., Artemis and ACT: viewing, annotating and comparing sequences stored in a relational database. Bioinformatics, 2008. 24(23): p. 2672-6. 50. Reese, M.G., Application of a time-delay neural network to promoter annotation in the Drosophila melanogaster genome. Comput Chem, 2001. 26(1): p. 51-6.

157 Adrián Cazares López Tesis de Doctorado

51. Munch, R., et al., Virtual Footprint and PRODORIC: an integrative framework for regulon prediction in prokaryotes. Bioinformatics, 2005. 21(22): p. 4187-9. 52. Hunter, S., et al., InterPro: the integrative protein signature database. Nucleic Acids Res, 2009. 37(Database issue): p. D211-5. 53. Marchler-Bauer, A., et al., CDD: a Conserved Domain Database for the functional annotation of proteins. Nucleic Acids Res, 2011. 39(Database issue): p. D225-9. 54. Roy, A., A. Kucukural, and Y. Zhang, I-TASSER: a unified platform for automated protein structure and function prediction. Nat Protoc, 2010. 5(4): p. 725-38. 55. Altschul, S.F., et al., Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res, 1997. 25(17): p. 3389-402. 56. Braid, M.D., et al., Complete genomic sequence of bacteriophage B3, a Mu-like phage of Pseudomonas aeruginosa. J Bacteriol, 2004. 186(19): p. 6560-74. 57. Carver, T., et al., DNAPlotter: circular and linear interactive genome visualization. Bioinformatics, 2009. 25(1): p. 119-20. 58. Darling, A.E., B. Mau, and N.T. Perna, progressiveMauve: multiple genome alignment with gene gain, loss and rearrangement. PLoS One, 2010. 5(6): p. e11147. 59. Pirovano, W., K.A. Feenstra, and J. Heringa, PRALINETM: a strategy for improved multiple alignment of transmembrane proteins. Bioinformatics, 2008. 24(4): p. 492- 7. 60. Sambrook, J. and D.W. Russell, Molecular cloning : a laboratory manual. 3rd ed. 2001, Cold Spring Harbor, N.Y.: Cold Spring Harbor Laboratory Press. 61. Deutsch, E.W., et al., Trans-Proteomic Pipeline, a standardized data processing pipeline for large-scale reproducible proteomics informatics. Proteomics Clin Appl, 2015. 9(7-8): p. 745-54. 62. Chen, W.P. and T.T. Kuo, A simple and rapid method for the preparation of gram- negative bacterial genomic DNA. Nucleic Acids Res, 1993. 21(9): p. 2260. 63. Ye, J., et al., Primer-BLAST: a tool to design target-specific primers for polymerase chain reaction. BMC Bioinformatics, 2012. 13: p. 134. 64. Zhou, Y., et al., PHAST: a fast phage search tool. Nucleic Acids Res, 2011. 39(Web Server issue): p. W347-52. 65. Akhter, S., R.K. Aziz, and R.A. Edwards, PhiSpy: a novel algorithm for finding prophages in bacterial genomes that combines similarity- and composition-based strategies. Nucleic Acids Res, 2012. 40(16): p. e126. 66. Marchler-Bauer, A., et al., CDD: a database of conserved domain alignments with links to domain three-dimensional structure. Nucleic Acids Res, 2002. 30(1): p. 281- 3. 67. Morozova, O. and M.A. Marra, Applications of next-generation sequencing technologies in functional genomics. Genomics, 2008. 92(5): p. 255-64. 68. Pruitt, K.D., T. Tatusova, and D.R. Maglott, NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins. Nucleic Acids Res, 2005. 33(Database issue): p. D501-4. 69. Cazares, L.D., Caracterización molecular de cepas oftálmicas de Pseudomonas aeruginosa por tipificación multilocus de secuencias (MLST) y presencia de fagos temperados asociados. Tesis de licenciatura en Biología. Facultad de Estudios Superiores Iztacala, UNAM., 2015. 70. Pawluk, A., et al., A new group of phage anti-CRISPR genes inhibits the type I-E CRISPR-Cas system of Pseudomonas aeruginosa. MBio, 2014. 5(2): p. e00896. 71. Amador-Zafra, R.I., Identificación de profagos que portan genes Anti-CRISPR contra el subtipo I-F de la cepa PA14 de Pseudomonas aeruginosa. Tesis de Maestría especialidad Genética y Biología Molecular, CINVESTAV, 2016. 72. Morgan, G.J., et al., Bacteriophage Mu genome sequence: analysis and comparison with Mu-like prophages in Haemophilus, Neisseria and Deinococcus. J Mol Biol, 2002. 317(3): p. 337-59.

158 Adrián Cazares López Tesis de Doctorado

73. Heo, Y.J., et al., Genome sequence comparison and superinfection between two related Pseudomonas aeruginosa phages, D3112 and MP22. Microbiology, 2007. 153(Pt 9): p. 2885-95. 74. Smith, D.L., et al., Comparative genomics of Shiga toxin encoding bacteriophages. BMC Genomics, 2012. 13: p. 311. 75. Byrne, M. and A.M. Kropinski, The genome of the Pseudomonas aeruginosa generalized transducing bacteriophage F116. Gene, 2005. 346: p. 187-94. 76. Miller, R.V., J.M. Pemberton, and A.J. Clark, Prophage F116: evidence for extrachromosomal location in Pseudomonas aeruginosa strain PAO. J Virol, 1977. 22(3): p. 844-7. 77. Fogg, P.C., et al., New applications for phage integrases. J Mol Biol, 2014. 426(15): p. 2703-16. 78. Holloway, B.W., J.B. Egan, and M. Monk, Lysogeny in Pseudomonas aeruginosa. Aust J Exp Biol Med Sci, 1960. 38: p. 321-9. 79. d'Ari, R., The SOS system. Biochimie, 1985. 67(3-4): p. 343-7. 80. Leong, J.M., et al., The phi 80 and P22 attachment sites. Primary structure and interaction with Escherichia coli integration host factor. J Biol Chem, 1985. 260(7): p. 4468-77. 81. Akhverdian, V.Z., et al., [Wide distribution of transposable phages in natural Pseudomonas aeruginosa populations]. Genetika, 1984. 20(10): p. 1612-9. 82. Wang, P.W., L. Chu, and D.S. Guttman, Complete sequence and evolutionary genomic analysis of the Pseudomonas aeruginosa transposable bacteriophage D3112. J Bacteriol, 2004. 186(2): p. 400-10. 83. Mathee, K., et al., Dynamics of Pseudomonas aeruginosa genome evolution. Proc Natl Acad Sci U S A, 2008. 105(8): p. 3100-5. 84. Kung, V.L., E.A. Ozer, and A.R. Hauser, The accessory genome of Pseudomonas aeruginosa. Microbiol Mol Biol Rev, 2010. 74(4): p. 621-41. 85. Winstanley, C., et al., Newly introduced genomic prophage islands are critical determinants of in vivo competitiveness in the Liverpool Epidemic Strain of Pseudomonas aeruginosa. Genome Res, 2009. 19(1): p. 12-23. 86. Touchon, M., A. Bernheim, and E.P. Rocha, Genetic and life-history traits associated with the distribution of prophages in bacteria. ISME J, 2016. 10(11): p. 2744-2754. 87. Fouts, D.E., Phage_Finder: automated identification and classification of prophage regions in complete bacterial genome sequences. Nucleic Acids Res, 2006. 34(20): p. 5839-51.

159 Adrián Cazares López Tesis de Doctorado

15) ANEXOS

ANEXO 1: Articulo de Investigación.  Adrián Cazares, Guillermo Mendoza-Hernández and Gabriel Guarneros (2014). Core and accessory genome architecture in a group of Pseudomonas aeruginosa Mu-like phages. BMC genomics15:1146.

ANEXO 2: Reportes obtenidos con PRALINE para el alineamiento de Integrasas de fagos F116virus.  ANEXO 2A: Alineamiento de integrasas LKA5-like  ANEXO 2B: Alineamiento de integrasas H66-like  ANEXO 2C: Alineamiento de las integrasas de H66 y LKA5

160