Análisis Evolutivo De La Interacción Proteína-ADN

Tesis Doctoral Análisis evolutivo de la interacción proteína-ADN Aptekmann, Ariel Alejandro 2018-03-23 Este documento forma parte de la colección de tesis doctorales y de maestría de la Biblioteca Central Dr. Luis Federico Leloir, disponible en digital.bl.fcen.uba.ar. Su utilización debe ser acompañada por la cita bibliográfica con reconocimiento de la fuente. This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico Leloir, available in digital.bl.fcen.uba.ar. It should be used accompanied by the corresponding citation acknowledging the source. Cita tipo APA: Aptekmann, Ariel Alejandro. (2018-03-23). Análisis evolutivo de la interacción proteína-ADN. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Cita tipo Chicago: Aptekmann, Ariel Alejandro. "Análisis evolutivo de la interacción proteína-ADN". Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2018-03-23. Dirección: Biblioteca Central Dr. Luis F. Leloir, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires. Contacto: [email protected] Intendente Güiraldes 2160 - C1428EGA - Tel. (++54 +11) 4789-9293 Universidad de Buenos Aires Facultad de Ciencias Exactas y Naturales Departamento de Qu´ımica Biologica´ Análisis evolutivo de la interacción prote´ına-ADN Tesis presentada para optar al t´ıtulode Doctor de la Universidad de Buenos Aires en el áreaQu´ımica Biológica Lic. Ariel Alejandro Aptekmann Director: Dr. Alejandro Daniel Nadra Consejero de estudios: Dr. AdriánTurjanski Lugar de trabajo: IQUIBICEN-UBA-CONICET Buenos Aires, 2017 Análisis evolutivo de la interacción prote´ına-ADN En la entidad funcional \interfaz prote´ına-ADN”,prote´ınay ADN se condicionan mutuamente en un proceso coevolutivo. El hecho de que múltiplesreconocedores moleculares tengan que coexistir en un mismo genoma y ejercer sus funciones sin interferir con las funciones de los otros, condiciona sus requisitos de especificidad y discriminación.En términosevolutivos, se observa ademásque pares homólogos mantienen su función en un espectro amplio de condiciones f´ısicoqu´ımicas.Se agre- ga a esto la dificultad de que una vez determinada una red regulatoria hay un efecto inercial, que dificulta el modificarla cuanto mas cantidad de partes interactuantes formen la misma. En este trabajo nos proponemos estudiar las condiciones, procesos y mecanismos que determinan las posibilidades de este fenómeno.Esta tesis puede dividirse en siete etapas, cada una correspondiente con un cap´ıtulo.En el primer cap´ıtulocomenzamos por recopilar de forma sistemáticainformaciónsobre las condiciones de vida de extremófilos,principalmente Archaea. En el segundo cap´ıtulo, para aquellos organismos con un genoma secuenciado y anotado, calculamos la com- posiciónde distintas regiones del genoma, evidenciando que la aparente correlación entre contenido de G+C y la temperatura óptimade crecimiento se debe a un sesgo en los datos usados históricamente. En el tercer cap´ıtuloestudiamos el contenido de informaciónde los promotores en distintos genomas, evidenciando un desv´ıode lo esperable de acuerdo a la teor´ıamolecular de la información,proponiendo posibles explicaciones para esta desviación.En el cuarto cap´ıtulose aplica un análisissimilar a la comparaciónde promotores de genomas nuclear y mitocondrial en los cuales hay, de manera sostenida y en un mismo organismo, una diferencia de temperatura. En el quinto cap´ıtulo se identifican y caracterizan motivos funcionales a nivel de genoma, relacionados con la regulaciónde un factor de transcripcióninvolucrado en crecimiento radicular en plantas (RSL4). En el sexto cap´ıtulo,usando expresiones regulares como modelos de sitios de unión,estudiamos la coevoluciónde motivos en el espacio de secuencia, mostrando cómoel tama~nodel alfabeto tiene un efecto sobre el númerode posiciones discriminantes óptimasy cómolos sistemas naturales tienden a optimizarse influenciadas por este parámetro. En resumen, mediante el análisisbibliográficoy el uso de herramientas bioinformáticasmodernas, estudiamos el sistema \interacciónprote´ına-ADN”,considerando restricciones biof´ısicasy evolutivas. Este análisisnos ha permitido reforzar hipótesisprevias, as´ıcomo en- contrar resultados novedosos. Esta tesis ha requerido la aplicaciónde teoremas y el i desarrollo de algoritmos, que son enunciados a modo de apéndice. Palabras claves: ADN, Prote´ına,Contenido de información,Motivos, Expresiones Regulares, Extremófilos, Archaea, Logos de secuencia. Evolutionary analysis of the protein-DNA interaction At the functional entity \Protein-DNA interface", Protein and DNA are mutually conditioned by a co evolutive process. Since multiple molecular recognicers coexist and remain functional on a same genome withouth interfering excesively between them, each recognizer is required to have especificity. They must also mantain their functions over a wide range of fisico-chemical conditions. As if those where not enough difficulties, once a regulatory network has been established, there is an inercial effect that restricts its capability to be modified (Since more parts interacting are required to be changed). In this work we propose to study the conditions,mechanisms and processes that are determinant to this fenomena. This thesis can be divided into seven stages, each corresponding to a chapter. In the first chapter we began by collec- ting systematically information on the living conditions of extremophiles, especially Archaea. In the second chapter, for those organisms with a genome sequenced and annotated, we calculated the composition of different regions of the genome, showing that the apparent correlation between G + C content and optimal growth temperature is due to a bias in the data used historically. In the third chapter we study the information content of the promoters in different genomes, evidencing a deviation from what is expected according to the molecular theory of information, proposing possible explanations for this deviation. In the fourth chapter a similar analysis is applied to the comparison of promoters of nuclear and mitochondrial genomes in which there is, in a sustained manner and in the same organism, a temperature difference. The fifth chapter identifies and characterizes functional genome-related regulation of a transcription factor involved in root growth in plants (RSL4). In the sixth chapter, by using regular expressions as models of binding sites, we study the coevolution of motifs in sequence space, showing how the size of the alphabet has an effect on the number of optimal discriminant positions and how natural systems tend to be optimized by this parameter. In summary, through bibliographic analysis and the use of modern bioinformatics tools, we studied the "protein-DNA interaction"system, considering biophysical and evolutionary restrictions. This analysis has allowed us to reinforce previous hypotheses, as well as find novel results. This thesis has required the application of theorems and the development of algorithms, which are enunciated as an appendix. Keywords: DNA, Protein, Information content, Motiffs, Regular Expressions, Ex- iii tremophiles, Archaea, Sequence Logo. Agradecimientos Es improbable, por no decir imposible, poder mencionar en tan reducido espacio a toda las personas que de una manera u otra hicieron posible este trabajo. Tendr´ıaque incluir a todas las personas que participaron en mi formaciónacadémica,profesional y humana. La lista ser´ıainterminable y pido disculpas si me hubiese olvidado de alguien. Habiendo aclarado esto, quisiera agradecer: A mi director, el Dr. Alejandro Nadra, por haberme dado lugar en su grupo de trabajo. Gracias por la infinita paciencia, por ayudarme a desarrollar las ideas interesantes y por ense~narmeque hacer ciencia es una actividad humana, una forma de arte, que se puede hacer cooperando, que cobra mas valor cuando esta inspirada por las vidas y dificultades de muchos, mas que las propias. Al Dr. Diego Ferreiro, por las excelentes conversaciones inspiradoras de los \Se- minarios sangrientos". Al Dr. Ignacio E. Sánchez, por las discusiones enriquecedoras, por el tiempo y la atención,que tan generosamente dedico ayudándomea darle forma a esta Tesis. Al Dr. Javier Santos por la lectura critica y al Lic. Marcelo Aptekmann por la correcciónde estilo del manuscrito original publicado del trabajo que se presenta en los cap´ıtulo2 y 3. A Juliana Glavina, Roc´ıoEspada, Brenda Guzovsky, Ezequiel Galpern, que me acompa~naron,ayudaron y aguantaron muchas veces. A mi familia, abuelos, mamá,papá,hermana, Carmen, gracias por respetar mis elecciones, por estar y por alentarme a seguir adelante. A Natalia Rigazio, mi compa~nera,por compartir la vida, por la paciencia, por el apoyo. A mis amigos, yo soy porque somos, y por eso, gracias. Por ultimo no me quiero olvidar de agradecer por su apoyo en este trabajo a la Agencia Nacional de PromociónCient´ıficay Tecnológica [PICT PRH 2009-105, PICT 2013-1417] y al Consejo Nacional de Investigaciones Cient´ıficasy Técnicas (CONICET) por financiar este trabajo de doctorado. Por extensión,agradezco a los Argentinos, a nuestra historia de educaciónpublica de excelencia, sin la cual esta tesis no hubiera sido posible. A mis viejos, Silvia y Marcelo. v Abreviaturas ej. - Ejemplo e.g. - En general pb - Pares de bases OGT - Optimal Growth Temperature (temperatura óptimade crecimiento) ORF - Open Reading Frame (marco abierto de lectura) IC - Information Content (contenido de información) ADN - Acido´ desoxirribonucleico ARN - Acido´ ribonucleico rARN - ARN ribosomal tRNA - ARN de transferencia TBP - TATA binding protein (prote´ınaunidora de sitios TATA) TBS - TBP binding site (sitio de uniónde TBP, en general, sitio TATA) REGEX - Expresiónregular. PWM - Positional weight matrix ARF - Auxin response factor (factor de respuesta a auxinas) ROS - Reactive oxigen species (especie reactiva de ox´ıgeno) vii Índice general Agradecimientos V Abreviaturas VII 1. Introduccióngeneral 1 1.1. Objetivos e hipótesis.. .4 1.2. Antecedentes . .6 1.3. Resumen de los cap´ıtulos. .9 2. Construcciónde la base de datos 11 2.1. Introducción. 11 2.2.

Análisis Evolutivo De La Interacción Proteína-ADN

Thermococcus Piezophilus Sp. Nov., a Novel Hyperthermophilic And

Pyrobaculum Igneiluti Sp. Nov., a Novel Anaerobic Hyperthermophilic Archaeon That Reduces Thiosulfate and Ferric Iron

Improved Prokaryotic Gene Prediction Yields Insights Into Transcription and Translation Mechanisms on Whole Genome Scale

Pan-Genome Analysis and Ancestral State Reconstruction Of

Role of Ori in Thermococcus Barophilus

In Search for the Membrane Regulators of Archaea Marta Salvador-Castell, Maxime Tourte, Philippe Oger

An Integrative Genomic Island Affects the Adaptations of the Piezophilic Hyperthermophilic Archaeon Pyrococcus Yayanosii to High

The Histidine Biosynthetic Genes in the Superphylum Bacteroidota-Rhodothermota-Balneolota-Chlorobiota: Insights Into the Evolution of Gene Structure and Organization

Open Leamy Phd Thesis Final.Pdf

Biogeography and Evolution of Thermococcus Isolates from Hydrothermal Vent Systems of the Paciﬁc

Variations in the Two Last Steps of the Purine Biosynthetic Pathway in Prokaryotes

Discovery of Pyrobaculum Small RNA Families with Atypical Pseudouridine Guide RNA Features