Análisis Evolutivo De La Interacción Proteína-ADN
Total Page:16
File Type:pdf, Size:1020Kb
Tesis Doctoral Análisis evolutivo de la interacción proteína-ADN Aptekmann, Ariel Alejandro 2018-03-23 Este documento forma parte de la colección de tesis doctorales y de maestría de la Biblioteca Central Dr. Luis Federico Leloir, disponible en digital.bl.fcen.uba.ar. Su utilización debe ser acompañada por la cita bibliográfica con reconocimiento de la fuente. This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico Leloir, available in digital.bl.fcen.uba.ar. It should be used accompanied by the corresponding citation acknowledging the source. Cita tipo APA: Aptekmann, Ariel Alejandro. (2018-03-23). Análisis evolutivo de la interacción proteína-ADN. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Cita tipo Chicago: Aptekmann, Ariel Alejandro. "Análisis evolutivo de la interacción proteína-ADN". Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2018-03-23. Dirección: Biblioteca Central Dr. Luis F. Leloir, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires. Contacto: [email protected] Intendente Güiraldes 2160 - C1428EGA - Tel. (++54 +11) 4789-9293 Universidad de Buenos Aires Facultad de Ciencias Exactas y Naturales Departamento de Qu´ımica Biologica´ An´alisis evolutivo de la interacci´on prote´ına-ADN Tesis presentada para optar al t´ıtulode Doctor de la Universidad de Buenos Aires en el ´areaQu´ımica Biol´ogica Lic. Ariel Alejandro Aptekmann Director: Dr. Alejandro Daniel Nadra Consejero de estudios: Dr. Adri´anTurjanski Lugar de trabajo: IQUIBICEN-UBA-CONICET Buenos Aires, 2017 An´alisis evolutivo de la interacci´on prote´ına-ADN En la entidad funcional \interfaz prote´ına-ADN”,prote´ınay ADN se condicionan mutuamente en un proceso coevolutivo. El hecho de que m´ultiplesreconocedores moleculares tengan que coexistir en un mismo genoma y ejercer sus funciones sin interferir con las funciones de los otros, condiciona sus requisitos de especificidad y discriminaci´on.En t´erminosevolutivos, se observa adem´asque pares hom´ologos mantienen su funci´on en un espectro amplio de condiciones f´ısicoqu´ımicas.Se agre- ga a esto la dificultad de que una vez determinada una red regulatoria hay un efecto inercial, que dificulta el modificarla cuanto mas cantidad de partes interactuantes formen la misma. En este trabajo nos proponemos estudiar las condiciones, procesos y mecanismos que determinan las posibilidades de este fen´omeno.Esta tesis puede dividirse en siete etapas, cada una correspondiente con un cap´ıtulo.En el primer cap´ıtulocomenzamos por recopilar de forma sistem´aticainformaci´onsobre las con- diciones de vida de extrem´ofilos,principalmente Archaea. En el segundo cap´ıtulo, para aquellos organismos con un genoma secuenciado y anotado, calculamos la com- posici´onde distintas regiones del genoma, evidenciando que la aparente correlaci´on entre contenido de G+C y la temperatura ´optimade crecimiento se debe a un sesgo en los datos usados hist´oricamente. En el tercer cap´ıtuloestudiamos el contenido de informaci´onde los promotores en distintos genomas, evidenciando un desv´ıode lo esperable de acuerdo a la teor´ıamolecular de la informaci´on,proponiendo posibles explicaciones para esta desviaci´on.En el cuarto cap´ıtulose aplica un an´alisissimilar a la comparaci´onde promotores de genomas nuclear y mitocondrial en los cuales hay, de manera sostenida y en un mismo organismo, una diferencia de temperatura. En el quinto cap´ıtulo se identifican y caracterizan motivos funcionales a nivel de genoma, relacionados con la regulaci´onde un factor de transcripci´oninvolucrado en crecimiento radicular en plantas (RSL4). En el sexto cap´ıtulo,usando expresiones regulares como modelos de sitios de uni´on,estudiamos la coevoluci´onde motivos en el espacio de secuencia, mostrando c´omoel tama~nodel alfabeto tiene un efecto sobre el n´umerode posiciones discriminantes ´optimasy c´omolos sistemas naturales tienden a optimizarse influenciadas por este par´ametro. En resumen, mediante el an´alisisbibliogr´aficoy el uso de herramientas bioinform´aticasmodernas, estudia- mos el sistema \interacci´onprote´ına-ADN”,considerando restricciones biof´ısicasy evolutivas. Este an´alisisnos ha permitido reforzar hip´otesisprevias, as´ıcomo en- contrar resultados novedosos. Esta tesis ha requerido la aplicaci´onde teoremas y el i desarrollo de algoritmos, que son enunciados a modo de ap´endice. Palabras claves: ADN, Prote´ına,Contenido de informaci´on,Motivos, Expresiones Regulares, Extrem´ofilos, Archaea, Logos de secuencia. Evolutionary analysis of the protein-DNA interaction At the functional entity \Protein-DNA interface", Protein and DNA are mutually conditioned by a co evolutive process. Since multiple molecular recognicers coexist and remain functional on a same genome withouth interfering excesively between them, each recognizer is required to have especificity. They must also mantain their functions over a wide range of fisico-chemical conditions. As if those where not enough difficulties, once a regulatory network has been established, there is an iner- cial effect that restricts its capability to be modified (Since more parts interacting are required to be changed). In this work we propose to study the conditions,mechanisms and processes that are determinant to this fenomena. This thesis can be divided into seven stages, each corresponding to a chapter. In the first chapter we began by collec- ting systematically information on the living conditions of extremophiles, especially Archaea. In the second chapter, for those organisms with a genome sequenced and annotated, we calculated the composition of different regions of the genome, showing that the apparent correlation between G + C content and optimal growth tempera- ture is due to a bias in the data used historically. In the third chapter we study the information content of the promoters in different genomes, evidencing a deviation from what is expected according to the molecular theory of information, proposing possible explanations for this deviation. In the fourth chapter a similar analysis is applied to the comparison of promoters of nuclear and mitochondrial genomes in which there is, in a sustained manner and in the same organism, a temperature difference. The fifth chapter identifies and characterizes functional genome-related regulation of a transcription factor involved in root growth in plants (RSL4). In the sixth chapter, by using regular expressions as models of binding sites, we study the coevolution of motifs in sequence space, showing how the size of the alphabet has an effect on the number of optimal discriminant positions and how natural systems tend to be optimized by this parameter. In summary, through bibliographic analysis and the use of modern bioinformatics tools, we studied the "protein-DNA interac- tion"system, considering biophysical and evolutionary restrictions. This analysis has allowed us to reinforce previous hypotheses, as well as find novel results. This thesis has required the application of theorems and the development of algorithms, which are enunciated as an appendix. Keywords: DNA, Protein, Information content, Motiffs, Regular Expressions, Ex- iii tremophiles, Archaea, Sequence Logo. Agradecimientos Es improbable, por no decir imposible, poder mencionar en tan reducido espacio a toda las personas que de una manera u otra hicieron posible este trabajo. Tendr´ıaque incluir a todas las personas que participaron en mi formaci´onacad´emica,profesional y humana. La lista ser´ıainterminable y pido disculpas si me hubiese olvidado de alguien. Habiendo aclarado esto, quisiera agradecer: A mi director, el Dr. Alejandro Nadra, por haberme dado lugar en su grupo de trabajo. Gracias por la infinita paciencia, por ayudarme a desarrollar las ideas interesantes y por ense~narmeque hacer ciencia es una actividad humana, una forma de arte, que se puede hacer cooperando, que cobra mas valor cuando esta inspirada por las vidas y dificultades de muchos, mas que las propias. Al Dr. Diego Ferreiro, por las excelentes conversaciones inspiradoras de los \Se- minarios sangrientos". Al Dr. Ignacio E. S´anchez, por las discusiones enriquecedoras, por el tiempo y la atenci´on,que tan generosamente dedico ayud´andomea darle forma a esta Tesis. Al Dr. Javier Santos por la lectura critica y al Lic. Marcelo Aptekmann por la correcci´onde estilo del manuscrito original publicado del trabajo que se presenta en los cap´ıtulo2 y 3. A Juliana Glavina, Roc´ıoEspada, Brenda Guzovsky, Ezequiel Galpern, que me acompa~naron,ayudaron y aguantaron muchas veces. A mi familia, abuelos, mam´a,pap´a,hermana, Carmen, gracias por respetar mis elecciones, por estar y por alentarme a seguir adelante. A Natalia Rigazio, mi compa~nera,por compartir la vida, por la paciencia, por el apoyo. A mis amigos, yo soy porque somos, y por eso, gracias. Por ultimo no me quiero olvidar de agradecer por su apoyo en este trabajo a la Agencia Nacional de Promoci´onCient´ıficay Tecnol´ogica [PICT PRH 2009-105, PICT 2013-1417] y al Consejo Nacional de Investigaciones Cient´ıficasy T´ecnicas (CONICET) por financiar este trabajo de doctorado. Por extensi´on,agradezco a los Argentinos, a nuestra historia de educaci´onpublica de excelencia, sin la cual esta tesis no hubiera sido posible. A mis viejos, Silvia y Marcelo. v Abreviaturas ej. - Ejemplo e.g. - En general pb - Pares de bases OGT - Optimal Growth Temperature (temperatura ´optimade crecimiento) ORF - Open Reading Frame (marco abierto de lectura) IC - Information Content (contenido de informaci´on) ADN - Acido´ desoxirribonucleico ARN - Acido´ ribonucleico rARN - ARN ribosomal tRNA - ARN de transferencia TBP - TATA binding protein (prote´ınaunidora de sitios TATA) TBS - TBP binding site (sitio de uni´onde TBP, en general, sitio TATA) REGEX - Expresi´onregular. PWM - Positional weight matrix ARF - Auxin response factor (factor de respuesta a auxinas) ROS - Reactive oxigen species (especie reactiva de ox´ıgeno) vii ´Indice general Agradecimientos V Abreviaturas VII 1. Introducci´ongeneral 1 1.1. Objetivos e hip´otesis.. .4 1.2. Antecedentes . .6 1.3. Resumen de los cap´ıtulos. .9 2. Construcci´onde la base de datos 11 2.1. Introducci´on. 11 2.2.