Diaezdbioinfo.Pdf
Total Page:16
File Type:pdf, Size:1020Kb
TESIS DOCTORAL DISEÑO Y DESARROLLO DE UNA PLATAFORMA BIOINFORMÁTICA PARA LA INTEGRACIÓN, GESTIÓN Y VISUALIZACIÓN DE REDES DE INTERACCIÓN DE PROTEÍNAS E INTERACTOMAS DIEGO ALONSO LÓPEZ DIRECTORES DR. JAVIER DE LAS RIVAS SANZ DR. RODRIGO SANTAMARÍA VICENTE SALAMANCA, MARZO DE 2017 El Dr. Javier De Las Rivas Sanz, con D.N.I. 15949000H, Investigador Científico del Consejo Superior de Investigaciones Científicas (CSIC), director del grupo de Bioinformática y Genómica Funcional en el Instituto de Biología Molecular y Celular del Cáncer (CiC‐IBMCC), y profesor del Programa de Doctorado y del Máster de Biología y Clínica del Cáncer de dicho Instituto y la Universidad de Salamanca (USAL). Y el Dr. Rodrigo Santamaría Vicente, con D.N.I. 70879303L, Profesor Titular del Departamento de Informática y Automática de la Universidad de Salamanca (USAL), miembro del grupo de investigación VisUsal (Visualización de información y analítica visual) de dicha universidad y del grupo de investigación en Dinámica del Genoma y Epigenética del Instituto de Biología Funcional y Genómica (CSIC‐USAL). CERTIFICAN que han dirigido esta Tesis Doctoral titulada "DISEÑO Y DESARROLLO DE UNA PLATAFORMA BIOINFORMÁTICA PARA LA INTEGRACIÓN, GESTIÓN Y VISUALIZACIÓN DE REDES DE INTERACCIÓN DE PROTEÍNAS E INTERACTOMAS” realizada por D. Diego Alonso López, alumno del programa de doctorado de Ingeniería Informática de la Universidad de Salamanca. Y AUTORIZAN la presentación de la misma, considerando que reúne las condiciones de originalidad y contenidos requeridos para optar al grado de Doctor por la Universidad de Salamanca. En Salamanca, a 17 de marzo de 2017 Dr. Javier De Las Rivas Sanz Dr. Rodrigo Santamaría Vicente AGRADECIMIENTOS A mis directores de tesis, Javier De Las Rivas y Rodrigo Santamaría, gracias por darme la oportunidad de realizar este trabajo y facilitarme el camino con vuestros consejos y ayuda. Gracias, Javier, por ayudarme a crecer personal y profesionalmente. A Henning Hermjakob y Sandra Orchard, por darme la oportunidad de visitar su grupo en el European Bioinformatics Institute (EMBL‐EBI) y de colaborar con ellos a través de la organización HUPO PSI‐MI. A Marine Dumousseau, por ser mi anfitriona en Cambridge y descubrirme los entresijos de JAMI. A los miembros del grupo de Bioinformática y Genómica Funcional en el Instituto de Biología Molecular y Celular del Cáncer (CIC‐IBMCC), por compartir sus conocimientos conmigo contribuyendo a mi formación en el campo de la Bioinformática y la Biología Computacional. A todos los investigadores del CIC‐IBMCC con los que he trabajado en distintos proyectos que me han enriquecido profesional y científicamente. A Miguel Ángel, por su inestimable ayuda en el desarrollo de la aplicación y por su valiosa amistad. A Sofía y Jorge TABLA DE CONTENIDO 1 INTRODUCCIÓN Y ESTADO DEL ARTE .............................................................. 15 1.1 Interacciones proteína‐proteína ................................................................................. 17 1.2 Métodos experimentales de detección de interacciones proteína‐proteína ................ 18 1.2.1 Métodos computacionales de predicción de interacciones proteína‐proteína ........ 21 1.3 Representación de datos y estándares ........................................................................ 21 1.3.1 Formatos de intercambio de datos ........................................................................... 22 1.3.2 Ontologías y vocabularios controlados ..................................................................... 23 1.3.3 PSICQUIC ................................................................................................................... 24 1.3.4 Framework JAMI ....................................................................................................... 25 1.4 Bases de datos de referencia sobre proteínas ............................................................. 26 1.5 Bases de datos de interacciones de proteínas ............................................................. 28 1.5.1 Bases de datos primarias ........................................................................................... 28 1.5.2 Meta‐bases de datos ................................................................................................. 30 1.5.2.1 Mentha .................................................................................................................. 30 1.5.2.2 iRefWeb ................................................................................................................. 31 1.5.2.3 Hint ........................................................................................................................ 32 1.5.2.4 STRING ................................................................................................................... 33 1.5.2.5 GeneMania ............................................................................................................ 33 1.5.2.6 Otros proyectos ..................................................................................................... 34 1.6 Bases de datos de estructuras 3D de proteínas ........................................................... 35 1.7 Bases de datos de anotación ...................................................................................... 36 1.7.1 Ontologías funcionales .............................................................................................. 37 1.7.2 Vías metabólicas y de señalización ........................................................................... 38 1.7.3 Familias y dominios proteicos ................................................................................... 38 1.8 Redes Biomoleculares ................................................................................................ 39 1.8.1 Redes de interacción de proteínas ............................................................................ 41 2 HIPÓTESIS Y OBJETIVOS ............................................................................. 43 2.1 Problema marco e hipótesis ....................................................................................... 43 2.2 Objetivos Principales .................................................................................................. 44 2.3 Solución Propuesta ..................................................................................................... 45 3 MATERIALES Y MÉTODOS ........................................................................... 47 3.1 Obtención de interacciones registradas en las bases de datos primarias ..................... 47 3.1.1 IntAct ......................................................................................................................... 47 3.1.2 MINT .......................................................................................................................... 48 3.1.3 HPRD .......................................................................................................................... 48 3.1.4 BioGRID ..................................................................................................................... 49 3.1.5 BioPlex ....................................................................................................................... 49 3.2 Obtención de datos de referencia sobre proteínas...................................................... 49 3.3 Obtención de datos de estructura 3D de proteínas ..................................................... 50 3.4 Obtención de datos de ontologías .............................................................................. 50 3.4.1 Taxonomía de especies ............................................................................................. 51 3.4.2 Métodos de detección de interacciones de proteínas .............................................. 51 3.5 Obtención de proteomas ............................................................................................ 51 3.6 Algoritmo de integración de interacciones .................................................................. 52 3.7 Arquitectura de la plataforma web APID Interactomes ............................................... 52 3.8 Implementación en el servidor ................................................................................... 53 3.8.1 Mapeo objeto‐relacional (ORM) ............................................................................... 53 3.8.2 Sistema gestor de bases de datos ............................................................................. 54 3.9 Implementación en el cliente ..................................................................................... 54 3.9.1 Visualizador de redes ................................................................................................ 55 3.10 Análisis de interactomas ............................................................................................. 55 4 RESULTADOS .......................................................................................... 57 4.1 Protocolos para la integración de datos sobre interacciones moleculares físicas entre proteínas ............................................................................................................................... 57 4.1.1 Procesamiento de datos primarios ........................................................................... 59 4.1.2 Registro de ontologías ............................................................................................... 60 4.1.3 Sistema para la validación de