Modelado computacional de redes multinivel para la identificaci´ondel conjunto de factores, procesos y asociaciones moleculares comunes en diferentes redes biol´ogicas

Juan David Henao S´anchez

Universidad Nacional de Colombia Facultad de Ingenier´ıa,Departamento de Ingenier´ıade Sistemas e Industrial Bogot´a,Colombia 2017

Modelado computacional de redes multinivel para la identificaci´ondel conjunto de factores, procesos y asociaciones moleculares comunes en diferentes redes biol´ogicas

Juan David Henao S´anchez

Tesis presentada como requisito parcial para optar al t´ıtulode: Magister en Bioinform´atica

Director: Ph.D. Andr´esMauricio Pinz´onVelasco

L´ıneade Investigaci´on: Biolog´ıade Sistemas - Redes Biol´ogicas Grupo de Investigaci´on: Bioinform´aticay Biolog´ıade Sistemas Computacional

Universidad Nacional de Colombia Facultad de Ingenier´ıa,Departamento de Ingenier´ıade Sistemas e Industrial Bogot´a,Colombia 2017

Tu teor´ıasolo es una locura si no es lo suficien- temente loca para ser una verdad.

Niels Bohr

Agradecimientos

Al profesor Andr´esMauricio Pinz´onVelasco por todo su apoyo durante el desarrollo de este proyecto y por todas las oportunidades brindadas.

A la profesora Liliana L´opez Kleine por asesorar este trabajo y por su gran inter´espor el desarrollo del mismo.

A Alejandro Reyes de la Universidad de los Andes por permitirme hacer uso del cl´uster de HPC para el desarrollo de las normalizaciones.

A todos los miembros del grupo de investigaci´onen Bioinform´aticay Biolog´ıade sis- temas por ser un apoyo constante y por brindarme su amistad.

A mis compa˜nerosde la maestr´ıaen Bioinform´aticapor todas las gratas experiencias alrededor de este proceso.

A mi familia, a quienes les debo todo y jam´asencontrar´epalabras para describir mi admiraci´ony todo el amor que les profeso.

A mis amigos, en quienes siempre puedo encontrar una voz de apoyo.

A todos quienes estuvieron involucrados con el desarrollo de ese proyecto en su mo- mento, mi m´assincera gratitud.

ix Resumen

La biolog´ıa de redes ha permitido el estudio de complejas relaciones moleculares dentro de una c´elulapor medio de datos obtenidos a partir de t´ecnicasde alto rendimiento, con ello algunas hip´otesisacerca del proceso biol´ogicosubyacente acerca del origen y/o desarrollo de fenotipos espec´ıficoshan sido generados. Por otro lado, el enfoque cl´asicopara generar hip´otesisque relacionan dos o m´asfenotipos ha sido llevado a cabo por medio de la identifica- ci´onde elementos moleculares comunes tales como entre fenotipos. Recientemente, los enfoques basados en teor´ıade redes han permitido ir m´asall´adel paradigma de los elementos compartidos hacia los procesos biol´ogicoscomunes entre fenotipos. Estas metodolog´ıasest´an basadas en la detecci´ony comparaci´onde m´odulosde red. En la mayor´ıade los casos, este enfoque ignora la informaci´onalmacenada en la totalidad de la red o informaci´onmulti-´omi- ca es unida para crear una ´unicared la cual puede generar ruido de fondo en los resultados finales. Por lo tanto, un nuevo m´etodo denominado Patrones de Conectividad Com´un(CCP por sus siglas en ingl´es)es propuesto en este trabajo. Este m´etodo permite la identificaci´on de patrones comunes de conexi´onentre fenotipos a partir de informaci´onmolecular espec´ıfica (co-expresi´on,interacci´onprote´ına-prote´ına,regulaci´on,entre otros) obteniendo para cada uno de ellos las subredes donde cada una de ellas es considerada como un CCP. Para evaluar el poder predictivo de este nuevo enfoque, cuatro des´ordenesneurol´ogicosfueron compa- rados: Enfermedad de Alzheimer (AD), enfermedad de Parkinson (PD), esclerosis m´ultiple (MS) y esquizofrenia (SZ) bajo las capas de abstracci´onmolecular correspondientes a co- expresi´one interacci´onprote´ına-prote´ına.

En la capa de co-expresi´on,este m´etodo fue capaz de establecer la existencia de cuatro CCPs entre AD y PD, un CCP entre AD y MS, dos CCPs entre AD y SZ, tres CCPs entre PD y MS, 11 CCPs entre PD y SZ, tres CCPs entre MS y SZ y un CCP entre PD, MS y SZ. En la capa de interacci´onprote´ına-prote´ına,este m´etodo identific´oseis CCPs entre AD y PD, dos CCPs entre AD y MS, dos CCPs entre AZ y SZ, 12 CCPs entre PD y MS, 13 CCPs entre PD y SZ, 11 CCPs entre MS y SZ, un CCP entre AD, PD y MS, un CCP entre AD, PD y SZ y cuatro CCPs entre PD, MS y SZ. Adicionalmente, elementos solitarios fueron identificados en la intersecci´onde redes entre diferentes comparaciones obteniendo 17 diferentes elemen- tos compartidos en al menos tres enfermedades en co-expresi´ony 18 diferentes elementos compartidos en al menos tres enfermedades en interacci´onprote´ına-prote´ına.Igualmente, elementos solitarios fueron identificados en las cuatro enfermedades, cuatro en la capa de co-expresi´ony tres en la capa de interacci´onprote´ına-prote´ına.Adem´as,an´alisisde enrique- cimiento para la base de datos KEGG mostr´oque, por ejemplo, un CCP entre MS y SZ en la capa de co-expresi´onest´arelacionada para la ruta de se˜nalizaci´onde calcio. Adicionalmente, a trav´esde una b´usquedaexhaustiva en la literatura, los elementos SYT13 y NRXN1 fueron asociados con este resultado. El m´etodo de Patrones de Conectividad Com´unha demostra- do ser ideal para la identificaci´onde posibles procesos biol´ogicoscomunes entre fenotipos a x trav´esde un enfoque de biolog´ıade redes. Los CCPs tambi´enpermiten discernir entre capas de abstracci´onmolecular para generar hip´otesism´asexactas y permitir la adici´onde nuevas capas que ayuden en la interpretaci´onde m´ultiples fenotipos sin la necesidad de cambiar los resultados previamente obtenidos.

Palabras clave: Patrones de conectividad com´un,capas de abstracci´onmolecular, co- expresi´on,interacci´onprote´ına-prote´ına,biolog´ıade redes, des´ordenesneuronales. Abstract

Network biology has allowed the study of complex molecular relationships existing in a cell, by means of data obtained from high-throughput techniques, with that, some hypothesis about underlying biological processes about the origin and/or development of specific phe- notypes have been generated. On the other hand, the typical approach in order to generate molecular hypothesis relating two or more phenotypes has been carried out by identifying common molecular elements, such as genes, between phenotypes. Recently, the methodolo- gies based on network theory allow us to go beyond the shared component paradigm to the shared biological process between phenotypes. These methodologies are based on the detec- tion and comparison of network modules. In most cases, this approach ignores the stored information in the totality of network or multi-omic information is joined to create a unique network which can generate background noise in the final results. Hereby, a new method called Common Connection Pattern (CCP) is released which permits the identification of common connectivity patterns between phenotypes from a specific molecular information (co-expression, -protein interaction, regulation, among others) obtaining, for each of them, the sub-networks, being considered each of them as a CCP. In order to assess the predictability of the CCP approach, four neuronal disorders were compared: Alzheimer’s disease (AD), Parkinson’s disease (PD), multiple sclerosis (MS) and schizophrenia (SZ) sen at the molecular abstraction layers of co-expression and protein-protein interaction.

In the co-expression layer, this method was able to establish the existence of four CCPs between AD and PD, one CCP between AD and MS, two CCPs between AD and SZ, three CCPs between PD and MS, 11 CCPs between PD and SZ, three CCPs between MS and SZ and one CCP between PD, MS and SZ. In the protein-protein interaction layer, this met- hod identified six CCPs between AD and PD, two CCPs between AD and MS, two CCPs between AZ and SZ, 12 CCPs between PD and MS, 13 CCPs between PD and SZ, 11 CCPs between MS and SZ, one CCP between AD, PD and MS, one CCP between AD, PD and SZ and four CCPs between PD, MS and SZ. Additionally, solitary elements were identified in the intersection networks between the different comparisons getting 17 different shared components in at least three diseases in co-expresi´onand 18 different shared elements in at least three diseases in protein-protein interaction. Likewise, solitary elements were identified xi in the four diseases, four in the co-expression layer and three in the protein-protein inter- action layer. Moreover, enrichment analysis for KEGG database showed that, for example, one CCP between MS and SZ in the co-expression layer is related to the signal calcium pathway. Additionally, through an exhaustive search in the literature, the elements SYT13 and NRXN1 were related with this result. The Common Connection Pattern method has shown to be ideal for the identification of possible common biological processes between phenotypes through a network biology approach. CCP also allows to discern between mo- lecular abstraction layers to generate more accurate hypothesis and permits the addition of new biological layers that can aid into the interpretation of phenotypes without changing previously obtained results.

Keywords: Common connection patterns, molecular abstraction layers, co-expression, protein-protein interaction, network biology, neuronal disorders.

Contenido

Agradecimientos VII

Resumen IX

Lista de figuras XV

Lista de tablas XIX

1. Antecedentes 2 1.1. Biolog´ıade Sistemas ...... 2 1.1.1. Biolog´ıade redes ...... 5 1.1.2. Principales tipos de redes biol´ogicas...... 11 1.1.3. Comparaci´onde redes biol´ogicas...... 24 1.2. An´alisisde Fenotipos Usando Biolog´ıade Redes ...... 29 1.3. Enfermedades Neurodegenerativas ...... 33 1.3.1. An´alisisclasicos en enfermedades neurodegenerativas ...... 34 1.3.2. Medicina de redes ...... 38

2. Objetivos 43 2.1. General ...... 43 2.2. Espec´ıficos...... 43

3. Materiales y m´etodos 44 3.1. Paquete en Bioconductor ...... 44 3.2. Selecci´onde fenotipos de inter´es...... 45 3.3. Normalizaci´ony coeficiente de variaci´on ...... 46 3.4. An´alisisde expresi´ondiferencial de genes ...... 47 3.5. Reconstrucci´onde redes biol´ogicas...... 48 3.5.1. Redes de co-expresi´on ...... 48 3.5.2. Redes de interacci´onprote´ına-prote´ına ...... 50 3.6. Patrones de conectividad com´un...... 50 3.7. Componentes compartidos ...... 51 3.8. Validaci´on ...... 52 3.8.1. Comparaci´onde m´etodos para an´alisisde expresi´ondiferencial . . . . 52 3.8.2. Validaci´ontopol´ogica...... 52 xiv Contenido

3.8.3. Validaci´onbiol´ogica...... 53

4. Resultados 55 4.1. Perfiles de expresi´on ...... 55 4.2. Normalizaci´ony coeficientes de variaci´on ...... 56 4.3. An´alisisde expresi´ondiferencial ...... 59 4.4. Reconstrucci´onde redes biol´ogicas...... 60 4.4.1. Redes de co-expresi´on ...... 60 4.4.2. Redes de interacci´onprote´ına-prote´ına ...... 61 4.5. Patrones de conectividad com´un...... 63 4.5.1. Co-expresi´on ...... 63 4.5.2. Interacci´onprote´ına-prote´ına ...... 66 4.6. Elementos compartidos ...... 69 4.7. Validaci´on ...... 72 4.7.1. Comparaci´onde m´etodos para la identificaci´onde genes diferencial- mente expresados ...... 72 4.7.2. Validaci´ontopol´ogica...... 73 4.7.3. Validaci´onbiol´ogica...... 75

5. Discusi´on 95 5.1. Metodolog´ıapara determinar el valor umbral en co-expresi´on...... 95 5.2. Validaci´ontopol´ogica...... 96 5.3. Patrones de conectividad com´unen co-expresi´on...... 97 5.4. Patrones de conectividad com´unen interacci´onprote´ına-prote´ına...... 101 5.5. Elementos compartidos ...... 105

6. Conclusiones y recomendaciones 108 6.1. Conclusiones ...... 108 6.2. Recomendaciones ...... 109

A. coexnet: An R package to build CO-EXpression NETworks from Microarray Data111

B. Obtenci´onde perfiles de expresi´on 128

C. An´alisisde expresi´ondiferencial usando el m´etodo ACDE 135

D. Valores umbral calculados en las redes de co-expresi´on 138

E. Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´onmolecular correspondiente a co-expresi´on 142 Contenido xv

F. Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına-prote´ına 151

G. Detalle de los elementos compartidos en ambas capas de abstracci´onmolecular161

H. An´alisisde expresi´ondiferencial usando el m´etodo SAM 165

I. Elementos pertenecientes a los CCPs vinculados con una de las enfermedades asociadas por una referencia en la literatura en co-expresi´on 168

J. Aristas plenamente identificadas en la capa de abstracci´onmolecular correspon- diente a interacci´onprote´ına-prote´ına. 172

K. Elementos pertenecientes a los CCPs vinculados con una de las enfermedades asociadas por una referencia en la literatura en interacci´onprote´ına-prote´ına 178

L. Elementos compartidos vinculados con una de las enfermedades asociadas por una referencia en la literatura en ambas capas de abstracci´onmolecular 183

Bibliograf´ıa 187 Lista de Figuras

1.1. Principales caracter´ısticasde una red. a) Ejemplo de una red compuesta por 5 v´ertices(verde) y 6 enlaces (azul). b) Ejemplo de reacciones metab´olicas compuesta por las tres primeras reacciones en la glucolisis. c) Representaci´on de las reacciones en forma de una red siendo los sustratos los v´erticesenlazados de acuerdo al orden en que son transformados de uno en otro. En muchos casos es ´utilignorar los co-factores en redes de este tipo dado que los an´alisissolo se centran en los sustratos...... 6 1.2. Tipo de red seg´unla naturaleza de sus enlaces y ejemplo del valor de grado para cada una. a) Red dirigida, el v´erticeen rojo posee dos arcos de entrada (azul) y uno de salida (naranja). b) Red no dirigida, el v´erticeen rojo posee tres aristas (verde)...... 8 1.3. M´odulosy motivos a) ejemplo de un m´odulode red (en rojo) compuesto de siete v´erticesdensamente interconectados entre ellos b) ejemplo de motivo de red, note como el bloque constituido por tres nodos (rojo) es significativamente m´asrepresentativo que el bloque compuesto por cuatro v´ertices(verde). . . .9

4.1. Boxplot de los coeficientes de variaci´onpara cada perfil de expresi´onasociado a la enfermedad de Alzheimer. Los perfiles descartados est´anencerrados en rojo y se destaca su nivel de variaci´on...... 57 4.2. Boxplot de los coeficientes de variaci´onpara cada perfil de expresi´onasociado a la enfermedad de Parkinson. Los perfiles descartados est´anencerrados en rojo y se destaca su nivel de variaci´on...... 57 4.3. Boxplot de los coeficientes de variaci´onpara cada perfil de expresi´onasociado a esclerosis m´ultiple.Los perfiles descartados est´anencerrados en rojo y se destaca su nivel de variaci´on...... 58 4.4. Boxplot de los coeficientes de variaci´onpara cada perfil de expresi´onasociado a esquizofrenia...... 58 4.5. Redes de co-expresi´on.a) Enfermedad de Alzheimer. b) Enfermedad de Par- kinson. c) Esclerosis m´ultiple.d) Esquizofrenia...... 61 4.6. Redes de interacci´onprote´ına-prote´ına.a) Enfermedad de Alzheimer. b) En- fermedad de Parkinson. c) Esclerosis m´ultiple. d) Esquizofrenia...... 62 Lista de Figuras xvii

4.7. Patrones de conectividad com´unentre redes de co-expresi´on.a) CCP entre enfermedad de Alzheimer y esclerosis m´ultiple.b) CCPs entre enfermedad de Parkinson y esclerosis m´ultiple.c) CCPs entre esclerosis m´ultipley esquizo- frenia. Los CCPs est´anseparados por colores diferentes...... 64 4.8. Patrones de conectividad com´unentre redes de co-expresi´on.a) CCPs entre enfermedad de Alzheimer y enfermedad de Parkinson. b) CCPs entre enfer- medad de Alzheimer y esquizofrenia. c) CCPs entre enfermedad de Parkinson y esquizofrenia. Los CCPs est´anseparados por colores diferentes...... 65 4.9. CCP identificado entre la enfermedad de Parkinson, esclerosis m´ultipley es- quizofrenia dentro de la capa de abstracci´onmolecular correspondiente a co- expresi´on...... 65 4.10. Patrones de conectividad com´unentre redes de interacci´onprote´ına-prote´ına. a) CCPs entre enfermedad de Alzheimer y esclerosis m´ultiple.b) CCPs entre esclerosis m´ultipley esquizofrenia. c) CCPs entre enfermedad de Parkinson y esclerosis m´ultiple.Los CCPs est´anseparados por colores diferentes...... 67 4.11. Patrones de conectividad com´unentre redes de interacci´onprote´ına-prote´ına. a) CCPs entre enfermedad de Alzheimer y enfermedad de Parkinson. b) CCPs entre enfermedad de Alzheimer y esquizofrenia. c) CCPs entre enfermedad de Parkinson y esquizofrenia. Los CCPs est´anseparados por colores diferentes. . 68 4.12. Patrones de conectividad com´unentre redes de interacci´onprote´ına-prote´ına. a) CCP entre enfermedad de Alzheimer, enfermedad de Parkinson y esclerosis m´ultiple.b) CCP entre enfermedad de Alzheimer, enfermedad de Parkinson y esquizofrenia. c) CCPs entre la enfermedad de Parkinson, esclerosis m´ultiple y esquizofrenia. Los CCPs est´anseparados por colores diferentes...... 69 4.13. Elementos compartidos en al menos tres enfermedades. a) capa de co-expresi´on. b) capa de interacci´onprote´ına-prote´ına.Azul: Elementos compartidos. Rojo: Enfermedades: AD: Enfermedad de Alzheimer, PD: Enfermedad de Parkinson, MS: esclerosis m´ultiple,SZ: esquizofrenia...... 71 4.14. Elementos compartidos en las cuatro enfermedades. a) capa de co-expresi´on. b) capa de interacci´onprote´ına-prote´ına.Azul: Elementos compartidos. Rojo: Enfermedades: AD: Enfermedad de Alzheimer, PD: Enfermedad de Parkinson, MS: esclerosis m´ultiple,SZ: esquizofrenia...... 71

D.1. Valor umbral obtenido para reconstruir la red de co-expresi´onen la enferme- dad de Alzheimer...... 138 D.2. Valor umbral obtenido para reconstruir la red de co-expresi´onen la enferme- dad de Parkinson...... 139 D.3. Valor umbral obtenido para reconstruir la red de co-expresi´onen esclerosis m´ultiple...... 140 D.4. Valor umbral obtenido para reconstruir la red de co-expresi´onen esquizofrenia.141

Lista de Tablas

3.1. Nombre y prop´ositode las 11 funciones del paquete coexnet...... 44

4.1. Identificadores de los perfiles de expresi´onutilizados en los an´alisis posteriores para cada enfermedad...... 56 4.2. Resultados del an´alisisde expresi´ondiferencial de genes para todos los perfiles de expresi´on...... 60 4.3. Elementos compartidos para todas las posibles comparaciones entre enferme- dades en ambas capas de abstracci´onmolecular...... 70 4.4. Resultados del an´alisisde expresi´ondiferencial utilizando el m´etodo SAM. . 72 4.5. Valores de Z-score para el coeficiente de agrupamiento con p-valor < 0.05 y valores de correlaci´onen relaci´onal ajuste de la distribuci´onde grado para ley de potencias en ambas capas de abstracci´onmolecular...... 74 4.6. Valores de Z-score para el n´umerode aristas con p-valor < 0.05 y valores de bootstrapping para cada uno de los CCPs obtenidos a partir de las compara- ciones realizadas en ambas capas de abstracci´onmolecular...... 75 4.7. Rutas en KEGG identificadas en la capa de abstracci´onmolecular correspon- diente a co-expresi´onpor medio del an´alisisde enriquecimiento...... 76 4.8. Procesos biol´ogicosmapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 en la capa de abstracci´onmolecular correspondiente a co-expresi´on...... 76 4.9. Componentes celulares mapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 en la capa de abstracci´onmolecular correspondiente a co-expresi´on...... 77 4.10. Funciones moleculares mapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 en la capa de abstracci´onmolecular correspondiente a co-expresi´on...... 78 4.11. Miembros de los CCPs asociados con al menos una de las enfermedades de origen por al menos una referencia en la literatura en la capa de abstracci´on molecular correspondiente a co-expresi´on...... 79 4.12. Aristas cuyo estudio experimental fue debidamente rastreado desde la base de datos STRING en la capa de abstracci´onmolecular correspondiente a inter- acci´onprote´ına-prote´ına...... 81 xx Lista de Tablas

4.13. Ruta en KEGG identificada en la capa de abstracci´onmolecular correspon- diente a interacci´onprote´ına-prote´ına por medio del an´alisisde enriquecimiento. 83 4.14. Procesos biol´ogicosmapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 y soportados por valores de Z-score en la capa de abstrac- ci´onmolecular correspondiente a interacci´onprote´ına-prote´ına...... 84 4.15. Componentes celulares mapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 y soportados por valores de Z-score en la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına-prote´ına.. . . . 88 4.16. Funciones moleculares mapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 y soportados por valores de Z-score en la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına-prote´ına.. . . . 89 4.17. Miembros de los CCPs asociados con al menos una de las enfermedades de origen por al menos una referencia en la literatura en la capa de abstracci´on molecular correspondiente a interacci´onprote´ına-prote´ına...... 91 4.18. Miembros de los elementos compartidos asociados con al menos una de las enfermedades de origen por al menos una referencia en la literatura en la capa de abstracci´onmolecular correspondiente a co-expresi´on...... 93 4.19. Miembros de los elementos compartidos asociados con al menos una de las enfermedades de origen por al menos una referencia en la literatura en la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına-prote´ına. . . 94

B.1. Conteo de chips ...... 128 B.2. Informaci´onde cada perfil de expresi´onen enfermedad de Alzheimer. . . . . 129 B.3. Informaci´onde cada perfil de expresi´onen enfermedad de Parkinson. . . . . 131 B.4. Informaci´onde cada perfil de expresi´onen esclerosis m´ultiple...... 132 B.5. Informaci´onde cada perfil de expresi´onen esquizofrenia...... 134

C.1. Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de Alzheimer...... 135 C.2. Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de Parkinson...... 135 C.3. Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de esclerosis m´ultiple...... 136 C.4. Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de esquizofrenia...... 137

E.1. V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Alzheimer y la enfermedad de Parkinson en co-expresi´on.142 E.2. Aristas pertenecientes a cada patr´onde conectividad com´unidentificados en- tre la enfermedad de Alzheimer y la enfermedad de Parkinson en co-expresi´on. 142 Lista de Tablas xxi

E.3. V´erticespertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Alzheimer y esclerosis m´ultipleen co-expresi´on...... 143 E.4. Aristas pertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Alzheimer y esclerosis m´ultipleen co-expresi´on...... 143 E.5. V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Alzheimer y esquizofrenia en co-expresi´on...... 143 E.6. Aristas pertenecientes a cada patr´onde conectividad com´unidentificados en- tre la enfermedad de Alzheimer y esquizofrenia en co-expresi´on...... 144 E.7. V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Parkinson y esclerosis m´ultipleen co-expresi´on. . . . 144 E.8. Aristas pertenecientes a cada patr´onde conectividad com´unidentificados en- tre la enfermedad de Parkinson y esclerosis m´ultipleen co-expresi´on. . . . . 144 E.9. V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Parkinson y esquizofrenia en co-expresi´on...... 145 E.10.Aristas pertenecientes a cada patr´onde conectividad com´unidentificados en- tre la enfermedad de Parkinson y esquizofrenia en co-expresi´on...... 146 E.11.V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre esclerosis m´ultipley esquizofrenia en co-expresi´on...... 148 E.12.Aristas pertenecientes a cada patr´onde conectividad com´unidentificados en- tre esclerosis m´ultipley esquizofrenia en co-expresi´on...... 148 E.13.V´erticespertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en co-expresi´on. 150 E.14.Aristas pertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en co-expresi´on. 150

F.1. V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Alzheimer y la enfermedad de Parkinson en interacci´on prote´ına-prote´ına ...... 151 F.2. Aristas pertenecientes a cada patr´onde conectividad com´unidentificados en- tre la enfermedad de Alzheimer y la enfermedad de Parkinson en interacci´on prote´ına-prote´ına ...... 152 F.3. V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Alzheimer y esclerosis m´ultipleen interacci´onprote´ına- prote´ına ...... 152 F.4. Aristas pertenecientes a cada patr´onde conectividad com´unidentificados en- tre la enfermedad de Alzheimer y esclerosis m´ultipleen interacci´onprote´ına- prote´ına ...... 152 F.5. V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Alzheimer y esquizofrenia en interacci´onprote´ına- prote´ına ...... 153 xxii Lista de Tablas

F.6. Aristas pertenecientes a cada patr´onde conectividad com´unidentificados en- tre la enfermedad de Alzheimer y esquizofrenia en interacci´onprote´ına-prote´ına153 F.7. V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına- prote´ına ...... 154 F.8. Aristas pertenecientes a cada patr´onde conectividad com´unidentificados en- tre la enfermedad de Parkinson y esclerosis m´ultipleen interacci´on prote´ına- prote´ına ...... 154 F.9. V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Parkinson y esquizofrenia en interacci´onprote´ına- prote´ına ...... 155 F.10.Aristas pertenecientes a cada patr´onde conectividad com´unidentificados en- tre la enfermedad de Parkinson y esquizofrenia en interacci´onprote´ına-prote´ına156 F.11.V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına. . . 157 F.12.Aristas pertenecientes a cada patr´onde conectividad com´unidentificados en- tre esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına . . . . 158 F.13.V´erticespertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Alzheimer, enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına-prote´ına...... 158 F.14.Arista perteneciente al patr´onde conectividad com´unidentificado entre la enfermedad de Alzheimer, enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına-prote´ına...... 159 F.15.V´erticespertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Alzheimer, enfermedad de Parkinson y esquizofrenia en inter- acci´onprote´ına-prote´ına ...... 159 F.16.Aristas pertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Alzheimer, enfermedad de Parkinson y esquizofrenia en inter- acci´onprote´ına-prote´ına ...... 159 F.17.V´erticespertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en interacci´on prote´ına-prote´ına ...... 160 F.18.Aristas pertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en interacci´on prote´ına-prote´ına ...... 160

H.1. Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de Alzheimer...... 165 H.2. Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de Parkinson...... 165 Lista de Tablas xxiii

H.3. Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en esclerosis m´ultiple...... 166 H.4. Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en esquizofrenia...... 167

I.1. Detalle de los elementos vinculados entre enfermedad de Alzheimer y enfer- medad de Parkinson en co-expresi´on...... 168 I.2. Detalle de los elementos vinculados entre enfermedad de Alzheimer y esclerosis m´ultipleen co-expresi´on...... 168 I.3. Detalle de los elementos vinculados entre enfermedad de Alzheimer y esqui- zofrenia en co-expresi´on...... 169 I.4. Detalle de los elementos vinculados entre enfermedad de Parkinson y esclerosis m´ultipleen co-expresi´on...... 169 I.5. Detalle de los elementos vinculados entre enfermedad de Parkinson y esqui- zofrenia en co-expresi´on...... 170 I.6. Detalle de los elementos vinculados entre esclerosis m´ultipley esquizofrenia en co-expresi´on...... 171 I.7. Detalle de los elementos vinculados entre enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en co-expresi´on...... 171

J.1. Detalle de las aristas plenamente identificadas entre enfermedad de Alzheimer y enfermedad de Parkinson en interacci´onprote´ına-prote´ına...... 172 J.2. Detalle de las aristas plenamente identificadas entre enfermedad de Alzheimer y esclerosis m´ultipleen interacci´onprote´ına-prote´ına...... 172 J.3. Detalle de las aristas plenamente identificadas entre enfermedad de Alzheimer y esquizofrenia en interacci´onprote´ına-prote´ına...... 173 J.4. Detalle de las aristas plenamente identificadas entre enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına-prote´ına...... 173 J.5. Detalle de las aristas plenamente identificadas entre enfermedad de Parkinson y esquizofrenia en interacci´onprote´ına-prote´ına...... 174 J.6. Detalle de las aristas plenamente identificadas entre esclerosis m´ultipley es- quizofrenia en interacci´onprote´ına-prote´ına...... 176 J.7. Detalle de las aristas plenamente identificadas entre enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına...... 177

K.1. Detalle de los elementos vinculados entre enfermedad de Alzheimer y enfer- medad de Parkinson en interacci´onprote´ına-prote´ına...... 178 K.2. Detalle de los elementos vinculados entre enfermedad de Alzheimer y esclerosis m´ultipleen interacci´onprote´ına-prote´ına...... 179 K.3. Detalle de los elementos vinculados entre enfermedad de Alzheimer y esqui- zofrenia en interacci´onprote´ına-prote´ına...... 179 Lista de Tablas 1

K.4. Detalle de los elementos vinculados entre enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına-prote´ına...... 179 K.5. Detalle de los elementos vinculados entre enfermedad de Parkinson y esqui- zofrenia en interacci´onprote´ına-prote´ına...... 180 K.6. Detalle de los elementos vinculados entre esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına...... 181 K.7. Detalle de los elementos vinculados entre enfermedad de Alzheimer, enferme- dad de Parkinson y esquizofrenia en interacci´onprote´ına-prote´ına...... 182 K.8. Detalle de los elementos vinculados entre enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en interacci´on prote´ına-prote´ına...... 182

L.1. Detalle de los elementos compartidos vinculados entre enfermedad de Alzhei- mer, enfermedad de Parkinson y esclerosis m´ultipleen co-expresi´on...... 183 L.2. Detalle de los elementos compartidos vinculados entre enfermedad de Alzhei- mer, enfermedad de Parkinson y esquizofrenia en co-expresi´on...... 183 L.3. Detalle de los elementos compartidos vinculados entre enfermedad de Alzhei- mer, esclerosis m´ultipley esquizofrenia en co-expresi´on...... 184 L.4. Detalle de los elementos compartidos vinculados entre enfermedad de Parkin- son, esclerosis m´ultipley esquizofrenia en co-expresi´on...... 184 L.5. Detalle de los elementos compartidos vinculados entre enfermedad de Alz- heimer, enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en co- expresi´on...... 184 L.6. Detalle de los elementos compartidos vinculados entre enfermedad de Alzhei- mer, enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına- prote´ına...... 185 L.7. Detalle de los elementos compartidos vinculados entre enfermedad de Alzhei- mer, enfermedad de Parkinson y esquizofrenia en interacci´onprote´ına-prote´ına.185 L.8. Detalle de los elementos compartidos vinculados entre enfermedad de Alzhei- mer, esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına.. . . 186 L.9. Detalle de los elementos compartidos vinculados entre enfermedad de Parkin- son, esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına. . . . 186 L.10.Detalle de los elementos compartidos vinculados entre enfermedad de Alzhei- mer, enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en interac- ci´onprote´ına-prote´ına...... 186 1. Antecedentes

1.1. Biolog´ıade Sistemas

Todos los fen´omenos biol´ogicosse caracterizan por ser el resultado de complejos procesos llevados a cabo por una serie de componentes, sean estos mol´eculas,en el entendimiento de una reacci´onllevada a cabo en la c´elula, o sean las c´elulasmismas analizadas para entender los procesos llevados a cabo en el tejido de un organismo (Kohl et al., 2010). La necesidad de entender estos complejos fen´omenosbiol´ogicosllev´oal desarrollo de m´etodos que permi- tieran cumplir este objetivo de una manera f´acilde implementar, naciendo as´ıel enfoque reduccionista el cual consiste b´asicamente en el entendimiento de los fen´omenos biol´ogicos basado en el an´alisisde cada componente asociado de manera individual (Kohl et al., 2010; Ideker et al., 2001; Barabasi and Oltvai, 2004).

El reduccionismo permite, una vez analizados todos los componentes b´asicos,seguir un an´ali- sis lineal, entiendo este como la uni´onsecuencial de eventos, para finalmente entender el fen´omenocomo la suma de la comprensi´onde sus partes (Kohl et al., 2010; Ideker et al., 2001).

Esta forma de abordar el problema anteriormente mencionado permiti´oel origen de ramas del conocimiento tales como la gen´etica,donde a partir del estudio de los genes se puede comprender un fen´omenobiol´ogicocomo lo es la herencia (Kitano, 2002; Kohl et al., 2010). Ahora bien, este proceso es mucho m´ascomplejo y debe ser complementado desde otra pers- pectiva, tal como lo permite la biolog´ıamolecular la cual adhiere el papel de las prote´ınas y otras macromol´eculasy la bioqu´ımicaque explica la naturaleza qu´ımicade las mol´eculas implicadas y sus interacciones espec´ıficas(Kitano, 2002; Kohl et al., 2010).

A pesar que este enfoque se centra en el estudio del componente e ignore los eventos cir- cundantes, ha permitido explicar fen´omenoscomo la sinapsis neuronal, la relaci´onentre micorrizas y la ra´ızde la planta, el fen´omenohospedero-hu´esped y la resistencia microbiana a los antibi´oticosy ha permitido adem´asel desarrollo de tecnolog´ıas tales como prote´ınas recombinantes usadas en medicina y en la industria y el desarrollo de plantas transg´enicas (Durmu¸set al., 2015; Libault et al., 2010).

Los procesos biol´ogicosposeen un nivel de complejidad tal, que transgreden la linealidad 1.1 Biolog´ıade Sistemas 3 con la cual se han venido tratando de explicar los fen´omenosobservados. Un ejemplo de ello son las rutas metab´olicas,algunas de ellas (o una parte) pueden ser explicadas por el enfoque lineal asociado al reduccionismo, es decir, asociar los conocimientos generados de las mol´eculasindividuales hasta tener una idea de c´omofunciona la ruta en cuesti´on.Pero en la mayor´ıade los casos, existen eventos no lineales como lo son los loops de retroalimen- taci´onpositiva y negativa que no pueden ser explicados completamente desde un enfoque reduccionista (Edwards, 2017; Bose, 2013).

Adicionalmente, para tener una idea completa de los fen´omenossubyacentes a las redes me- tab´olicas,se debe tener en cuenta los flujos asociados en cada reacci´on,esto es un fen´omeno que el enfoque reduccionista no puede explicar con total claridad dado que los flujos son el resultado de la interacci´onentre mol´eculasy no un componente que pueda ser analizado de manera separada (Edwards, 2017; Bose, 2013). En un sentido similar, consid´ereseel para- digma del valor C, donde se establece que la complejidad de los organismos era directamente relacionada a la cantidad de genes en el genoma de los organismos (Eddy, 2012). Hoy en d´ıay gracias a las t´ecnicas de alto rendimiento se sabe que esto no es verdad, esto suscita entonces la interrogante acerca de los factores que determinan la diferencia entre especies estrechamente relacionadas (Eddy, 2012). Siguiendo un enfoque reduccionista esta pregunta no puede ser resuelta, dado que dichas especie, al ser tan cercanas, la diferencia del n´umero de genes es m´ınimaen relaci´onal n´umerode genes hom´ologos, por tanto, solo analizando los patrones en que los genes son expresados y en c´omodifieren los patrones de organizaci´on celular, este fen´omenopuede hallar una respuesta (Kohl et al., 2010; Bose, 2013).

Los ejemplos anteriormente mencionados permiten dos observaciones fundamentales: i) No existe un componente ´unicoque sea la llave de control de un sistema biol´ogico,esto explica porque muchos medicamentos orientados a atacar una sola prote´ınaposeen efectos secunda- rios o no son del todo efectivos y ii) Los fen´omenosbiol´ogicos son el resultado de interacciones concretas entre los componentes subyacentes, lo cual indica sistemas de organizaci´oncon- cretos (Kohl et al., 2010; Bose, 2013). Por lo tanto, para tener pleno entendimiento de los fen´omenosbiol´ogicos,se debe tener pleno conocimiento de las interacciones entre los com- ponentes relacionados en los diferentes niveles de organizaci´onexistentes (Kohl et al., 2010; Bose, 2013).

La biolog´ıade sistema nace entonces como un nuevo paradigma de la investigaci´onbiol´ogica que posee las herramientas y los niveles de abstracci´onnecesarios para abordar el entendi- miento de los fen´omenosbiol´ogicos desde una perspectiva hol´ıstica(Kohl et al., 2010; Bose, 2013; Chuang et al., 2010). Para ello, la biolog´ıade sistemas se ha valido de la teor´ıagene- ral de sistemas la cual ha sido desarrollada ampliamente en otras ramas del conocimiento tales como la econom´ıao la psicolog´ıa(Edwards, 2017). Esta teor´ıapermite visualizar los fen´omenosbiol´ogicoscomo sistemas, siendo cada uno de dichos sistemas definido por dos 4 1 Antecedentes caracter´ısticasfundamentales: 1. Est´ancompuestos por m´ultiplescomponentes.

2. Cada componente afecta al “todo”. Refiri´endoseentonces al “todo” como el fen´omenoque se desea ser comprendido.

Esto permite deducir la raz´onpor la cual un an´alisislineal de los componentes del sistema no permite entender completamente un fen´omenobiol´ogicocomo se ha llevado a cabo uti- lizando el enfoque reduccionista. Al analizar por separado cada uno de los componentes se ignora su papel en el “todo” y unir linealmente los conocimiento adquiridos en los an´alisis individuales no permite identificar c´omoeste afecta realmente a los dem´ascomponentes y viceversa (Bose, 2013).

Como se mencion´ocon anterioridad, los componentes est´anconectados en una forma espec´ıfi- ca y adicionalmente est´anembebidos en diferentes niveles de organizaci´on(Bose, 2013). La biolog´ıade sistemas posee el marco l´ogico-matem´aticopara analizar los sistemas basado en estas dos caracter´ısticas.Cada nivel de organizaci´ones entonces considerado como un sub- sistema los cuales deben cumplir con los dos principios mencionados anteriormente y cada subsistema debe poseer unos principios b´asicosque los rigen as´ıcomo compartir principios globales que rigen todo el sistema (Kohl et al., 2010; Bose, 2013). Entender los principios que rigen a los sistemas biol´ogicoses uno de los pilares en los cuales se enfoca la biolog´ıade sistemas (Chuang et al., 2010; Edwards, 2017).

Como un resultado de la organizaci´on de los sistemas y de sus caracter´ısticasanteriormen- te mencionadas, existen propiedades ´unicasque no pueden ser observadas a partir de las propiedades individuales de los componentes, esto se conoce como propiedades emergentes (Edwards, 2017; Aderem, 2005). Un ejemplo claro de ello es la conciencia, dado que a pesar de estudiar las neuronas de forma individual y sus interacciones entre ellas, solo el an´alisis global de su organizaci´ony los principios que lo rigen han dado las primeras nociones de este fen´omeno(Thompson and Varela, 2001).

Las propiedades emergentes son de una relevancia fundamental para la biolog´ıade sistemas pues solo en el an´alisisdel “todo” pueden ser observadas y por ende existen caracteristicas asociadas al fen´omenoque s´oloel enfoque hol´ıstico es capaz de identificar permitiendo el entendimiento global de dicho fen´omenobiol´ogico(Edwards, 2017; Aderem, 2005). Adicio- nalmente, se ha establecido la idea que las propiedades emergentes pueden influenciar los niveles de organizaci´ona m´asbajo nivel, estableciendo entonces que en los sistemas biol´ogi- cos existen efectos inter-niveles que afectan la din´amicaorganizaci´on-emergencia(Edwards, 2017; Chalmers, 2006). 1.1 Biolog´ıade Sistemas 5

Los efecto inter-nivel son de una relevancia fundamental en biolog´ıadado que los niveles de organizaci´onson enteramente dependientes de los niveles inferiores, un ejemplo de ello es el proceso de expresi´ong´enico en las c´elulas, las prote´ınasreguladoras, tales como las histonas, deben estar en una configuraci´ontal que permita la disponibilidad de un gen determinado para ser transcrito en mRNA, el cual es un componente de otro nivel de organizaci´ony este paso inter-nivel es adem´asregulado por un gran n´umerode componentes diferentes. Este mismo tipo de dependencia es observada inclusive en fen´omenoscomo las redes tr´oficaso la evoluci´onmisma (Bose, 2013).

La biolog´ıa de sistemas ha incrementado el marco l´ogico-matem´aticorelacionado con el mundo celular tomando ventaja de la gran cantidad de datos ´omicosque son generados en la actualidad gracias a la implementaci´onde tecnolog´ıasde alto rendimiento. Estos datos permiten identificar con gran precisi´ony en gran cantidad los componentes asociados a un fen´omenocelular en particular y gracias a la gran cantidad de conocimiento que ha sido - rado es posible establecer las interacciones ya conocidas entre ellos (Kohl et al., 2010; Bose, 2013; Barabasi and Oltvai, 2004). Las nuevas metodolog´ıasen biolog´ıade sistemas permiten identificar las posibles asociaciones no identificadas hasta el momento y adem´aspermite de- terminar la organizaci´onfinal de los componentes y sus diferentes niveles al integrar distintos datos ´omicostales como gen´omicay transcript´omicapara determinar propiedades emergen- tes que expliquen fen´omenoscelulares que a´unno han sido completamente entendidos y aquellos fen´omenoscelulares que no han tenido una adecuada explicaci´ondebido a que los m´etodos actuales no arrojan resultados concluyentes (Edwards, 2017; Aderem, 2005).

1.1.1. Biolog´ıade redes Como se ha establecido con anterioridad, los sistemas biol´ogicosse caracterizan por ser com- plejos, esto implica que est´ancompuestos por una gran cantidad de elementos los cuales se asocian entre s´ıde una forma espec´ıficay embebidas en diferentes niveles de organizaci´on (Bose, 2013; Barabasi and Oltvai, 2004). Esto implica que dichos sistemas pueden ser repre- sentados como un entramado denominado red (o grafo en un t´erminomatem´aticoformal), los cuales pueden ser analizados por medio de la teor´ıade redes complejas (figura 1.1(a)) (Emmert-Streib and Dehmer, 2015; Barabasi and Oltvai, 2004). Esta teor´ıaha sido imple- mentada, as´ımismo como la teor´ıageneral de sistemas, en ramas del conocimiento tales como la econom´ıay la psicolog´ıa,determinando en todos los casos principios que rigen la forma en que estos sistemas funcionan y determinando que los niveles de organizaci´onen cada caso no son dados por azar (Edwards, 2017; Alm and Arkin, 2003).

Estos resultados extrapolados al caso de los sistemas biol´ogicospermiten inferir entonces que los sistemas biol´ogicostambi´enpueden estar siendo regidos por los mismos principios lo cual puede facilitar la tarea de entender el por que los componentes del sistema est´an 6 1 Antecedentes organizados en una estructura de red determinada y no de otra forma posible (Barabasi and Oltvai, 2004). La teor´ıade redes complejas aplicada a los sistemas biol´ogicoses conocida como biolog´ıade redes y ha sido ampliamente utilizada para el entendimiento de los fen´ome- nos celulares, gracias a la integraci´onde datos multi-omicos obtenidos por las tecnolog´ıasde alto rendimiento que permite establecer y predecir interacciones de diferente tipo tales como proteina-proteina, gen-proteina, RNA-gen, entre otros (Chai et al., 2014; Mousavian et al., 2016).

Las redes, incluyendo a las biol´ogicas,est´ancompuestas fundamentalmente por dos estruc- turas. Los v´ertices, lo cuales representan a los componentes de la red (prote´ınas,genes, etc) y los enlaces, los cuales son las uniones entre v´erticesy representan el tipo de interacci´onentre los componentes (figura 1.1(a)) (Barabasi and Oltvai, 2004). En este ´ultimocaso, puede ser confuso el establecer el tipo de interacci´onentre componentes celulares puesto que intuitiva- mente solo existir´ala interacci´onf´ısicaentre las mol´eculas (prote´ına-prote´ına,prote´ına-DNA, prote´ına-cofactor,entre otros), pero las interacciones tambi´enpueden ser establecidas por medio de asociaciones funcionales tales como asociaciones entre mol´eculasque son produci- das por una reacci´onenzim´aticaconcreta donde una es el reactante y la segunda el producto (figura 1.1(b); figura 1.1(c)) (Edwards, 2017).

GLUCOSA (G) G ATP

ADP GLUCOSA-6-FOSFATO G6P (G6P)

FRUCTOSA-6-FOSFATO F6P (F6P) (a) (b) (c)

Figura 1.1.: Principales caracter´ısticasde una red. a) Ejemplo de una red compuesta por 5 v´ertices(verde) y 6 enlaces (azul). b) Ejemplo de reacciones metab´olicas compuesta por las tres primeras reacciones en la glucolisis. c) Representaci´on de las reacciones en forma de una red siendo los sustratos los v´ertices enlazados de acuerdo al orden en que son transformados de uno en otro. En muchos casos es ´utilignorar los co-factores en redes de este tipo dado que los an´alisissolo se centran en los sustratos. 1.1 Biolog´ıade Sistemas 7

En este segundo ejemplo, es posible observar que existe entonces una direcci´onen la cual dos v´erticesson enlazados, esta es la principal caracter´ısticade las redes dirigidas cuyos enlaces son representados como flechas (arcos) determinando la direccionalidad de la cual depende el enlace entre dos v´ertices(figura 1.1(a)) (Mazzola et al., 2016; Barabasi and Oltvai, 2004). Por otra parte, en las redes cuya interacci´onno hay una direccionalidad establecida o sim- plemente esta no existe como tal, los enlaces ser´an representados como l´ıneasque unan a los v´ertices(aristas) y estas redes son catalogadas como de tipo no dirigido (figura 1.2(b)) (Mazzola et al., 2016; Barabasi and Oltvai, 2004).

Se debe prestar especial atenci´onen el tipo de red utilizada, dado que uno de los pilares de la biolog´ıade redes consiste en caracterizar la estructura en que est´aorganizada la red como resultado de todas los enlaces que la constituyen, a esto se le llama topolog´ıay en teor´ıade redes complejas existen medidas que sirven para caracterizar y analizar las topolog´ıasde las redes pero estas son sensitivas al tipo de red por lo que en un caso u otro se puede cambiar la percepci´onde las principales caracter´ısticasde la red que est´asiendo analizada (Barabasi and Oltvai, 2004).

Un ejemplo de ello es un medida conocida como grado (k) la cual consiste b´asicamente en definir el n´umerode v´erticesdirectamente enlazados al v´erticeque se est´amidiendo (vecinos) (Mukwembi, 2012). Dependiendo si esta medida se est´atomando en una red dirigida o no dirigida su valor cambia, en el primer caso se definen dos valores, el grado de entrada, el n´umerode v´erticescuyo arco apunta al v´erticeque se est´amidiendo y el grado de salida, el n´umerode v´erticescuyos arcos salen del v´erticeque se est´amidiendo. En cambio, en las redes no dirigidas, solo existe un resultado el cual es el n´umerode aristas con los cuales el v´erticeanalizado est´aasociado directamente a otros v´ertices (figura 1.3) (Mukwembi, 2012; Barabasi and Oltvai, 2004).

Una observaci´onampliamente compartida en la biolog´ıade sistemas son los pocos pasos que se necesitan para conectar dos v´erticescualesquiera siguiendo un camino marcado por los enlaces existentes en la red, este fen´omenoes denominado efecto del mundo peque˜noy ha sido catalogado como uno de los principios que rigen todas las redes reales (Jarman et al., 2017). Un ejemplo de este fen´omenoson los seis grados de separaci´onobservado en redes sociales (Zhang and Tu, 2009). Este principio en relaci´oncon las redes biol´ogicases f´acil- mente observado en redes metab´olicasdonde solo se necesita un n´umeromuy reducido de reacciones para alcanzar la s´ıntesis de cualquier metabolito (Barabasi and Oltvai, 2004).

Por otra parte cabe destacar la existencia de regiones de alta conectividad que han sido encontradas en diferentes redes reales incluyendo redes sociales y particularmente en gran medida en redes biol´ogicastales como redes de interacci´onprote´ına-prote´ına y prote´ına- DNA, este tipo de subredes son denominados m´odulos(figura 1.3(a)) (Green et al., 2017; 8 1 Antecedentes

(a)

(b)

Figura 1.2.: Tipo de red seg´unla naturaleza de sus enlaces y ejemplo del valor de grado para cada una. a) Red dirigida, el v´erticeen rojo posee dos arcos de entrada (azul) y uno de salida (naranja). b) Red no dirigida, el v´erticeen rojo posee tres aristas (verde).

Zhu et al., 2007; Alm and Arkin, 2003). En biolog´ıade redes, se ha prestado especial atenci´on en la detecci´onde este tipo de estructuras dado que al estar densamente conectados entre s´ı se han relacionado los v´erticesimplicados con mecanismos celulares donde estos compuestos interact´uan(m´odulosf´ısicos) o bien participan en el mismo proceso biol´ogico(m´odulosfun- cionales), la detecci´onde m´odulosse han convertido entonces en un pilar de la biolog´ıade redes (Barabasi and Oltvai, 2004).

Est´aclaro que las redes biol´ogicasse caracterizan por su arquitectura topol´ogicaaltamente compleja, pero a pesar de ello se ha demostrado que la mayor parte de una red puede ser construido por bloques b´asicos de construcci´ondenominados motivos (figura 1.3(b)) (Green et al., 2017; Zhu et al., 2007). Estos bloques de construcci´onpueden estar compuestos por tres o cuatro v´ertices unidos formando estructuras triangulares o cuadradas las cuales est´an significativamente representadas en la red, aunque es posible determinar motivos compuestos por un n´umeromayor de v´ertices(Green et al., 2017; Zhu et al., 2007). La importancia de los motivos radica en su representaci´onsignificativa, una red compleja puede poseer un gran n´umerode formas b´asicas,lo que significa que una forma espec´ıficarepresentativa no puede ser dada por azar (Barabasi and Oltvai, 2004).

Biol´ogicamente los motivos representan mayor informaci´onen redes regulatorias, dado que estas son de tipo dirigido por lo cual existe una mayor variaci´onen el tipo de motivos de 1.1 Biolog´ıade Sistemas 9

Motivo

(a) (b)

Figura 1.3.: M´odulosy motivos a) ejemplo de un m´odulode red (en rojo) compuesto de siete v´erticesdensamente interconectados entre ellos b) ejemplo de motivo de red, note como el bloque constituido por tres nodos (rojo) es significativamente m´asrepresentativo que el bloque compuesto por cuatro v´ertices(verde). acuerdo a la direcci´onde sus arcos, con ello se pueden establecer entonces los posibles loops de retroalimentaci´on,positivo o negativo, que est´aninfluyendo dentro de la red (Yeger-Lotem et al., 2004). Adicionalmente, se ha estudiado todos los posibles motivos de diferentes ta- ma˜nosdentro de redes biol´ogicasdirigidas para determinar la posible naturaleza de su origen incluyendo por ejemplo procesos de duplicaci´onde genes (Barabasi and Oltvai, 2004).

Otra caracter´ısticarelevante de las redes construidas a partir de datos reales es la union de vertices con otros cuyas caracter´ısticasson similares, por ejemplo uni´onentre v´ertices altamente conectados, este fen´omenoes denominado asortatividad y ha sido observado en varios ejemplos de redes reales (Murakami et al., 2017; Piraveenan et al., 2009). En el caso de las redes biol´ogicas,por el contrario, este fen´omeno no ocurre, lo cual es posible observar cuando se analizan los v´erticesaltamente conectados (hubs), dado que estos en la mayor´ıa de los casos no est´anconectados entre s´ı,se ha establecido entonces que las redes biol´ogicas son desasortativas (Allen-Perkins et al., 2017).

La uni´onde los v´erticesen rede biol´ogicassigue otro principio denominado uni´onpreferen- cial, el cual explica el comportamiento de la uni´onde un v´erticecuando es adherido a la red. Este an´alisisdin´amico(en el tiempo) establece que un nuevo v´erticese adhiere con mayor probabilidad a los hubs de la red (Wan et al., 2017; Barabasi and Oltvai, 2004). Para entender biol´ogicamente este fen´omenoes posible utilizar una red metab´olicacomo ejemplo, donde una nueva mol´eculadebe ser a˜nadidaal circuito de reacciones pre-existente y este por 10 1 Antecedentes tanto se ajustara a la dependencia de cofactores como ATP o GTP los cuales participan en una gran cantidad de reacciones y por tanto est´analtamente conectados teniendo en cuenta adem´asque la aparici´onde este tipo de cofactores fue muy temprana en el tiempo evolutivo aumentando la probabilidad de que adquiera nuevos enlaces con el tiempo (Wan et al., 2017; Barabasi and Oltvai, 2004).

Existe una propiedad inherente al comportamiento din´amicode las redes el cual es la robus- tez, esta propiedad consiste en la capacidad de mantener las propiedades topol´ogicascuando una fracci´onde los v´erticesson eliminados, conservando el efecto del mundo peque˜noy adem´asevitando la ruptura de la red en fragmentos aislados (Eloundou-Mbebi et al., 2016; Estrada, 2006). En redes biol´ogicasesta propiedad ha ido ganando mayor importancia con los a˜nosdado que este tipo de an´alisispermite simular los posibles fallos en una c´elulaya sea por efectos delet´ereosaleatorios o por ataques dirigidos. Los resultados en este tipo de an´alisishan permitido identificar dos caracter´ısticasprincipales asociadas a la arquitectura topol´ogicade las redes biol´ogicas(Barabasi and Oltvai, 2004).

En primer lugar, cuando una fracci´onde v´erticeses eliminada aleatoriamente como resulta- do de fallos en la c´elulapor ejemplo en el caso de estr´esgenerado por cambios ambientales, las propiedades topol´ogicasson mantenidas sin cambios importantes incluso cuando m´as del 50 % de la fracci´ones eliminada debido a que los v´ertices con bajo n´umerode enlaces son muchos m´ascon respecto a los altamente conectados, por tanto es m´asprobable que los v´erticescon bajo valor de grado sean removidos, manteniendo a los hubs los cuales mantienen la red unida y los enlaces restantes, pertenecientes a grupos de alto valor de coeficiente de agrupamiento permiten mantener el efecto del mundo peque˜no(Barabasi and Oltvai, 2004). Por otra parte, cuando v´erticesobjetivo son removidos a causa de un ataque dirigido, por ejemplo debido a un medicamento espec´ıfico,las redes biol´ogicasson mucho m´assusceptibles y pierden todas sus caracter´ısticasinnatas con tan s´oloeliminar un par de v´erticesaltamente conectados (Estrada, 2006).

El estudio de las redes biol´ogicasno s´olose limita a los an´alisistopol´ogicosni mucho me- nos es una rama centrada en el an´alisisde los v´erticesque le componen. Existen adem´as an´alisisespec´ıficosde los enlaces de una red que han derivado en metodolog´ıasunicas para el desarrollo de este tipo de estudios (McCloskey et al., 2013; Henry et al., 2010). Las redes metab´olicasen particular, han sido ampliamente estudiadas utilizando este enfoque, esto se debe a que en las reacciones metab´olicashay asociada un flujo de metabolitos restringido por la estequiometr´ıapropia de la reacci´ony entender c´omovar´ıanlos flujos metab´olicosa lo largo de toda una ruta en particular o a trav´esde toda la c´elulaes esencial para entender y determinar las causas de las deficiencias metab´olicaso los requerimientos de una c´elulaen un estado determinado (McCloskey et al., 2013; Henry et al., 2010). 1.1 Biolog´ıade Sistemas 11

El estudio de las redes biol´ogicasha ampliado el marco de conocimiento acerca de las comple- jas interacciones moleculares efectuadas en una c´elulagracias a la identificaci´onde elementos emergentes que la aplicaci´onde la teor´ıade sistemas, espec´ıficamente en la abstracci´onde fen´omenosrepresentados como redes, ha permitido en los a˜nosrecientes (Edwards, 2017; Alm and Arkin, 2003). A pesar de la identificaci´onde los posibles principios que rigen las redes biol´ogicas,desde los modelos que buscan explicar la topolog´ıade la redes hasta los m´etodos que las analizan de una forma din´amicay enfocada en las interacciones entre sus componentes, la biolog´ıade redes es una rama muy joven con mucho por descubrir a´un, partiendo del perfeccionamiento de los m´etodos ya establecidos y la implementaci´onde nue- vos que por ejemplo logren analizar la totalidad de la red en vez del enfoque tradicional de la detecci´onde m´odulosy motivos llevado a un nivel comparativo para cada nivel de organizaci´on(Gaiteri et al., 2014; Bose, 2013).

1.1.2. Principales tipos de redes biol´ogicas Las redes biol´ogicashan permitido el an´alisis de m´ultiplesfen´omenosmoleculares gracias al poder de abstracci´onque poseen las representaciones basadas en la teor´ıade redes complejas (Emmert-Streib and Dehmer, 2015; Barabasi and Oltvai, 2004). Adicionalmente, los metodos de analisis basicos, aunque variados, para estudiar las redes pueden ser aplicadas a cualquier tipo de representaci´onobtenida a partir de datos biol´ogicos(Barabasi and Oltvai, 2004). Pero en los a˜nosrecientes, tipos espec´ıficosde redes biol´ogicashan adquirido una gran importancia dado que permiten el an´alisisde un gran n´umerode fen´omenosbiol´ogicosa nivel celular y han sido ampliamente utilizadas para dar explicaci´onal origen de fenotipos espec´ıficos(Alm and Arkin, 2003). Aqu´ıse resalta el papel que han tenidos las redes de co-expresi´onde genes y de interacci´onprote´ına-prote´ınaen el desarrollo de la teor´ıade redes biol´ogicasy su amplia implementaci´onen an´alisisde fen´omenosbiol´ogicos.

Red de co-expresi´onde genes La red de co-expresi´onde genes es una representaci´onbasada en redes biol´ogicasque permite la identificaci´onde genes (v´ertices)asociados por patrones coordinados de expresi´on(aristas) a partir de un grupo de muestras (L´opez-Kleine et al., 2013; van Dam et al., 2017). Este tipo de muestras ha ganado una gran relevancia gracias a la disponibilidad de grandes datos de expresi´onasociados a an´alisisde microarreglos almacenados en bases de datos p´ublicas y m´as recientemente gracias al desarrollo de t´ecnicasde alto rendimiento, espec´ıficamente la implementaci´ondel secuenciamiento masivo de RNA (RNA-seq) y los m´etodos necesarios para su an´alisis(L´opez-Kleine et al., 2013; van Dam et al., 2017).

Can´onicamente, las redes de este tipo se caracterizan por ser de tipo no dirigido y adicio- nalmente por determinar los patrones de expresi´oncoordinada por medio del an´alisis de muestras de tipo caso-control (van Dam et al., 2017; Slonim and Yanai, 2009). Por otro lado, 12 1 Antecedentes gracias a la gran disponibilidad de datos de microarreglos frente a los datos de RNA-seq, estos han sido ampliamente utilizados y existe un n´umeromuy variado de m´etodos que per- miten construir redes de co-expresi´ona partir de sus valores de expresi´oncrudos (van Dam et al., 2017).

Para construir una red de co-expresi´ona partir de datos crudos de microarreglo se requieren una serie de pasos, cada uno de ellos puede ser efectuado por un m´etodo distinto lo cual afectar´ael resultado de la red final (L´opez-Kleine et al., 2013). El primero de ellos es la normalizaci´on,este paso es fundamental dado que permite eliminar las variaciones t´ecnicas en el momento de la toma de datos desde el chip del microarreglo, pero a su vez este pro- cedimiento debe permitir que las variaciones biol´ogicaspermanezcan casi intactas para los an´alisisposteriores. A lo largo de los a˜nosvarios enfoques y m´etodos han sido desarrollados para efectuar este paso (Slonim and Yanai, 2009).

Uno de los primeros m´etodos desarrollados fue el escalamiento el cual consiste en la ob- tenci´onde un ´unicovalor de expresi´oncomo el promedio de los valores asociados a una sonda en particular, este m´etodo puede ser aplicado si para las muestras a ser comparadas es esperado que el valor de expresi´onsea similar al promedio (Quackenbush, 2002; Bolstad et al., 2003). Aunque existen programas para computar estos valores como por ejemplo el programa MAS 5.0, su f´acilaplicaci´onpermite que pueda ser computado a mano sin ma- yores complicaciones y su ventaja radica adicionalmente que evita la sobre-normalizaci´on de los datos (Quackenbush, 2002; Bolstad et al., 2003; Lu, 2004). Un m´etodo adicional ha sido denominado “spike-in” el cual consiste en aplicar RNA ex´ogenoa las muestras de RNA pre-existentes en el microarreglo. Este m´etodo sirve como control interno experimental y es recomendado para analisis de expresi´ondependientes del tiempo como en el caso de an´alisis de desarrollo embrionario, pero su implementaci´ones muy limitada por el requerimiento de RNA adicional y debido a que en muchos casos las redes de co-expresi´ono incluso an´alisis cl´asicosde expresi´onson llevados a cabo con los datos disponibles en bases de datos p´ublicas (Fardin et al., 2007; Bolstad et al., 2003).

La normalizaci´onpor cuantiles ha sido ampliamente utilizado debido a que es m´asestricto que el m´etodo de escalamiento y permite obtener un rango variable en los valores de ex- presi´onde genes lo cual es necesario para determinar los patrones coordinados de expresi´on (Bolstad et al., 2003). El m´etodo RMA es el m´aspopular para la normalizaci´onde datos de microarreglos obtenidos a partir de chips de la casa comercial Affymetrix y es de f´acil implementaci´ongracias al desarrollo de paquetes como en el caso del programa para an´alisis estad´ısticoR donde se puede encontrar el paquete affy (Irizarry et al., 2003; Gautier et al., 2004). Existen adem´asotros m´etodos dise˜nadospara la normalizaci´onde datos de expresi´on dentro de los cuales destaca el m´etodo VSN el cual consiste en la obtenci´ondel valor a par- tir de la transformaci´onlogar´ıtmicade los datos crudos permitiendo rangos de valores m´as 1.1 Biolog´ıade Sistemas 13 amplios que los esperados en el m´etodo RMA, este m´etodo tambi´ense encuentra disponible como un paquete para el programa R denominado vsn (Huber et al., 2002).

La normalizaci´onha sido dise˜nadacon el fin de eliminar las variaciones t´ecnicasocurridas en la toma de las intensidades lum´ınicasen un chip de microarreglo para eliminar los sesgos experimentales tanto como sea posible (Slonim and Yanai, 2009). Pero las plataformas dis- ponibles s´oloposeen capacidad hasta 24 muestras y recientemente se han dise˜nadochips de microarreglo con la capacidad de tratar hasta 96 muestras de manera simult´anea,generando una variaci´onexperimental adicional debido a que en muchos estudios se analizan cientos de muestras como por ejemplo en los estudios poblacionales y por tanto el uso y escaneo de varios chip de microarreglo es necesario generando as´ıuna variaci´ontemporal (Chen et al., 2011).

Un amplio n´umerode m´etodos han sido desarrollados en los ´ultimos a˜nospara poder eli- minar este tipo de variaci´onexperimental el cual ha sido denominado efecto de lote (Batch effect), de los cuales cinco de ellos han sido ampliamente utilizados y comparados entre ellos: i) Distance-weighted discrimination (DWD) el cual usa m´aquinasde soporte vectorial (SVM) para un an´alisisde discriminaci´onde dos clases. ii) Mean-centering (PAMR) el cual utiliza an´alisisde varianza (ANOVA) para an´alisisgen´etico.iii) Surrogate variable analysis (SVA), este m´etodo combina descomposici´onde valores simples (SVD) con an´alisisde mo- delos lineales para obtener los valores propios de la matriz de expresi´on.iv) Geometric ratio based (Ratio G), realiza el escalamiento de las medidas de las muestras hallando la media geom´etricade un grupo de referencia. v) ComBat, este m´etodo se caracteriza por aplicar una inferencia bayesiana emp´ıricapara localizar y ajustar la escala de cada lote y cada gen de manera individual (Chen et al., 2011).

El segundo paso a tener en cuenta en la construcci´onde una red de co-expresi´on es la suma- rizaci´on,este proceso consiste en la obtenci´onde un ´unicovalor de expresi´onrepresentativo de un gen a partir de un conjunto de sondas que le representan (Slonim and Yanai, 2009). En los chips de microarreglo existen m´as de una sonda que representan fragmentos de un gen espec´ıfico, por lo cual se obtienen valores de expresi´onpor cada una de dichas sondas para todas las muestras involucradas. Como se mencion´oanteriormente, las redes de co-expresi´on buscan analizar los patrones de expresi´oncoordinada entre genes, por lo cual los valores de varias sondas no son ´utilesen este tipo de an´alisis(Gentleman et al., 2006).

Para llevar a cabo este proceso, no existe una regla consolidada y en la literatura se suele omi- tir detalles de c´omose llev´oa cabo este procedimiento, solo existen varias sugerencias dentro de las cuales resaltan tomar el valor m´aximodentro de los valores de expresi´onpara cada una de las muestras involucradas o tomar el m´ınimo.Adicionalmente, otra forma de abor- dar este problema es obteniendo ya sea la media o la mediana de estos valores para obtener 14 1 Antecedentes

finalmente un ´unicovalor representativo del gen (Gentleman et al., 2006; Giorgi et al., 2010).

Tanto en los an´alisis de expresi´oncomo en el estudio de redes de co-expresi´on,uno de los objetivos principales es la identificaci´onde los posibles procesos biol´ogicosimplicados en el fen´omenobajo estudio. Debido a que los chip de microarreglos en la actualidad est´andi- se˜nadospara un mapeo a nivel gen´omico donde genes de todos los procesos biol´ogicosest´an representados (Tomfohr et al., 2005; Slonim and Yanai, 2009). La mejor estrategia para identificar dichos procesos es determinar cu´alesgenes est´anexpresados de manera consis- tentemente diferente con respecto a los dem´as,esto bajo el supuesto que dichos genes est´an implicados en el proceso que da origen al fen´omenobajo estudio (Slonim and Yanai, 2009).

La identificaci´onde los genes diferencialmente expresados es el tercer paso en la construc- ci´onde una red de co-expresi´ony los m´etodos para lograr la identificaci´onde estos han sido desarrollados en su mayor´ıabajo un enfoque bioestad´ıstico(Gentleman et al., 2006). Uno de los principales inconvenientes al tratar la identificaci´onde genes diferencialmente expresados bajo este enfoque consiste en el ajuste para pruebas m´ultiplesdado que cada uno de los m´etodos que han sido desarrollados reporta la probabilidad de escoger un gen rechazando la hip´otesisnula de no expresi´ondiferencial teniendo en cuenta adem´asque el p-valor ha demostrado ser poco efectivo para esta tarea (Slonim and Yanai, 2009; Dudoit et al., 2002).

Un amplio rango de m´etodos han sido desarrollados para resolver el dilema de las pruebas m´ultiples,pero la mayor´ıade ellos se basan en el supuesto de independencia de cada prueba lo cual entra en conflicto con la idea de los patrones coordinados de expresi´ondado que ello implica la existencia de una alta dependencia. Slonim and Yanai (2009) recomiendan la implementaci´onde m´etodos enfocados en el control de la tasa de falsos positivos (FDR) el cual es la tasa que cualquier hallazgo significativo del estad´ısticosea un falso positivo (Reiner et al., 2003). Adicionalmente recomiendan el uso de m´etodos basados en permutaci´onpara ajustar las pruebas m´ultiplesy mejorar la exactitud en la identificaci´onde las dependencias dentro de los datos de expresi´on.De no ser posible la implementaci´onde permutaciones, los autores tambi´enrecomiendan el uso del procedimiento de Benjamini-Hochberg para el control de la tasa de falsos positivos al considerarlo como id´oneodado su rigor estad´ıstico (Slonim and Yanai, 2009).

Como se ha mencionado anteriormente, el programa estad´ısticoR posee un amplio n´ume- ro de paquetes para el an´alisisde datos de expresi´onde microarreglos (Gentleman et al., 2006). Esto se debe a que existe un repositorio oficial para la verificaci´on,almacenamiento y descarga de dichos paquetes. Bioconductor es una comunidad de programadores en R que han generado un repositorio especializado en an´alisisde datos biol´ogicosy han permitido el desarrollo de terceros, obteniendo finalmente una serie de paquetes que permite la normaliza- ci´on,correcci´onde efecto de lote, sumarizaci´one identificaci´onde los genes diferencialmente 1.1 Biolog´ıade Sistemas 15 expresados en un flujo de trabajo que permite tener pleno control y un seguimiento preciso de los resultados obtenidos (Gentleman et al., 2006).

Escoger uno de los m´etodos para la identificaci´onde genes diferencialmente expresados es un paso fundamental ya que dependiendo del m´etodo escogido los resultados pueden variar significativamente. Uno de los paquetes de mayor uso es multtest el cual permite el uso de varios m´etodos param´etricosdentro de los cuales se destacan prueba-t de Welch, prueba-t pareada y ANOVA (Pollard et al., 2005). Estas pruebas se basan en el supuesto de norma- lidad de los datos y analizan las diferencias en la expresi´onpromedio de cada grupo, pero dicho supuesto suele ser inapropiado por lo cual el p-valor no puede ser considerado como una probabilidad exacta. Por otro lado, m´etodos de estimaci´onde varianzas pueden ser mu- cho m´as´utilescuando peque˜nascantidades de muestra son analizadas. SAM es un m´etodo basado en diferencia de medias entre muestras y un c´alculode FDR por permutaci´onque ha ido reemplazando a los m´etodos tradicionales tales como multtest y el cual es hoy en d´ıa uno de los m´asampliamente citados y usados en la reconstrucci´onde redes de co-expresi´on (Tusher et al., 2001).

El ´ultimopaso en la construcci´onde una red de co-expresi´onconsiste en la identificaci´on de los patrones coordinados de expresi´onentre los genes. El m´etodo para computar estos patrones ha sido el uso del coeficiente de correlaci´onde Pearson para determinar el nivel de relaci´onentre dos genes (L´opez-Kleine et al., 2013; van Dam et al., 2017). Esta medida calcu- la un puntaje que refleja la tendencia de dos genes a mostrar patrones de expresi´onsimilares a trav´esde todas las muestras, el rango de dicho puntaje va desde menos uno (-1) hasta uno (1) dado que tambi´enpermite identificar patrones de expresi´ondirecta o indirectamente proporcionales (L´opez-Kleine et al., 2013; van Dam et al., 2017). Una modificaci´onrealizada a los resultados de este coeficiente es determinar el valor absoluto con lo cual el rango de valores finalmente es desde cero hasta uno, esto con el fin de revelar los patrones coordinados de expresi´ona partir de un valor predeterminado que estima que dos genes cuyo puntaje sean mayores a este, poseen una potencial dependencia en su expresi´on(L´opez-Kleine et al., 2013; van Dam et al., 2017).

El coeficiente de correlaci´onde Pearson ha mostrado ser muy ´utilcuando se analizan can- tidades peque˜nasde muestras, una alternativa para un gran n´umerode muestras ha sido la detecci´onde similitud entre perfiles de expresi´onaplicando el m´etodo de informaci´onmutua (Steuer et al., 2002). Este m´etodo genera una medida de correlaci´onentre los patrones de expresi´onde dos genes donde un alto valor de informaci´onmutua representa que la relaci´on entre dos genes no es dada por azar. As´ıcomo en el caso del coeficiente de correlaci´onde Pearson, la co-expresi´onentre dos genes es determinada si el valor de su medida es igual o superior a un umbral predeterminado (L´opez-Kleine et al., 2013). 16 1 Antecedentes

Otra alternativa al coeficiente de correlaci´onde pearson son los modelos gr´aficosgaussianos los cuales se basan en una representaci´onde red no dirigida donde los v´erticesson genes y las aristas representan relaciones parciales, dichas relaciones son calculadas bajo el su- puesto de una distribuci´ongaussiana multivariada (L´opez-Kleine et al., 2013). La diferencia fundamental con respecto a la correlaci´onde Pearson consiste en que este mide la posible dependencia entre dos genes ignorando los dem´as,mientras que el modelo gr´aficogaussiano mide la correlaci´onentre dos genes basado en el grado de correlaci´onrestante al eliminar otros genes, esto es llevado a cabo como una matriz de covarianzas emp´ıricasinvertida y es a esta matriz a la que se procede a determinar las correlaciones parciales (L´opez-Kleine et al., 2013).

Aunque es evidente la ventaja de medir la correlaci´onentre dos genes teniendo en cuenta todos los dem´as,este modelo posee el inconveniente que es mucho m´as´utilen casos donde el n´umerode muestras es m´asgrande que el n´umerode genes, situaci´onque no es com´uncon los datos de microarreglo, ya que a pesar que se tengan cientos de muestras por analizar, las plataformas de microarreglos est´andise˜nadaspara el mapeo de miles de genes (L´opez-Kleine et al., 2013).

Un enfoque completamente diferente comprende la aplicaci´onde teor´ıabayesiana para la obtenci´onde relaciones probabil´ısticasentre genes para generar as´ıuna red bayesiana (Chai et al., 2014; Hecker et al., 2009). Este m´etodo permite identificar relaciones indirectas entre genes y su representaci´onen red est´acompuesta por un grafo ac´ıclico,donde sus v´ertices representan variables aleatorias que est´anligadas directamente con los valores de expresi´on y los arcos son relaciones de dependencia condicional entre genes (Chai et al., 2014; Hecker et al., 2009). Las redes bayesianas generadas pueden ser de dos tipos: i) Est´aticas,las cuales son redes estrictamente ac´ıclicas.ii) Din´amicas,las cuales permiten las representaciones de ciclos en la red y permiten el an´alisisde expresi´onen series de tiempo. Otra caracter´ıstica importante de las redes bayesianas es que permiten integrar informacion biol´ogica previa tal como la encontrada en bases de datos p´ublicas(Chai et al., 2014; Hecker et al., 2009).

Como se ha mencionado previamente, las redes de co-expresi´ontambi´enpueden ser construi- das a partir de datos de RNA-seq, siendo una de las grandes ventajas de este tipo de datos con respecto a los microarreglos que pueden cuantificar la expresi´onde m´asde 70000 RNAs no codificantes los cuales son muy importantes tener en cuenta dado que un gran n´umero de ellos tienen papeles espec´ıficosen el control de expresi´onde genes (Zhao et al., 2016). Otra ventaja de este tipo de datos frente a los obtenidos por microarreglos es que incre- menta la exactitud de transcritos de baja abundancia y permite distinguir genes par´alogos estrechamente relacionados. Adicionalmente permite distinguir variantes producto de spli- cing alternativo, aunque en este ´ultimocaso puede representar una desventaja dado que se dificulta cu´ales la variante que realmente est´asiendo expresada (van Dam et al., 2017). 1.1 Biolog´ıade Sistemas 17

Los datos de RNA-seq, como las variantes resultantes por splicing alternativo, pueden ori- ginar redes de co-expresi´ondonde var´ıala naturaleza de los v´ertices,en el ejemplo anterior- mente citado es posible generar redes donde cada variante es un v´erticey la arista que los une es generada en funci´onde la expresi´oncoordinada de las variantes asociadas al mismo ex´on(Iancu et al., 2015). As´ımismo, es posible obtener redes que consideren los isomorfos de un gen seleccionando uno de ellos de acuerdo a las diferencias presentes entre sus valores de expresi´on,aunque tambi´ense ha utilizado la uni´onde las expresiones de los valores de dichos isomorfos para generar una red de co-expresi´ona nivel de genes, manteniendo los isomorfos como los v´erticesde la red generada se dice entonces que los v´erticesrepresentan transcritos (van Dam et al., 2017).

Entre un caso y otro, gen o transcrito, la cantidad de v´erticesen la red incrementa cuadr´ati- camente con cada nuevo componente introducido aumentando la complejidad del c´alculo aumentando a su vez el poder de c´omputo necesario para llevar a cabo los c´alculos.Tenien- do en cuenta que adem´aslos datos de RNA-seq permite rastrear la expresi´onde RNAs no codificantes, el c´alculode las correlaciones o similitudes entre genes para la obtenci´onde la red final debe ser tenida en cuenta (Cunningham et al., 2014; van Dam et al., 2017). Una alternativa sugerida por van Dam et al. (2017) es generar bloques de red fraccionando los datos y luego uniendo las redes resultantes, esta metodolog´ıa,aunque logra resolver el pro- blema del poder de c´omputo requerido, no ha sido debidamente establecida y puede alterar dram´aticamente la verdadera topolog´ıade la red.

Para obtener informaci´onde expresi´ona partir de datos de RNA-seq se debe tener en cuen- ta que los datos crudos son producto de secuenciamiento masivo por lo cual deben seguir los pasos b´asicosde verificaci´ondel control de calidad de lecturas, limpieza, ensamblaje y anotaci´onrespectivos (Conesa et al., 2016). Variantes de los m´etodos utilizados para ensam- blaje de genomas pueden ser aplicados en lecturas de RNA-seq donde se destacan Trinity y Bowtie, para la anotaci´onfuncional por ejemplo, Blast2Go puede ser utilizado (Conesa et al., 2016).

Un procedimiento de normalizaci´ontambi´endebe ser efectuado en los datos de RNA-seq antes de determinar los patrones coordinados de expresi´on,diferentes m´etodos han sido desarrollados en los ´ultimos a˜nospero varios de ellos han sido destacados por haber sido im- plementados en plataformas tales como R resaltando los m´etodos Trimmed Mean of M-values (TMM), Upper Quartile (UQ), ambos implementados en el paquete edgeR, DES (mediana), implementado en el paquete DESeq, EBS (cuartiles), implementado en el paquete EBSeq y PoissonSeq (PS) implementado en el paquete que lleva su mismo nombre (Zyprych-Walczak et al., 2015). Cada uno de ellos puede sesgar los resultados de diferente forma dado que son sensibles a las caracter´ısticasintr´ınsecasde los datos de entrada, aunque en general para to- 18 1 Antecedentes dos los m´etodos de normalizaci´onde RNA-seq se ha observado que tienden a sesgar hacia la identificaci´onde correlaciones positivas (van Dam et al., 2017; Zyprych-Walczak et al., 2015).

Muchos m´etodos para estimar correlaci´onde genes a partir de muestras de RNA-seq son generados continuamente. Uno de ellos es EPIG-seq el cual se caracteriza por no verse afec- tado por las diferencias en la profundidad de secuenciaci´onentre las diferentes muestras y la gran abundancia de valores en cero en las matrices de expresi´onobtenidas por lo cual es altamente recomendado para an´alisisde datos obtenidos para una sola c´elula(single-cell RNA-seq) donde la abundancia de estos valores en cero es mucho m´aspronunciada (Li and Bushel, 2016).

Para crear redes de co-expresi´ona partir de RNA-seq varios par´ametroshan sido sugeridos, uno de ellos es el n´umerode muestras m´ınimo,Ballouz et al. (2015) han sugerido un m´ınimo de 20 muestras. Aunque parezca intuitivo, datos de alta calidad mejoran la exactitud de la red de co-expresi´onreconstruida y adem´ases importante para los umbrales de corte al mo- mento de proceder a la limpieza de las lecturas (Ballouz et al., 2015; van Dam et al., 2017). Mejorar la exactitud de las medidas de expresi´ondepende de la profundidad de secuencia- ci´ony entre m´asalta sea su profundidad mejorar´ala medida para genes con baja expresi´on, un umbral tambi´enes utilizado en este paso, pero la selecci´onde este en la mayor´ıade los casos es arbitrario. Este umbral de corte ha sido sugerido para tener una calidad similar a las redes de expresi´ongeneradas a partir de datos de microarreglos usando el mismo n´umero de muestras (van Dam et al., 2017).

Otro factor a tener en cuenta en la construcci´onde una red de co-expresi´ona partir de datos de RNA-seq es el porcentaje de lecturas mapeadas por cada muestra, en general se considera que muestras con un porcentaje inferior al 70 % o al 80 % de lecturas mapeadas deben ser removidos de los an´alisisposteriores (Giorgi et al., 2013). En cuanto a la robustez de las redes de co-expresi´ongenerados a partir de este tipo de datos, se ha recomendado el uso de bootstrapping, el cual es un m´etodo de remuestreo aleatorio con reemplazo, es decir, que redes de co-expresi´onson generados tomando al azar varias muestras y una sola muestra puede estar representada varias veces en varias aleatorizaciones y con ello se busca determinar la reproducibilidad de la red de co-expresi´onoriginal (van Dam et al., 2017).

Las innovaciones metodol´ogicas en la construcci´onde redes de co-expresi´onhan mostrado poseer cada vez mejores niveles de perfeccionamiento y han permitido el dise˜node flujos de trabajo para el control de los resultados en cada paso. En particular, las redes generadas a partir de datos de microarreglos han tenido un mayor inter´esdada la existencia previa de m´etodos para el control de calidad, normalizaci´one identificaci´onde genes diferencialmente expresados (Gentleman et al., 2006; Slonim and Yanai, 2009). Sin embargo, se debe ahondar m´asen los m´etodos para la identificaci´onde los patrones coordinados de expresi´onentre genes 1.1 Biolog´ıade Sistemas 19 y en el desarrollo de paquetes que permitan alimentar los flujos de trabajo computacionales preexistentes (Gentleman et al., 2006). Por otro lado, la obtenci´onde redes de co-expresi´on a partir de datos de RNA-seq a´untienen un largo camino por recorrer en la creaci´onde marcos te´oricosque permitan desarrollar flujos de trabajos en la obtenci´onde redes cuya calidad sea equiparable a las obtenidas por medio de datos de microarreglo (van Dam et al., 2017).

Red de interacci´onprote´ına-prote´ına El papel de las prote´ınas en una c´elulajuega un rol fundamental dado que son el com- ponente funcional, abarcando m´ultiplestareas desde transporte de mol´eculas,pasando por procesos de se˜nalizaci´ondentro y fuera de la c´elulahasta una serie de prote´ınascon funcio- nalidad netamente estructural. Esto conlleva a que este tipo de macromol´eculahaya sido el centro de atenci´ondurante muchos a˜nos,pero a pesar de ello, no todas las prote´ınashan si- do plenamente identificadas y caracterizadas (Rao et al., 2014; Zea and Rueda-Toicen, 2016).

Los enfoques cl´asicosde biolog´ıamolecular por varios a˜nos enfocaron los analisis de proteinas a determinar las interacciones f´ısicas entre ellas para determinar y caracterizar los procesos biol´ogicosen los cuales dicha prote´ına bajo estudio estaba actuando y a partir de este punto identificar su funci´onexacta dentro del proceso biol´ogico(Zea and Rueda-Toicen, 2016). No obstante, este procedimiento no ha sido completamente efectivo por lo cual nuevas meto- dolog´ıashan sido desarrolladas para la anotaci´onde prote´ınas,dentro de las cuales destaca la identificaci´onde asociaciones funcionales entre diversas prote´ınassiendo estas obtenidas a partir de informaci´onm´asabstracta (co-expresi´on,dependientes del mismo cofactor, re- laci´onevolutiva, entre otros) lo cual permite predecir la funci´onde una prote´ınapor estar funcionalmente asociada con varias conocidas (Rao et al., 2014).

Adicionalmente, estas asociaciones funcionales pueden ser implementadas dentro de un enfo- que basado en grafos con lo cual es posible reconstruir un tipo espec´ıficode red denominado red de interacci´onprote´ına-prote´ınael cual ha sido fundamental para el desarrollo de la teor´ıade redes gracias a que fue uno de los primeros tipos en ser estudiada y a partir de este se han obtenido y caracterizado muchos de los principios b´asicosde biolog´ıade redes que hoy en d´ıaaplican para los dem´astipos de redes biol´ogicas.En este tipo de redes, los v´erticesser´anentonces estrictamente prote´ınasy las aristas entre ellas ser´andeterminadas por el tipo de asociaci´onentre estas sea de tipo f´ısicao funcional (Zea and Rueda-Toicen, 2016).

Dentro de los enfoques cl´asicosa partir de los cuales se han predecido las interacciones entre prote´ınases posible agruparlas dentro de dos grandes grupos. El primero de ellos son los m´etodos in vitro los cuales hacen referencia a todas aquellas metodolog´ıasque analizan las 20 1 Antecedentes prote´ınasextra´ıdasdel organismo vivo haciendo uso de tecnolog´ıasque permiten su manipu- laci´on(Rao et al., 2014). Un ejemplo de ello es la purificaci´onde afinidad en t´andem(TAP), la cual se caracteriza por etiquetar una prote´ınade inter´esla cual pasa por un proceso de doble lavado por columnas de afinidad para identificar finalmente, usando espectrometr´ıa de masas las prote´ınasque fueron adheridas a la prote´ınaobjetivo y fueron extra´ıdasen los procesos de lavado (Morris et al., 2014; Rao et al., 2014). Por su parte, un enfoque que ha permitido la identificaci´onde interacciones prote´ına-prote´ınaen eucariotas es la coinmuno- precipitaci´onla cual consiste en usar un extracto de todos los componentes de la c´elula,esto permite que se puedan efectuar modificaciones postraduccionales en las prote´ınaslo cual en algunos casos es un paso fundamental para poder obtener las estructuras tridimensionales necesarias para la uni´onentre prote´ınas(Lin and Lai, 2017).

Otro m´etodo in vitro que ha ido ganando fuerza en los a˜nosrecientes es el microarreglo de prote´ınas,el cual funciona de una manera muy similar a su contraparte nucleot´ıdica,la uni´onde las prote´ınasa fragmentos en el microarreglo da entonces un indicativo de poten- ciales interacciones prote´ına-prote´ınasiempre y cuando se conozca el origen del fragmento (Templin et al., 2002; Hall et al., 2007). Por otra parte, los enfoques cl´asicosde estudios de prote´ınastales como cristalograf´ıade rayos X y resonancia magn´eticanuclear tambi´enhan sido aplicados en la identificaci´onde interacciones prote´ına-prote´ınaen la c´elula(Rao et al., 2014).

El segundo grupo de metodolog´ıascl´asicasen la detecci´onde interacciones prote´ına-prote´ına son las denominadas in vivo las cuales se caracterizan por analizar la c´elulaviva bajo condi- ciones ambientales controladas (Rao et al., 2014). La metodolog´ıam´asampliamente utilizada basada en este enfoque es el sistema de doble h´ıbridode levadura (Y2H). Este sistema consis- te en analizar dos prote´ınasespec´ıficas,adhiriendo a una un dominio de uni´ona DNA (DBD) y a la segunda un dominio de activaci´onde la transcripci´on(AD) (Br¨uckner et al., 2009; Mehla et al., 2015). Si las prote´ınasse unen, se activar´ael mecanismo de transcripci´ony un gen reportero ser´aidentificado y se establecer´apor tanto la interacci´onentre las prote´ınas analizadas, caso contrario el mecanismo de transcripci´onno ser´aactivado y no ser´aidenti- ficado el gen reportero (Br¨uckner et al., 2009; Mehla et al., 2015). Para este enfoque existe un m´etodo denominado letalidad sint´eticala cual permite identificar interacciones funcio- nales entre prote´ınas,este m´etodo consiste en generar una mutaci´onno letal en la c´elula,a continuaci´onuna o varias mutaciones pueden ser adheridas causando letalidad celular como marcador, cuando este fen´omenoocurre se establece que las prote´ınasno expresadas por mutaciones deben interactuar funcionalmente para permitir la supervivencia celular (Rao et al., 2014).

Por otra parte, las interacciones prote´ına-prote´ınacomo en casos mencionados con anteriori- dad tambi´enpueden ser predecidos por m´etodos desarrollados bajo un enfoque computacio- 1.1 Biolog´ıade Sistemas 21 nal, estos m´etodos conocidos como in silico permiten identificar las posibles interacciones entre prote´ınasque no han podido ser identificadas con los metodos clasicos anteriormente descritos (Rao et al., 2014). Uno de los enfoques computacionales m´asutilizados consiste en modelar las posibles interacciones entre prote´ınasa partir de sus estructuras tridimensiona- les. No obstante, el conocimiento acerca de esta estructura es incierta para muchas prote´ınas por lo cual debe ser estimada por algoritmos dise˜nadospara tal fin (Zhang et al., 2012). Una vez determinadas las estructuras tridimensionales entre las prote´ınasbajo estudio y su posible interacci´on,se puede extrapolar la informaci´onobtenida para prote´ınassimilares con el fin de conducir hip´otesisacerca de posibles interacciones entre ellas (Rao et al., 2014).

Tambi´enes posible identificar interacciones prote´ına-prote´ınapor medio de la secuencia de amino´acidossin la necesidad de estimar su estructura tridimensional (Rao et al., 2014; Ben- Hur and Noble, 2005). Para ello uno de los m´etodos aplicados consiste en determinar una secuencia de amino´acidoshom´ologapresente en otra especie y para la cual su funci´one in- teracciones ya sean conocidas, una vez identificada una secuencia de este tipo es posible, por extrapolaci´on,anotar la secuencia de amino´acidosde entrada y bajo el supuesto de ortolog´ıa, determinar las interacciones con otras prote´ınasort´ologaspresentes en el organismo de ori- gen (Lee et al., 2008b). Adicionalmente, otro m´etodo bajo este enfoque predice las posibles interacciones prote´ına-prote´ınapor medio de la identificaci´onde las interacciones dominio- dominio bajo relaciones ya conocidas de este tipo e identificando adem´asla secuencia de amino´acidoscorrespondiente al dominio entre las prote´ınasbajo estudio (Memiˇsevi´cet al., 2013; Rao et al., 2014).

Existen adem´asformas de identificar potenciales interacciones prote´ına-prote´ınautilizando la secuencia de DNA de su correspondiente gen (Rao et al., 2014). Una forma de identifi- car estas relaciones a partir de la secuencia de nucle´otidosparte del aprovechamiento del n´umerode genomas en ascenso y haciendo uso del supuesto en el cual proteinas relaciona- das entre si pueden estar posiblemente en el mismo paquete cromos´omico(Yamada et al., 2003; Rao et al., 2014). Este supuesto es mucho m´asevidente en bacterias dada la exis- tencia de operones, aun as´ıes aplicado para identificar las interacciones prote´ına-prote´ına en otros organismos identificando todos los genes pertenecientes al vecindario cromos´omico de un gen en particular el cual codifica para la prote´ınapara la cual se desea conocer sus posibles interacciones (Yamada et al., 2003; Rao et al., 2014). Adicionalmente, es posible identificar interacciones prote´ına-prote´ınabasado en el supuesto de fusi´onentre dominios simples para generar prote´ınasmultidominio, por lo cual identificar los dominios asociados a estos complejos permite proponer potenciales interacciones entre prote´ınascuyo dominio est´einvolucrado en este fen´omeno (Freiberg, 2001).

Como se ha podido observar con anterioridad, los supuestos juegan un papel fundamental dentro del desarrollo de cada uno de los m´etodos in silico para la identificaci´onde interac- 22 1 Antecedentes ciones prote´ına-prote´ına(Rao et al., 2014). Un m´etodo donde este hecho es especialmente latente es conocido como doble h´ıbrido(I2h), que a diferencia del m´etodo in vivo del mis- mo nombre, est´abasado bajo el supuesto que dos prote´ınasque interaccionan juntas deben co-evolucionar, de modo tal que si la secuencia de amino´acidosde la primera muta, la secuen- cia de la segunda prote´ınadebe llevar a cabo modificaciones compensatorias para permitir conservar la capacidad de interaccionar (Park et al., 2006; Pazos and Valencia, 2002). Para identificar este hecho se analizan m´ultiples secuencias de cada prote´ınapor medio de un alineamiento m´ultipley se determinan los coeficientes de correlaci´onpara cada posici´onen el alineamiento para finalmente establecer si las diferencias entre la distribuci´onde correla- ciones son iguales entre ambas prote´ınas.Dado que dichas diferencias en la distribuci´onsean iguales se concluye una potencial interacci´onentre ambas prote´ınas(Park et al., 2006; Pazos and Valencia, 2002).

Otra forma de identificar potenciales interacciones entre prote´ınasa partir del supuesto de co-evoluci´ones por medio del an´alisisde las matrices de distancias entre dos organismos relacionados (Rao et al., 2014). Este m´etodo consiste en obtener las matrices de distancia de los ´arboles filogen´eticospara las mismas prote´ınaspero en dos organismos que est´enrela- cionados, de manera tal que al aplicar un m´etodo de correlaci´onlineal para ambas matrices, se espere un alto valor indicando similitud entre los patrones evolutivos (co-evoluci´on)lo cual es un indicativo de potenciales relaciones de interacci´onf´ısicao funcional entre las pro- te´ınasque fueron tenidas en cuenta en la inferencia filogen´etica(Craig and Liao, 2007). Un supuesto adicional que alimenta al anteriormente mencionado acerca de la co-evoluci´onde las prote´ınasconsidera que al estar vinculadas funcionalmente, durante el tiempo, diferentes presiones evolutivas causan que estas permanezcan en el genoma o desaparezcan de manera conjunta, siendo este hecho observable cuando perfiles filogen´eticosentre diversas especies son comparadas (Lin et al., 2013; Rao et al., 2014).

La expresi´onde genes tambi´enha sido tenida en cuenta para la identificaci´onde interaccio- nes de tipo prote´ına-prote´ınadado que a partir de la cuantificaci´onde la expresi´onde los genes para unas condiciones experimentales determinadas, es posible aplicar algoritmos de agrupamiento para identificar grupos de genes cuya expresi´onsea similar (Grigoriev, 2001; Rao et al., 2014). A partir de los resultados de dicho agrupamiento se establece el supuesto que los genes de un grupo solo interact´uanentre ellos para realizar una tarea espec´ıficarela- cionada con las condiciones experimentales y por lo tanto no establecen ninguna interacci´on con genes de otro grupo. De esta manera y analizando los productos proteicos de dichos genes se puede establecer por medio de estos an´alisisde expresi´onno solo las posibles relaciones de interacci´onentre prote´ınassino adem´asel posible mecanismo biol´ogicoen el que est´an implicados (Grigoriev, 2001).

Para las interacciones de tipo prote´ına-prote´ına tambi´enexisten bases de datos p´ublicas 1.1 Biolog´ıade Sistemas 23 las cuales se caracterizan por almacenar la informaci´ontanto experimental, bajo diferentes criterios, como relaciones estimadas y adicionalmente cada una de ellas posee herramientas propias que permiten el analisis y visualizacion de las interacciones prote´ına-prote´ınaque tienen almacenadas (Zahiri et al., 2013). En el caso de resultados obtenidos de forma expe- rimental, existen una serie de bases de datos que se encargan de analizar, estimar y curar la informaci´onrecolectada generando as´ıque cada base de datos posea un n´umerodiferente de interacciones entre prote´ınasy a su vez la informaci´onasociada a cada interacci´onsea diferente (Rao et al., 2014).

Bases de datos como BIND (Biomolecular Interaction Network Database) y DIP (Database of Interacting ) se caracterizan por almacenar informaci´onexperimental de interac- ci´onentre prote´ınas, con la diferencia que la primera de ellas permite obtener la descripci´on del experimento inclusive dando el enlace a la correspondiente publicaci´on,mientras la se- gunda base de datos se caracteriza por dar informaci´onsolamente de relaciones pareadas entre prote´ınas(Bader et al., 2003; Xenarios et al., 2002). Por otra parte, existen bases de datos que obtienen datos de interacci´onprote´ına-prote´ınaa partir de informaci´oncontenida netamente en la literatura, dos ejemplos de este tipo de bases son MINT (Molecular INTer- action), el cual obtiene la informaci´onde toda la literatura existente y iHOP (information Hyperlinked Over Proteins) el cual la obtiene espec´ıficamente de las publicaciones almace- nadas en la base de datos de PubMed (Zanzoni et al., 2002; Licata et al., 2011; (Fern´andez et al., 2007)).

Existen a su vez iniciativas cuyo objetivo consiste en consolidar la informaci´onexperimental de las interacciones prote´ına-prote´ınaexistentes en las bases de datos p´ublicas,una de las m´asimportantes es APID (Agile Protein Interaction Data Analyzer), la cual consolida toda la informaci´onexistente y adicionalmente posee sus propio conjunto de herramientas para el an´alisisy visualizaci´onde toda la informaci´on que esta contiene (Prieto and De Las Rivas, 2006). Adicionalmente, PINA2 (Protein Interaction Network) ha sido ampliamente utilizada y consiste en la integraci´onde la informaci´onde seis bases de datos especializadas en inter- acciones obtenidas por medio experimental, las cuales se caracterizan especialmente por ser curadas manualmente y adem´asposee herramientas para la reconstrucci´on,filtro y an´alisis de redes de interacci´onprote´ına-prote´ınaconstruidas a partir de la informaci´onalmacenada (Cowley et al., 2011).

En cuanto a las interacciones prote´ına-prote´ınadetectadas por medio de m´etodos in silico, existen varias herramientas de libre acceso que pueden ser implementadas dependiendo del tipo de enfoque que se desea utilizar (Rao et al., 2014). Dentro de estas herramientas cabe re- saltar la base de datos STRING la cual posee informaci´onde interacciones prote´ına-prote´ına predecidas por los desarrolladores utilizando cada uno de los enfoques anteriormente mencio- nados adhiriendo adem´asinformaci´on de interacciones presentes en la literatura (Szklarczyk 24 1 Antecedentes et al., 2014). Como forma de soportar cada una de las interacciones estimadas entre prote´ınas esta herramienta utiliza como referencia a la base de datos KEGG la cual se caracteriza por ser una colecci´onde otras bases almacenando informaci´onde rutas metab´olicasy de se˜nali- zaci´onas´ıcomo la informaci´onrelacionada con cada prote´ınay mol´eculade forma individual (Kanehisa, 2002).

Las redes de interacci´onprote´ına-prote´ınahan sido fundamentales en el desarrollo de la bio- log´ıade redes y han sido ampliamente utilizadas con m´ultiples prop´ositos,desde el desarrollo mismo de la teor´ıade redes aplicada a la biolog´ıacomo en el entendimiento de fen´omenos biol´ogicosy el desarrollo de nuevas t´ecnicas (Barabasi and Oltvai, 2004; Rual et al., 2005). Es por ello que determinar las interacciones entre prote´ınasha sido de particular inter´es entre los investigadores desarrollando tanto m´etodos experimentales como computacionales que permitan descubrir y predecir dichas relaciones ya sean de tipo f´ısicaso funcionales (Rao et al., 2014; Zahiri et al., 2013). Cada uno de estos m´etodos posee niveles de incertidumbre relacionados con falsos positivos y ruido de fondo cuyos efectos han tratado de ser eliminados pero a´unson un problema latente en este tipo de estudios por lo que integrar varios de estos m´etodos parece una opci´onviable para soportar las interacciones entre prote´ınasa partir de m´asde un tipo de evidencia (Szklarczyk et al., 2014).

1.1.3. Comparaci´onde redes biol´ogicas Con el masivo incremento en los datos biol´ogicosdisponibles y con la disponibilidad de t´ecni- cas de alto rendimiento en aumento, la biolog´ıade redes ha sido una rama del conocimiento con cada vez mayor aceptaci´ony esto implica que cada d´ıam´asy m´asresultados est´anal alcance de la mano y son cada vez m´aslos m´etodos que facilitan la integraci´onde datos para obtener redes biol´ogicas.Esto implica, que as´ıcomo en el desarrollo de otras ramas de la biolog´ıa,el an´alisiscomparativo entre resultados sea de gran inter´esentre los investigadores (Meng et al., 2016).

Los an´alisisde este tipo son fundamentales para determinar las coincidencias biol´ogicasya sea, por ejemplo, entre especies o entre fenotipos particulares. Es por ello que se han imple- mentado metodolog´ıaspropias de teor´ıade grafos para la comparaci´on de redes biol´ogicas y de manera adicional en los a˜nosrecientes, nuevos m´etodos de comparaci´onhan sido pro- puestos para el an´alisis espec´ıficode redes biol´ogicassiendo varias de ellas las m´asaltamente utilizadas constituyendo la columna vertebral de este tipo particular de an´alisis(Fionda, 2011).

Los an´alisiscl´asicospara la comparaci´onde redes pueden ser clasificados dentro de dos gru- pos principalmente. El primero de ellos hace referencia al emparejamiento exacto entre las redes, esto implica que para dos redes G1 = (V1,E1) y G2 = (V2,E1), los enlaces pertenecien- 1.1 Biolog´ıade Sistemas 25

tes al conjunto E1 deben ser iguales a los pertenecientes al conjunto E2, es decir, que deben ser grafos isomorfos y por lo tanto la comparaci´onpuede ser realizada en ambas direcciones (Dehmer and Emmert-Streib, 2007). Por otro lado, tambi´enes posible determinar subgrafos isom´orficospara este tipo de comparaciones, es decir, determinar los enlaces de E1 que co- rrespondan en el conjunto E2, este tipo de comparaciones implica entonces la formulaci´onde algoritmos que permite identificar el m´aximosubgrafo com´unentre las redes (Mueller et al., 2013).

El principal problema con respecto a este m´etodo consiste b´asicamente en el incremento exponencial en el poder de c´omputoa medida que v´erticesy enlaces son a˜nadidos, teniendo en cuenta que las redes biol´ogicas son de un gran tama˜no(miles de v´ertices),estos m´etodos representan un inconveniente en el tiempo polinomial (Bunke, 2000; Mueller et al., 2013). Es por ello que han sido desarrollados nuevos m´etodos pertenecientes al segundo grupo de an´alisiscomparativos cl´asicoslos cuales consisten en el emparejamiento inexacto de redes. Este tipo de m´etodos consiste en determinar el n´umerode pasos o estimar una distancia teniendo en cuenta el n´umerode modificaciones necesarias para transformar una red A en otro tipo de red B bajo la cual se est´adesarrollando la comparaci´on(Fionda, 2011; Meng et al., 2016).

En el caso concreto de las redes biol´ogicas y especialmente en el caso de redes de interacci´on prote´ına-prote´ına, se ha desarrollado una reformulaci´ondel emparejamiento denominada ali- neamiento de redes las cuales buscan las coincidencias entre los v´erticesde dos redes bajo comparaci´on(Fionda, 2011; Kuchaiev et al., 2010). Se debe tener en cuenta que las redes que ser´anobjeto de comparaci´ondeben tener una concordancia biol´ogica puesto que en este caso se busca identificar elementos (v´ertices)o asociaciones (rutas o agrupamientos) comunes entre especies o entre fenotipos que permitan ya sea la identificaci´onde posibles mecanismos evolutivos conservados o la anotaci´onde componentes moleculares poco conocidos (Kuchaiev et al., 2010).

Al igual que los enfoques comparativos tradicionales, existen dos grupos principales en que los m´etodos de alineamiento pueden ser clasificados. El primero de ellos es el alineamiento local de redes el cual consiste en determinar subredes similares y el segundo de ellos es el alineamiento global de redes el cual considera todos los v´erticescontenidos en ambas redes (Fionda, 2011; Meng et al., 2016). Cabe destacar que los m´etodos de alineamiento local fue- ron los primeros en ser desarrollados, en cambio los m´etodos de alineaci´onglobal han sido un desarrollo reciente pero en ambos casos los algoritmos desarrollados han buscado resolver el problema del hallazgo del alineamiento ´optimo por ende cada herramienta puede generar resultados diferentes (Fionda, 2011).

Los m´etodos de alineamiento fueron desarrollados en tres momentos diferentes, en el primero 26 1 Antecedentes de ellos se desarrollaron herramientas capaces de generar alineamiento pareado entre redes biol´ogicas,siendo la herramienta PathBlast una de las m´asutilizadas en este tipo de an´ali- sis cuya finalidad era determinar complejos (m´odulos)o rutas concordantes entre dos redes (Kelley et al., 2004). En un segundo momento se desarrollaron herramientas capaces de rea- lizar alineamientos m´ultiplesentre redes, pero como en el caso anterior fueron desarrolladas para realizar esta tarea de manera local, NetworkBlast es una herramienta basada en este enfoque (Kalaev et al., 2008). Finalmente, herramientas capaces de generar alineamientos globales han sido desarrolladas y en este caso se han generado para alineamientos pareados y m´ultiples en el mismo periodo de tiempo, como ejemplo cabe destacar a la herramienta IsoRank para alineamientos m´ultiplesy a la herramienta desarrollada por Zaslavskiy et al. (2009) para alineamiento pareado (Liao et al., 2009; Fionda, 2011).

Los m´etodos de comparaci´onde redes anteriormente descritos, tanto los m´etodos de empa- rejamiento como los de alineamiento, han representado la columna vertebral de este tipo de an´alisisy son los m´asampliamente descritos, analizados y utilizados en el desarrollo de estudios asociados a biolog´ıade redes (Kuchaiev and Prˇzulj,2011; Mohammadi and Grama, 2012). Por otra parte, nuevas e innovadoras metodolog´ıasson constantemente generadas, una de ellas es la comparaci´onde los descriptores topol´ogicospara una o varias redes. Estos descriptores son redes ponderadas invariantes que caracterizan la topolog´ıade una red es- pec´ıfica y posee la ventaja que permite comparar redes de gran tama˜no(Mueller et al., 2013).

La comparaci´onde dichos descriptores topol´ogicospermite adem´asla identificaci´onde iso- morfismos dado que para dos redes isom´orficassus descriptores topol´ogicosser´aniguales, esto representa a su vez una nueva forma de aplicar comparaciones por emparejamiento exacto entre redes biol´ogicasde gran tama˜no resolviendo en parte los problemas computacionales asociados a este m´etodo mencionados con anterioridad (Mueller et al., 2013).

Otra metodolog´ıadesarrollada para la comparaci´onde redes ha sido la estimaci´onde un valor de distancia entre dos redes a partir de sus distribuciones de probabilidad. Aunque en teor´ıade redes diferentes m´etricas han sido desarrolladas para obtener una distribuci´onde probabilidad, en redes biol´ogicas es posible utilizar la distribuci´onque ha sido descrita con anterioridad y que ha permitido adem´asel desarrollo de los principales modelos topol´ogicos en este campo (Barabasi and Oltvai, 2004). En cuanto a la forma de estimar un valor de distancia a partir de las distribuciones, se ha aplicado en trabajos anteriores la divergencia de Kullback-Leibler, aunque metodos de uso com´uncomo la distancia Euclidiana tambi´en pueden ser aplicados (Kugler et al., 2011; Mueller et al., 2013).

Como se ha podido observar, los dos m´etodos descritos anteriormente involucran el an´alisis y comparaci´onde formas cuantitativas que describen el comportamiento topol´ogicode las redes (Mueller et al., 2013). Por otro lado, formas que involucran la modificaci´onparcial de 1.1 Biolog´ıade Sistemas 27 las redes han sido propuestas, un ejemplo de ello es el trabajo de Ay et al. (2012), quie- nes proponen una forma de comprimir las redes originales. Para ello combinan los v´ertices vecinos de uno de bajo valor de grado en uno solo denominado supernodo, posteriormente las redes comprimidas son comparadas por m´etodos de emparejamiento. Este m´etodo puede solventar en parte los dilemas relacionados con el poder de c´omputoal reducir la complejidad de las redes bajo comparaci´onsiempre y cuando exista la suficiente cantidad de v´erticesde bajo valor de grado que permitan la creaci´onde supernodos (Ay et al., 2012).

Adem´asde los m´etodos desarrollados con el fin de comparar dos redes con un tama˜nosi- milar (n´umerode v´erticesy enlaces), tambi´enhan sido generados m´etodos para buscar un subgrafo determinado en una red (Fionda, 2011). Este m´etodo de “consulta” es aplicado principalmente cuando se poseen m´oduloscaracter´ısticosde un proceso biol´ogicodetermi- nado y se desea determinar su existencia en una red de la misma naturaleza (interaccion proteina-prote´ınapor ejemplo) pero perteneciente a una especie poco estudiada esperando determinar el mismo m´oduloy de esta forma anotar el proceso biol´ogico en la especie bajo estudio o determinar m´odulosaproximados y proponerlos como posibles procesos relaciona- dos (Bruckner et al., 2010; Fionda and Palopoli, 2011). Desde un comienzo, estos m´etodos han sido desarrollados para generar consultas a partir de subgrafos de peque˜notama˜nopero en los a˜nosrecientes se ha ampliado este enfoque para generar las consultas a partir de redes de gran tama˜noy adicionalmente se han generado m´etodos donde la entrada del programa son identificadores de v´ertices particulares sin informaci´onalguna acerca de la relaci´onentre estos (Fionda, 2011).

Hasta el momento, los m´etodos de comparaci´onde redes aqu´ıdescritos poseen el objetivo de estimar concordancias entre dos o m´asredes de manera tal que los resultados obtenidos tien- den a eliminar o ignorar v´erticesy enlaces dado que no son compartidos entre ambas redes o no pueden ser aproximados a una regi´ontopol´ogicaespec´ıfica en relaci´ona una segunda red bajo la cual se est´adesarrollando dicha comparaci´on.Esto ha llevado al desarrollo de una metodolog´ıabasada en la uni´onde las redes para obtener una sola capa de abstracci´on de informaci´onmolecular (Fionda, 2011).

El desarrollo de esta metodolog´ıase basa en que las redes a ser comparas son, en la mayor´ıa de los casos, construidas a partir de tipos diferente de informaci´on(interacci´on,prote´ına- prote´ına,co-expresi´onde genes, relaci´ongen-gen, entre otros) para una misma especie (Zhang et al., 2005). Adicionalmente, esta metodolog´ıatiene en cuenta la notaci´onde los v´ertices dado que para generar la uni´onde manera satisfactoria, varios v´ertices o enlaces deben estar presentes entre las redes a modo de puntos de uni´ony debe poseer el mismo nombre en los conjuntos V1 y V2 para identificar plenamente que corresponde al mismo componente molecular. Esto genera finalmente una sola red biol´ogicarepresentativa de varios tipos de interacci´onmolecular lo cual, dado el caso que un enlace particular aparezca en varias redes 28 1 Antecedentes iniciales, la capa de uni´onpresentara m´ultiplesenlaces entre los dos v´ertices relacionados (pseudografo) (Fionda, 2011).

A pesar que este enfoque logra reducir la complejidad de an´alisisdado que ahora la informa- ci´onest´acontenida en una sola red, los inconvenientes de esta representaci´ontienen como base el hecho que los m´etodos de an´alisis cl´asicosde redes biol´ogicastales como identificaci´on de m´odulosy motivos tienen una base matem´aticaque parte del an´alisisde los conjuntos de v´erticesy enlaces, por lo cual no pueden, en la mayor´ıade los casos, discriminar el origen de los enlaces dando as´ıresultados que mezclan informacion molecular de varios tipos y por lo tanto cualquier conclusi´ona partir de los resultados topol´ogicosobtenidos podr´ıanser puestos en duda (Fionda, 2011).

Diferentes metodolog´ıas han sido desarrolladas para comparar redes biol´ogicascon el fin de agruparlas de acuerdo a criterios de similitud, el prop´ositode esta clasificaci´onde redes se debe a la necesidad existente con respecto a identificar, dentro de un conjunto de redes dado, cu´alesde ellos son topol´ogicamente representativos o posiblemente contienen informa- ci´onrelacionada a un fen´omenobiol´ogicoparticular (Mueller et al., 2013). Para desarrollar dichos agrupamientos, enfoques de aprendizaje de m´aquina han sido implementados, princi- palmente m´etodos de kernel y una derivaci´onde estos conocido como support vector machine (SVM) (Kashima and Inokuchi, 2002). Para poder utilizar estos m´etodos de aprendizaje es necesario tener una muestra o ejemplo de agrupaciones ya conocidas para que a partir de estos datos se genera un clasificador que pueda ser aplicado a las redes problema y obtener las agrupaciones. Debido a la naturaleza matem´aticade este enfoque, es necesario tener una medida que represente la topolog´ıade las redes bajo estudio, para ello se han utilizado los descriptores topol´ogicose inclusive las distancias obtenidas a partir de la comparaci´onentre distribuciones de probabilidad (Mueller et al., 2013; Kashima and Inokuchi, 2002).

La comparaci´onde redes biol´ogicas ha supuesto un reto para los investigadores y a´unm´as en los a˜nosreciente gracias al aumento en la informaci´onbiol´ogicaalmacenada en bases de datos y a las t´ecnicasde alto rendimiento que permite obtener informaci´onde manera masiva lo que ha derivado en el aumento de las redes biol´ogicasdisponibles as´ıcomo en su complejidad relacionada a su tama˜no(Fionda, 2011; Meng et al., 2016). Adicionalmente, el n´umerode hip´otesisque han logrado ser resueltas por medio de la comparaci´onde redes ha aumentado por lo cual el desarrollo de nuevos m´etodos que permitan evaluar diversas hip´otesisse hace necesario teniendo en cuenta la complejidad de las redes como consecuencia de los dos hechos anteriormente mencionados y teniendo en cuenta adem´aslos enfoques ya existentes y ampliamente utilizados como una base para su desarrollo. 1.2 An´alisisde Fenotipos Usando Biolog´ıade Redes 29

1.2. An´alisisde Fenotipos Usando Biolog´ıade Redes

A lo largo de este cap´ıtulo,se han descrito los supuestos bajo los cuales trabaja la teor´ıade redes biol´ogicas,el espacio de conocimientos a´unpresente y la necesidad que esta rama busca suplir. As´ımismo, se ha dado una explicaci´onde los tipos de redes biol´ogicasutilizadas, as´ı como los principales an´alisis que se llevan a cabo de manera general y particular en cada caso (Barabasi and Oltvai, 2004; Rao et al., 2014; van Dam et al., 2017). Finalmente, se han descrito metodolog´ıasnovedosas para integrar y comparar redes biol´ogicascon el obje- tivo de extraer informaci´onque no es posible obtener a partir de los an´alisistradicionales aplicados a una sola red biol´ogica (Boccaletti et al., 2014; Fionda, 2011; Mueller et al., 2013).

Como se explic´odesde un principio, las redes biol´ogicastienen como fin el estudio de fen´ome- nos biol´ogicosprincipalmente a nivel molecular por medio de la estimaci´onde las relaciones entre componentes moleculares (DNA, RNA y prote´ınasprincipalmente) (Edwards, 2017; Emmert-Streib and Dehmer, 2015). Dichos fen´omenosen la mayor´ıade los casos correspon- den a fenotipos concretos y esto se debe a la existencia de un gran n´umerode fenotipos cuyo origen posee bases moleculares pero que no han sido completamente entendidos. Por lo cual en la literatura es com´unencontrar gran uso de las redes biol´ogicas,haciendo ´enfasis de los m´etodos propios asociados a los tipos cl´asicosde redes para el an´alisisde fenotipos as´ıcomo el desarrollo de metodolog´ıasideadas para la reconstrucci´ony an´alisisde ciertos fenotipos en particular (Hu et al., 2011; Baranzini, 2009).

Jiang et al. (2016), generaron una redes de co-expresi´onpara 17 perfiles de expresi´onde microarreglos almacenados en la base de datos GEO Datasets para la especie Mycobacte- rium tuberculosis con el fin de determinar el mecanismo asociado a la respuesta por hipoxia activada por el factor de transcripci´onDosR. Para normalizar los datos usaron el paquete limma en R y generaron la red de co-expresi´onpara todos los genes contenidos dentro del arreglo, es decir los valores de expresi´onnormalizados no fueron analizados para determi- nar los genes diferencialmente expresados (Jiang et al., 2016; Smyth, 2005). Posteriormente utilizaron el paquete WGCNA para generar la red, este paquete se caracteriza por crear redes de co-expresi´ona partir de un proceso previo de identificaci´onde m´oduloslos cuales posteriormente fueron utilizados para determinar el posible factor de transcripci´onde DosR por medio de an´alisis de enriquecimiento de rutas almacenadas en la base de datos KEGG y por an´alisisde categor´ıasdel Gene Ontology (GO) (Jiang et al., 2016; Kanehisa, 2002; Langfelder and Horvath, 2008).

Por su parte, Wisecaver et al. (2017), generaron una redes de co-expresi´onpara ocho especies de plantas con el fin de identificar nuevos genes y rutas metab´olicasasociadas con la s´ıntesis de metabolitos secundarios. Para ello obtuvieron los genomas de las especies e identifica- ron todos los genes y para cada uno de ellos obtuvieron los datos de expresi´onconsultando 30 1 Antecedentes bases de datos tales como ATTED-II y ALCOdb (Obayashi et al., 2008; Aoki et al., 2015; Wisecaver et al., 2017). Con estas medidas de expresi´ongeneraron una red de co-expresi´on por medio de una medida de asociaci´onpropuesta por Obayashi and Kinoshita (2009) co- nocida como MR. A partir de las redes de co-expresi´onreconstruidas, identificaron todos los m´odulosutilizando el programa ClusterONE y discriminaron aquellos que no tuvieran genes previamente reportados con la s´ıntesis de metabolitos secundarios (Nepusz et al., 2012; Wisecaver et al., 2017). Los genes dentro de los m´odulosque no hab´ıansido previamente asociados con la s´ıntesis de metabolitos secundarios fueron entonces propuestos como candi- datos y adicionalmente las rutas metab´olicasasociadas igualmente fueron relacionadas con la s´ıntesis de estos compuestos (Wisecaver et al., 2017).

Como se ha recalcado con anterioridad, las redes de interacci´onprote´ına-prote´ınahan sido altamente utilizadas y estudiadas dado que un fenotipo particular es el resultado de la ac- ci´onconjunta de un n´umerode prote´ınaslas cuales interaccionan de forma espec´ıficaen una o varias rutas ya sean estas de se˜nalizaci´ono metab´olicaslas cuales generan finalmente el fenotipo espec´ıfico(Rao et al., 2014; Zea and Rueda-Toicen, 2016). Un ejemplo de ello es el estudio realizado por Gan et al. (2015) donde generaron una red de interacci´onprote´ına- prote´ınacon el fin de determinar el mecanismo y los factores que participan en la acci´on anti-inflamatoria de la curcumina, un metabolito producido por la especie Curcuma longa el cual ha sido m´edicamente recomendado y utilizado en enfermedades asociadas a problemas producto de la inflamaci´onde alg´untejido.

Para obtener la red de interacci´onprote´ına-prote´ınalos autores realizaron una b´usquedaen bases de datos tales como ChEMBL y STITCH con el fin de obtener las posibles prote´ınas con las cuales la curcumina act´uadirectamente (Gaulton et al., 2011; Kuhn et al., 2013; Gan et al., 2015). A partir de este listado de posibles objetivos utilizaron posteriormente la base de datos STRING con la cual obtuvieron las interacciones prote´ına-prote´ınacon la cual armaron finalmente la red biol´ogicala cual estaba compuesta por 482 v´erticesy 1688 aristas. La visualizaci´onde esta red de interaccion proteina-proteina fue realizada en el programa de an´alisisde redes biol´ogicasCytoscape con la cual adicionalmente implementaron el m´etodo de detecci´onde m´odulosMCODE (Szklarczyk et al., 2014; Smoot et al., 2010; Bader and Hogue, 2003; Gan et al., 2015). Cada uno de los 19 m´odulosobtenidos fue analizado por medio de las categor´ıasdel Gene Ontology (GO) identificando que dos m´odulosestaban estrechamente relacionados con procesos anti-inflamatorios resaltando el posible papel vital de las prote´ınasSAM, ERG y TLR9 en este proceso (Gan et al., 2015).

Por otra parte, esfuerzos por determinar el fenotipo asociado a una prote´ınahan sido efec- tuados debido a que en muchos casos se conoce la existencia de una prote´ınapero no se ha establecido el proceso o incluso su funci´ondentro de la c´elula.Por tal motivo Hu et al. (2011) desarrollaron un m´etodo para la predicci´onde los fenotipos asociados a prote´ınasdentro de 1.2 An´alisisde Fenotipos Usando Biolog´ıade Redes 31 una red de interacci´onprote´ına-prote´ına.Este m´etodo consiste b´asicamente en obtener un listado de prote´ınascuyo fenotipo asociado sea conocido y usarlos como query de la base de datos STRING para obtener las relaciones de prote´ınascuyo fenotipo no se conoce pero si existe informaci´onde su relaci´oncon alguna otra prote´ına(Szklarczyk et al., 2014; Hu et al., 2011). Finalmente, una serie de ecuaciones son usadas para generar pesos en las aristas teniendo en cuenta los vecinos de un v´erticepara obtener, para cada uno de los v´erticescuyo fenotipo es desconocido, un vector de pesos de igual tama˜nodonde se ordenan de mayor a menor las probabilidades que una prote´ınacorresponda a un fenotipo determinado. Este vector fue desarrollado dado que una misma prote´ınapuede actuar en el origen de m´asde un fenotipo, por lo tanto se puede establecer la relevancia de una prote´ınadado su valor asociado dentro del vector (Hu et al., 2011).

Adem´as,la comparaci´onentre fenotipos ha sido de gran inter´esdurante los ultimos a˜nos gracias a que ha permitido obtener informaci´onacerca de relaciones evolutivas, eventos de comorbilidad, convergencias y divergencias a nivel molecular entre especies relacionadas y diferente tipo de conocimiento que anteriormente no era posible dilucidar con los an´alisisin- dividuales (Kuchaiev et al., 2010; Kuchaiev and Prˇzulj,2011). Desde el punto de vista de las redes biol´ogicay gracias a su capacidad de establecer relaciones precisas entre componentes moleculares ha sido posible el desarrollo de m´etodos que permitan comparar redes con el fin de obtener informaci´onnovedosa sobre eventos de convergencia y divergencia entre un conjunto de fenotipos de inter´es(Baker et al., 2014; Zhang et al., 2015b).

Un m´etodo denominado GeneWeaver fue desarrollado por Baker et al. (2014) con el fin de de comparar redes biol´ogicascon el objetivo de analizar fenotipos metab´olicossiendo estos entendidos como rutas metab´olicascon el fin de determinar los componentes (genes) com- partidos entre dos rutas debidamente caracterizadas partiendo de una visualizaci´onde red bipartita. Para validar el m´etodo propuesto, lo autores utilizaron la informaci´oncontenida en las bases de datos de Reactome, HumanCyc y Pathway Interaction Database y para ca- da una de estas bases generaron una red de interacci´ongen-gen donde la arista entre ellas correspond´ıaa la interacci´onfuncional de sus productos dentro de una ruta metab´olicade- terminada (Croft et al., 2010; Trupp et al., 2010; Schaefer et al., 2008; Baker et al., 2014). Con la lista de aristas de cada red generaron una ´unicared bipartita compuesta de cada base de datos contra el total del conjunto de aristas de todas las redes generadas, de esta manera los autores realizaron las b´usquedade los agrupamientos en esta red para determinar los componentes compartidos y de lo posible los enlaces compartidos entre diferentes rutas metab´olicasteniendo en cuenta un orden jer´arquico,desde el agrupamiento m´asgrande al m´aspeque˜no(Baker et al., 2014).

As´ımismo, se han desarrollado diferentes metodolog´ıascon el fin de poder determinar los componentes y procesos biol´ogicosque son comunes entre diferentes fenotipos, un ejemplo 32 1 Antecedentes que cabe destacar es el estudio desarrollado por Zhang et al. (2015b) cuyo objetivo fue com- parar dos enfermedades y un subtipo de enfermedad, siendo el c´ancerde mama, la diabetes mellitus y la diabetes mellitus tipo 2 los fenotipos escogidos. Para llevar a cabo las compa- raciones extrajeron todos los genes directamente relacionados a estas enfermedades dentro de la base de datos OMIM, con este listado de genes utilizaron una m´aquinade b´usqueda de texto conocida como Agilent Literature Search 2.71 para extraer de la literatura las posi- bles asociaciones entre ellas y adherir componentes moleculares nuevos a la red. Por ´ultimo, identificaron todos los m´odulosde red por medio de la herramienta MCODE y determinaron cu´aleseran iguales entre las tres enfermedades (Amberger et al., 2014; Bader and Hogue, 2003; Zhang et al., 2015b). Sus resultados confirman la existencia de modulos identicos entre enfermedades y a partir de an´alisisde enriquecimiento han determinado potenciales procesos comunes tales como glicosilaci´on,autofagia y replicaci´ondel DNA. Adicionalmente se afirma que dentro de los procesos identificados existen mecanismos estrechamente relacionados con enfermedades tales como Alzheimer, Huntington y trastorno depresivo (Zhang et al., 2015b).

Los ejemplos anteriormente mencionados, adem´asde introducir los aspectos fundamentales asociados al estudio de fenotipos basado en m´etodos derivados de la teor´ıade redes biol´ogicas, han permitido resaltar las aplicaciones de los fundamentos que se han venido mencionado con anterioridad los cuales pueden resumirse en dos aspectos principalmente: i) el uso de datos biol´ogicosde diverso origen (gen´omicos,transcript´omicos,metabol´omicos,etc) para la reconstrucci´onde una red cuya topolog´ıaresuma toda esta informaci´onde manera conjunta y ii) la identificaci´ony analisis de modulos de red bajo el supuesto que sus componentes est´an estrechamente relacionados en un proceso biol´ogicoen particular (Gan et al., 2015; Zhang et al., 2015b). Dichos estudios han permitido generar hip´otesisnovedosas acerca del origen y desarrollo de fenotipos particulares y as´ımismo de mecanismos comunes entre fenotipos (Gan et al., 2015; Zhang et al., 2015b). No obstante, en lo a˜nosrecientes se han llevado a cabo estudios con el fin de analizar estas metodolog´ıasampliamente utilizadas y cuyos resultados han demostrado que esta v´ıapor la cual se obtienen resultados a partir de redes biol´ogicasno es la m´asid´oneadados dos inconvenientes principalmente: i) las redes biol´ogicas construidas a partir de la uni´onde m´ultiplesdatos biol´ogicospor lo general alteran la topolog´ıaresultante de manera tal que los resultados pueden estar sesgados por ruido de fondo y ii) en muchos casos los elementos moleculares dentro de los m´odulosrealmente relacionados con el fenotipo en cuesti´onson menores al 20 % del total de los componentes embebidos dentro del m´oduloy adem´aslos an´alisisbasados en m´odulosignoran la topolog´ıade la red restante ignorando la informaci´oncontenida en esta (Gaiteri et al., 2014; Fionda, 2011; Gillis and Pavlidis, 2012). Por lo anteriormente mencionado, una metodolog´ıaque permita discernir redes biol´ogicas por cada tipo de informaci´onbiol´ogicautilizada y adem´astenga en cuenta la totalidad de la informaci´oncontenida en la topolog´ıade estas redes se hace necesario. 1.3 Enfermedades Neurodegenerativas 33

1.3. Enfermedades Neurodegenerativas

Las enfermedades neurodegenerativas se caracterizan b´asicamente por la p´erdidaprogresiva de neuronas en diferentes partes del sistema nervioso. No obstante, esta p´erdidaprogresiva no solo se limita a neuronas sino tambi´enpuede darse en diferentes tipos de c´elulasnervio- sas y adicionalmente las regiones donde estos eventos ocurren son bien establecidos y los s´ıntomas generado a partir de ello son tambi´enprecisos de manera tal que ha sido posible identificar y categorizar una serie de enfermedades en concreto (Kovacs, 2014; Wyss-Coray, 2016). La mayor´ıade estas enfermedades aunque est´anrelacionadas con el envejecimiento, tambi´enpueden presentarse en poblaci´onjoven y gracias al aumento de la expectativa de vi- da a nivel mundial la prevalencia de estas enfermedades se espera sea mayor en los pr´oximos a˜nossiendo la poblaci´onperteneciente a pa´ısesen desarrollo la m´asafectada (Wyss-Coray, 2016; Erkkinen et al., 2017).

La enfermedad de Alzheimer es el desorden neurodegenerativo de mayor prevalencia a ni- vel mundial y se caracteriza por la p´erdidaprogresiva de memoria, incluyendo episodios de p´erdidade memoria autobiogr´aficay a medida que la enfermedad progresa se puede obser- var p´erdidade memoria inmediata dificultando la retenci´onde fechas y apuntes e incluso se vea un comportamiento repetitivo en los pacientes incluyendo repetici´onde preguntas y de comentarios en una conversaci´on(Markowitsch and Staniloiu, 2012). En t´erminosde preva- lencia, la enfermedad de Alzheimer representa del 60 % al 80 % de todos los casos de demencia a nivel mundial, adem´asse estima que existan alrededor de 24 millones de personas afecta- das por este mal a nivel mundial (Erkkinen et al., 2017; Mayeux and Stern, 2012; Sosa-Ortiz et al., 2012). Como se mencion´oanteriormente, es posible que los primeros s´ıntomas apa- rezcan en personas j´ovenes, aunque la incidencia aumenta 15 veces en personas entre los 60 y los 80 a˜nosde edad (Erkkinen et al., 2017; Mayeux and Stern, 2012; Sosa-Ortiz et al., 2012).

La demencia frontotemporal se caracteriza por la p´erdidaneuronal predominantemente den- tro del l´obulofrontal y del l´obulotemporal anterior as´ıcomo en el c´ortexinsular y en regiones subcorticales (Erkkinen et al., 2017). Este tipo de demencia, a diferencia de la enfermedad de Alzheimer se caracteriza por un cambio en el comportamiento de la persona afectada incluyendo alteraciones de comportamiento, emocional y a nivel social resaltando en este ´ultimocaso comportamientos de desinhibici´on,comportamiento inapropiado, p´erdidade la empat´ıae inclusive llegando a cambios en las preferencias de la dieta (p´erdidade gusto por cierto tipos de comida) evolucionando a un comportamiento bucal exploratorio (Rascovsky et al., 2011). En cuanto a su prevalencia, la demencia frontotemporal aparece por lo general antes de los 65 a˜noscon un 13 % de casos con primeros s´ıntomas registrados antes de los 50 a˜nos de edad. A nivel mundial se estima que su incidencia es de 17 por cada 100.000 habitantes (Onyike and Diehl-Schmid, 2013; Erkkinen et al., 2017). 34 1 Antecedentes

La enfermedad de Parkinson es la segunda de mayor prevalencia en el mundo despu´esde la enfermedad de Alzheimer y a diferencia de los dos casos mencionados anteriormente sus s´ıntomas se original por des´ordenesen el comportamiento motor de la persona que padece dicho mal (Erkkinen et al., 2017). Dentro de las anomal´ıasmotoras asociadas con esta en- fermedad cabe resaltar la bradicinesia, el temblor en reposo y la inestabilidad en la postura. Otras caracter´ısticasmotoras que acompa˜nana la enfermedad de Parkinson son la hipo- mimia, hipofonia, disfagia y micrograf´ıa(Thenganatt and Jankovic, 2014; Erkkinen et al., 2017). En cuanto a su prevalencia se estima que el 0.3 % de las personas en el mundo pade- cen de este mal (18 por cada 100.000 habitantes) siendo del 1 % contando solo las personas mayores de 60 a˜nosla cual es la edad media de aparici´onde los primeros s´ıntomas y la expectativa de vida esta registrada para ser de alrededor de 15 a˜nosdesde el diagn´ostico definitivo (De Lau and Breteler, 2006; Erkkinen et al., 2017).

El an´alisisde las enfermedades neurodegenerativas pueden ser catalogados en dos momentos principalmente. El primero de ellos est´aasociado con el reconocimiento neuroanat´omicode las regiones del sistema nervioso afectado, siendo principalmente el cerebro el m´asexplo- rado debido a que el uso de im´agenesde resonancia ha permitido determinar las regiones espec´ıficas donde se ha desarrollado la neurodegeneraci´on(Erkkinen et al., 2017). El segundo momento est´aasociado con la aplicaci´onde la biolog´ıamolecular para estimar los fen´omenos celulares y los componentes moleculares espec´ıficos que conllevan a la muerte de las c´elulas nerviosas dependiendo de la enfermedad en cuesti´on(Kovacs, 2014).

1.3.1. An´alisisclasicos en enfermedades neurodegenerativas An´alisismorfol´ogicos Uno de los grandes inconvenientes a la hora de llevar a cabo an´alisisdiagn´osticospara en- fermedades neurodegenerativas es la toma de muestras para efectuar los correspondientes an´alisisdebido a que los m´etodos invasivos no pueden ser aplicados a las regiones del siste- ma nervioso donde se presentan los eventos de neurodegeneraci´on(Erkkinen et al., 2017). El reconocimiento de las regiones afectadas y por ende el verdadero diagn´osticode la enfer- medad s´oloera posible ser obtenido en an´alisispost-mortem, pero gracias a la aparici´onde la toma de im´agenespor resonancia magn´eticafue posible identificar las regiones afectadas por neurodegeneraci´onde manera in vivo (Erkkinen et al., 2017; McGowan, 2008).

Las im´agenespor resonancia magn´eticao MRI son un m´etodo no invasivo que hace uso de principios f´ısicosde campos electromagn´eticos y se˜nalesde radiofrecuencia de baja energ´ıa (McGowan, 2008). Una ventaja adicional de la toma de im´agenespor este medio es que no es necesario la irradiaci´ondel cuerpo del paciente para la obtenci´onde resultados (McGowan, 2008). Por ello el MRI se convirti´oen una herramienta fundamental en el entendimiento de la neuroanatom´ıaasociada con cada una de las enfermedades neurodegenerativas (Erkkinen 1.3 Enfermedades Neurodegenerativas 35 et al., 2017). Adicionalmente, el MRI ha permitido la identificaci´onde estructuras atrofiadas y de remanentes posteriores a la muerte celular como lo son placas de agregados de com- puestos moleculares que tambi´enhan sido ´utilesen el proceso de entender las enfermedades neurodegenerativas a un nivel macro (Erkkinen et al., 2017).

En el caso de la enfermedad de Alzheimer por ejemplo, el MRI permite la identificaci´onde regiones con atrofia desproporcionada en sectores como el hipocampo, temporoparietal late- ral, la corteza cingulata y m´ascaracter´ısticode esta enfermedad en la regi´onmesial temporal (Kantarci et al., 2010; Whitwell et al., 2012). En el caso de la demencia frontotemporal, el MRI permite el diagn´osticoapoyado con otros m´etodos dado que las im´agenesobtenidas s´olopermiten observar atrofia lobular temporal, especialmente a lo largo del gyrus temporal inferior (Rosen et al., 2002; Erkkinen et al., 2017). Otra enfermedad neurodegenerativa que puede ser analizada por medio de MRI es la degeneraci´oncorticobasal, donde las im´agenes muestran atrofia en las regiones frontal posteromedial, prerolandica y en la corteza insular dorsal (Lee et al., 2011b; Erkkinen et al., 2017).

A pesar que el MRI ha sido de mucha utilidad para clasificar las regiones afectadas por las principales enfermedades neurodegenerativas, no logra en varios casos ser una herramienta lo suficientemente eficaz para identificar regiones diagn´osticas, un ejemplo de ello es la en- fermedad de Parkinson, donde la MRI no permite identificar ninguna regi´onafectada y el diagn´osticode esta enfermedad solo es posible por las anomal´ıassintomatol´ogicaspresen- tadas por el paciente anteriormente explicadas (Erkkinen et al., 2017). Es por ello que en a˜nosrecientes se han llevado a cabo esfuerzos por determinar posibles regiones biomarca- dores para enfermedades neurodegenerativas donde se destaca una propuesta basada en la morfolog´ıade la regi´onestriatal compuesto por el n´ucleocaudado, el putamen y el n´ucleo accumbens como un posible objetivo para identificar neurodegeneraci´ona partir de MRI (Looi and Walterfang, 2013).

Los an´alisisneuroanat´omicoshan sido fundamentales para el desarrollo de diagn´osticospara muchas enfermedades neurodegenerativas principalmente por los an´alisisefectuados sobre im´agenesde resonancia magn´etica.No obstante, no todas las enfermedades de este tipo pue- den ser identificadas por este enfoque y el diagn´osticos´oloes posible cuando los s´ıntomas est´anplenamente presentes en el paciente evitando cualquier desarrollo de una terapia pre- ventiva (Erkkinen et al., 2017). Adicionalmente, este enfoque no permite llevar a acabo el pleno entendimiento del origen y desarrollo de cada una de estas enfermedades por lo cual nuevos m´etodos que permitan diagn´osticoscerteros para todas las enfermedades, el desa- rrollo de terapias efectivas y a su vez permita llenar el espacio de conocimiento acerca de la biolog´ıaasociada a neurodegeneraci´onse ha hecho necesario (Kovacs, 2014; Wyss-Coray, 2016). 36 1 Antecedentes

An´alisismoleculares Los an´alisismoleculares han permitido identificar una serie de anomal´ıasparticulares pero bien establecidas en regiones espec´ıficasdel sistema nervioso central que permiten asociar- las como factores claves de neurodegeneraci´on(Erkkinen et al., 2017; Kovacs, 2014). Ahora bien, estas anomal´ıashan sido estudiadas a fondo para determinar si estas son consecuencias resultantes del verdadero origen molecular de las enfermedades neurodegenerativas o caso contrario estas son las causantes de las enfermedades y por ende su detecci´ontemprana y el desarrollo de tratamientos efectivos permitir´an prevenir el desarrollo de la enfermedad como tal (Jimenez-Sanchez et al., 2001).

Recientemente, los esfuerzos llevados a cabo por la rama de la biolog´ıamolecular en cuanto al an´alisisde dichas anomal´ıashan permitido establecer que las agregaciones de determinadas prote´ınasest´anasociadas con enfermedades neurodegenerativas espec´ıficas(Kovacs, 2014). Adicionalmente, los procesos biol´ogicosque han sido de gran inter´esdentro de estos an´alisis han sido el sistema proteasoma-ubiquitina y la ruta lisosoma-autofagia, esto debido princi- palmente a que son rutas asociadas con la homeostasis celular y est´anestrechamente ligadas con muerte celular (neurodegeneraci´on)(AT Nijholt et al., 2011). Estas dos rutas en cuanto a procesos de homeostasis son de gran inter´es debido a que est´anligados con degradaci´onde prote´ınasque ya no son ´utilesen la c´elula,pero como se mencion´oanteriormente las enfer- medades neurodegenerativas parecen estar relacionadas con agregados proteicos anormales (Ross and Poirier, 2004; Aguzzi and O’connor, 2010).

La hip´otesisque alimenta estas investigaciones es un proceso que parte desde el origen de la anomal´ıaproteica que evita su reconocimiento por alguno de los dos sistemas anteriomente mencionados resultando en su acumulacion (Kovacs, 2014). Por lo tanto el siguiente paso est´aasociado con identificar las causas del plegamiento incorrecto de las prote´ınasprinci- palmente en el ret´ıculoendoplasm´atico,lo cual conlleva a asociar componentes tales como las chaperonas y las prote´ınasde respuesta a estr´es(Cornejo and Hetz, 2013). De manera adicional, tambi´enes posible asociar el origen de las anomal´ıasproteicas debido a modifi- caciones post-transduccionales err´oneastales como fosforilaci´on,aminaci´on,generaci´onde productos modificados por clivage lo cual conlleva a la resistencia de la prote´ınaa proteasas evitando as´ısu posterior degradaci´on(Kovacs et al., 2010).

Estas anomal´ıasde plegamiento de las prote´ınasasociadas con neurodegeneraci´onpueden tambi´enser el resultado de mutaciones o variantes del respectivo gen, esto implica entonces la necesidad del estudio de enfermedades neurodegenerativas a nivel g´enico.Dichas varian- tes en los genes pueden ser la clave del origen de neurodegeneraci´onal ser las directamente responsables en las anomal´ıasproteicas, adicionando la facilidad del estudio de genes con respecto a prote´ınassobre todo teniendo en cuenta la caracterizaci´ontridimensional de es- 1.3 Enfermedades Neurodegenerativas 37 tas (Deng et al., 2010; Cha et al., 2015). No obstante, es necesario tener en cuenta todos los actores asociados con el origen de plegamientos an´omalos mencionados anteriormente, por lo tanto dichos an´alisisgen´eticosdeben ser llevados a cabo para el estudio tanto de los agregados como de los posibles actores secundarios, por ejemplo de chaperonas, que puedan desencadenar en los plegamientos an´omalos.Esto conlleva a an´alisisde grandes dimensiones lo que dificulta el desarrollo de hip´otesisorientadas a un objetivo espec´ıfico(Kovacs et al., 2010; Deng et al., 2010; Kovacs, 2014).

Los resultados de los diferentes an´alisismoleculares han permitido identificar las prote´ınas pertenecientes a los agregados y a su vez a la identificaci´onde otras prote´ınasestrechamente relacionadas con el origen de estos agregados. Dentro de este grupo se pueden destacar: i) prote´ınatau asociada a microt´ubulos (MPTP). ii) prote´ınabeta-amiloide. iii) presenilina 1 (PSEN1). presenilina 2 (PSEN2). alfa-sinucle´ına.iv) prote´ınapri´on(PrP). v) TAR DNA proteina de union 43 (TDP-43) y vi) prote´ınasFET (Neumann et al., 2011; Kovacs et al., 2010; Kovacs, 2014). A partir de la identificaci´onde estas prote´ınasse han llevado a cabo propuestas para clasificar a las enfermedades neurodegenerativas, un ejemplo son los grupos descritos por Kovacs (2014), donde destaca 7 grupos principales. El primero de ellos son las relacionadas a Alzheimer cuyo ´unicodesorden neurodegenerativo en esta categor´ıaes la enfermedad del mismo nombre. Adicionalmente se encuentran las taupat´ıaslas cuales est´an asociadas, como su nombre lo indica, con la prote´ınaTau destacando a la enfermedad de Pick y la degeneraci´oncorticobasal (Kovacs, 2014). Otras categor´ıasque merecen ser men- cionadas son las alfa-sinucleinopat´ıasa las cuales pertenecen la enfermedad de Parkinson y la demencia por cuerpos de Lewy y los des´ordenespor trinucle´otidosrepetidos donde se encuentra la enfermedad de Huntington (Kovacs, 2014).

A pesar que las agregaciones proteicas son la principal hip´otesisestablecida en el origen y desarrollo de enfermedades neurodegenerativas, hip´otesisalternativas han sido propuestas en los ´ultimosa˜nossiendo varias de ellas espec´ıficaspara enfermedades neurodegenerativas en particular (Marambaud et al., 2009; Cameron and Landreth, 2010; Patejdl et al., 2016). Dichas hip´otesishan sido desarrolladas con el fin de dar una explicaci´ona diferentes obser- vaciones donde se relaciona nuevos actores en el proceso patol´ogico.Dentro de estos nuevos posibles procesos asociados con neurodegeneraci´on,varios de ellos son comunes para varias enfermedades y de las cuales se pueden destacar anomal´ıasasociadas a procesos energ´eti- cos tales como p´erdidade funci´onmitocondrial y estr´esoxidativo, p´erdidade la capacidad regulatoria de iones, acci´onde las citoquinas en procesos inflamatorios y activaci´onde la mi- croglia (Marambaud et al., 2009; Cameron and Landreth, 2010; Chitnis and Weiner, 2017).

Como se ha podido observar, a pesar que eventos moleculares como la agregaci´onde prote´ınas bien establecidas est´anestrechamente relacionadas con la aparici´onde enfermedades neuro- degenerativas, todos los procesos biol´ogicosinvolucrados en el desarrollo de este fen´omeno 38 1 Antecedentes no est´anbien explicados por lo que se hace necesario metodolog´ıasque permitan analizar todo los posibles actores asociados en diferentes niveles de organizaci´on(nivel de genes y ni- vel de productos proteicos) (Kovacs, 2014; Chandrasekaran and Bonchev, 2016). As´ımismo, se debe ahondar m´asen las nuevas hip´otesis dado que cada vez son m´aslos estudios que relacionan eventos como la inflamaci´ony la acci´onde la microglia con neurodegeneraci´on lo cual podr´ıaser la causa real de estas enfermedades o bien ser una consecuencia de la acumulaci´onde p´eptidos(Marambaud et al., 2009; Cameron and Landreth, 2010; Chitnis and Weiner, 2017).

1.3.2. Medicina de redes Como se ha venido mencionando a lo largo de este cap´ıtulo,los fenotipos son el resultado de complejas interacciones moleculares inter o intracelulares. Las enfermedades son un claro ejemplo de este fen´omenodado que rara vez uno de estos fenotipos aparece como resultado de una mutaci´ono acci´onan´omalade un gen o una prote´ınay por ello los an´alisispara determinar las interacciones moleculares y los procesos biol´ogicos asociados con enfermeda- des han adquirido en los ´ultimosa˜nosuna gran importancia (Darrason, 2015; Chen et al., 2015). Este es el prop´ositode la hoy conocida medicina de redes, determinar los principales factores moleculares asociados con una enfermedad as´ıcomo sus componentes vecinos y co- mo estos a su vez se ven afectados por acciones an´omalaso ausentes dentro de un proceso biol´ogicoespec´ıficoque bien puede ser llevado a cabo dentro de una c´elulaas´ıcomo dentro de un grupo de tejidos o inclusive dentro de un ´organoen particular (Barab´asiet al., 2010). La medicina de redes pretende por medio de los resultados de los an´alisisanteriormente mencionados no solo entender estas complejas relaciones para una enfermedad espec´ıfica sino adem´asproponer posibles blanco terap´euticos as´ıcomo biomarcadores precisos para el diagn´osticoy estimar en lo posible los componentes y procesos asociados con m´asde una en- fermedad aparentemente no relacionadas (Barab´asiet al., 2010; Chen et al., 2015; Liu, 2016).

La medicina de redes utiliza los mismos principios b´asicosde la biolog´ıade redes para es- tudiar las topologias asociadas con una o m´asenfermedades, por ejemplo un principio bien establecido en esta ´areade conocimiento es que la topolog´ıade ninguna red est´adada por azar (Barabasi and Oltvai, 2004; Barab´asiet al., 2010; Barab´asiet al., 2010). Adicionalmen- te, la forma b´asicapor la cual trabaja la medicina de redes es por medio de la creaci´onde lo que ellos denominan el interactoma humano el cual es el compendio de todas las interaccio- nes conocidas y predichas en una sola red, sean estas interacciones dadad por co-expresi´ono por regulaciones dadas por factores de transcripci´onas´ıcomo las conocidas entre prote´ınas por procesos de interacci´onf´ısica o funcional (Rolland et al., 2014; Stumpf et al., 2008; Vidal et al., 2011). Ahora bien, s´oloel 10 % del estimado del total de genes en humanos ha sido identificado para tener una relaci´ondirecta con alguna enfermedad conocida, por lo que procedimientos y supuestos para la identificaci´onde nuevos genes o productos proteicos 1.3 Enfermedades Neurodegenerativas 39 asociados con enfermedades dentro de redes tales como el interactoma humano se hacen necesarios (Barab´asiet al., 2010; Chen et al., 2015).

Ahora bien, ¿Cu´ales la posici´onde estos genes asociados con enfermedades dentro de la topolog´ıade un interactoma?, es intuitivo pensar que dichos genes/prote´ınasser´ıancentra- les en la red, es decir, ser´ıanhubs del interactoma y que la disrupci´onde su funcionalidad tendr´ıaimplicaciones de alto alcance dado su alta conectividad generando as´ıel fenotipo de enfermedad (Barab´asiet al., 2010). No obstante, estudios demostraron que aunque existen genes de enfermedad asociados a hubs, la gran mayor´ıade ellos en realidad est´anubicados en la periferia de la red, estas observaciones tienen sentido para enfermedades complejas donde existe un alto n´umerode genes o prote´ınasinvolucradas, si todos ellos fueran hub de red, con la disrupci´on de la funcionalidad de solo unos pocos de estos genes se llegar´ıaa la muerte de la c´elula,pero como se puede apreciar en todos los casos, las c´elulasson resilientes a todas estas anomal´ıas(Darrason, 2015; Barab´asiet al., 2010).

A pesar que los genes/prote´ınasrelacionados con enfermedad no hacen parte de los hubs del interactoma, dichos componentes moleculares comparten una relaci´onfuncional debido a que todos son actores en el desarrollo de dicho fenotipo, se deriva que todos participan en el mismo proceso biol´ogico.Por lo anteriormente dicho entonces se podr´ıanencontrar estos genes o prote´ınasdentro del mismo vecindario y ser´anf´acilmente identificables por medio de la b´usquedade m´odulostopol´ogicos(Parikshak et al., 2015; Vidal et al., 2011). No obstante, en medicina de redes se destacan tres tipos de m´odulos:i) el m´odulotopol´ogicoya conocido en redes biol´ogicas,ii) el m´odulofuncional, el cual se basa en vecinos de red que a pesar de no estar altamente conectados entre ellos si participan dentro de un proceso biol´ogico y iii) modulo de enfermedad el cual es la relaci´onde vecinos cercanos que participan en el desarrollo de un fenotipo de enfermedad (Barab´asiet al., 2010). Aunque estos tres tipos de m´odulospueden estar estrechamente relacionados entre s´ı,determinar los m´odulosde enfer- medad es uno de los pilares de la medicina de redes y m´etodos ampliamente utilizados se han desarrollado con este fin (Parikshak et al., 2015; Vidal et al., 2011; Bader and Hogue, 2003; Ghiassian et al., 2015).

Aunque la identificaci´onde los m´odulos de enfermedad es una de las metodolog´ıasm´asuti- lizadas dentro de la medicina de redes, se pueden destacar otras dos categor´ıasde m´etodos. La primera de ellas hace referencia a los enlaces directos de los genes/prote´ınasdel inter- actoma, es decir, los v´erticesvecinos de un gen o prote´ınade enfermedad deben estar a su vez directamente relacionados con la misma enfermedad en cuesti´on(Iossifov et al., 2008; Oti et al., 2006). Esta metodolog´ıaparece en principio muy intuitiva pero alude a supuestos basados desde cercan´ıade los genes en un locus hasta las dependencias funcionales represen- tadas en los enlaces entre los v´erticesvecinos (Barab´asiet al., 2010). La segunda categor´ıa hace referencia a los caminos de red para la identificaci´on de genes o prote´ınasasociados 40 1 Antecedentes a una enfermedad. Para ello, se utilizan m´etodos tales como random walk partiendo de un gen/prote´ınade enfermedad previamente conocido y al final, determinando el camino m´as probable, ser´anasociados los v´erticeinvolucrados con el fenotipo de enfermedad (K¨ohler et al., 2008; Vanunu et al., 2010). Estas tres categor´ıasmetodol´ogicasa pesar de tratar de resolver el mismo problema pueden poseer un mayor o un menor poder predictivo cuando son aplicados a la misma red de enfermedad (Barab´asiet al., 2010).

El an´alisisdel interactoma humano con fines de determinar elementos moleculares asociados con enfermedad, c´omose ha venido explicando, permite tambi´enla identificaci´onde m´odulos altamente conectados (topol´ogicos).En varios casos ha sido posible establecer solapamientos entre dichos m´odulospor uno o m´asv´erticesespec´ıficos,ellos permite de manera adicional extraer informaci´onacerca de posibles actores moleculares en eventos de comorbilidad (dos o m´asenfermedades subyacentes a una inicial) (Barab´asiet al., 2010). Esta idea ha permitido el desarrollo de un nuevo tipo de red que ha sido de gran importancia en el ´areade la me- dicina de redes la cual consiste en v´erticerepresentando enfermedades enlazados entre ellos si existe uno o m´ascomponentes moleculares comunes entre ellos, dicha red es denominada enfermoma y permite analizar con facilidad la posible aparici´onde una segunda enfermedad de acuerdo a una enfermedad inicial espec´ıfica(Goh and Choi, 2012; Barab´asiet al., 2010).

Las posibles relaciones de comorbilidad a partir del enfermoma fue investigado por Goh et al. (2007), en dicho trabajo los autores identificados los m´odulosde la red identificando grupos de enfermedades que fueron clasificadas como clases asociadas a una mayor probabilidad de ocurrencia de un evento de comorbilidad. Sin embargo, la validaci´onexperimental determin´o que no en todas las clases ocurr´ıaeste fen´omeno,evento que posiblemente, seg´unel argu- mento de los autores, puede darse debido a las m´ultiplesvariantes de un mismo gen, donde cada variante participa con mayor o menor fuerza en un evento biol´ogico determinado, por lo cual no solo identificar los genes asociados es suficiente sino adicionalmente tener en cuenta las variables asociadas con alguna de las enfermedades bajo estudio previamente reportadas (Goh et al., 2007; Barab´asiet al., 2010).

Otra forma en que ha sido utilizado el enfermoma para resolver hip´otesisorientadas a posi- bles evento de comorbilidad es por medio de la identificaci´onde enzimas asociadas a enfer- medades para el an´alisisde des´ordenesmetab´olicosespec´ıficamente (Lee et al., 2008a). El supuesto detr´asde este tipo de an´alisisse basa en que en muchos casos los des´ordenesde tipo metab´olicono est´adado por un conjunto de enzimas, sino que una sola sola es necesaria para cambiar los flujos metab´olicoscorrente abajo de una ruta originando de esta manera el desorden metab´olico(Barab´asiet al., 2010). Ahora bien, conocer por medio del enfermoma si una o m´asenfermedades pueden ser originadas por una misma enzima permite orientar los an´alisisde flujo metab´olicopara reacciones adyacentes y as´ırelacionar varias ruta me- tab´olicaspara identificar la posibilidad de un evento de comorbilidad a nivel metab´olico(Li 1.3 Enfermedades Neurodegenerativas 41 et al., 2011; Lee et al., 2008a).

Adicionalmente, con el fin de establecer relaciones m´asespec´ıficasentre enfermedades es posible generar aristas a partir de condiciones adicionales, una de ellas por ejemplo es enla- zar dos enfermedades si existe al menos un gen objetivo para un miRNA com´unentre ellas (Lu et al., 2008; Barab´asiet al., 2010). Este tipo de aristas ha permitido, por medio de an´alisisde agrupamiento, identificar clases de enfermedad a´unm´asespec´ıficasque aquellas identificadas en el an´alisisdel enfermoma mencionada con anterioridad siendo un ejemplo de ello la identificaci´on de una clase exclusiva para tipos de c´ancerasociados con problemas cardiovasculares (Lu et al., 2008).

El enfermoma adem´asde ser originado por la uni´onde enfermedades relacionadas por alg´un tipo de componente o fen´omenomolecular determinado, tambi´enpuede ser originado por el uso de datos cl´ınicosexclusivamente, esto permite originar un enfermoma desarrollado a par- tir de datos fenot´ıpicos(Barab´asiet al., 2010). Una manera de obtener una red de este tipo es haciendo uso de datos de historias cl´ınicasdonde se evidencie el origen de comorbilidad y las enfermedades subyacentes as´ıcomo la principal hayan sido plenamente caracterizadas, esto permite obtener una visi´onglobal de las enfermedades cuya comorbilidad ya es conoci- da para abordar diferentes an´alisiscon fines cl´ınicos(Hidalgo et al., 2009). Adicionalmente tambi´enes posible predecir este tipo de enfermoma basado en asociaciones fenot´ıpicas,para ello se utilizan las descripciones de las historias cl´ınicasde tal manera que dos enfermedades son enlazadas dentro de la red si existe vocablo m´edico(s´ıntomas espec´ıficos)com´unentre ellas. Esta red al igual que la anteriormente mencionada pueden ser analizadas con fines cl´ınicos(Van Driel et al., 2006; Barab´asiet al., 2010).

Adem´asdel estudio de las redes de enfermedad con el fin de identificar componentes mole- culares y procesos biol´ogicos implicados, la medicina de redes tambi´entiene como objetivo facilitar la identificaci´onde posibles blancos terap´euticosy del an´alisisde las drogas ya exis- tentes (Gu et al., 2011; Barab´asiet al., 2010). Una forma de poder realizar estos an´alisis es, por ejemplo, por medio de los an´alisisde balance de flujo en redes metab´olicas donde se puede estimar los cambios de flujos en rutas metab´olicasesenciales para la supervivencia de bacterias por medio de la acci´onde una droga que inhiba la funci´onde una enzima espec´ıfica o para identificar las rutas metab´olicasalternas que permiten la supervivencia del pat´ogeno bacteriano a un medicamento espec´ıfico(Fong and Palsson, 2004; Lee et al., 2009).

Otro de los an´alisisde gran inter´esen redes biol´ogicascon fines farmacol´ogicos es el estudio de los efectos secundarios de los medicamentos tanto existentes como aquellos que se en- cuentran en etapa de desarrollo (Mizutani et al., 2012; Yamanishi et al., 2014). Para llevar a cabo este tipo de an´alisisse hace uso tanto de los m´odulosde enfermedad como de los nodos vecinos a estos puesto que en primer lugar si un medicamento permite corregir la anomal´ıa 42 1 Antecedentes asociada a la ruta metab´olicaidentificada por medio del m´odulode enfermedad, tambi´en es posible identificar la posible acci´onde la droga sobre los nodos vecinos del m´odulobajo estudio (Barab´asiet al., 2010).

La anterior afirmaci´onha permitido establecer hip´otesisacerca de las relaciones multifuncio- nales de los medicamentos que anteriormente eran considerados como de efecto directo sobre un gen o prote´ınapor medio del estudio de los vecinos de dicho objetivo dentro de una red de enfermedad (Barab´asiet al., 2010). Dichas relaciones multifuncionales permiten establecer una visi´onm´asamplia del problema subyacente en un c´elulay a su vez permite el desarro- llo de terapias farmacol´ogicasorientadas a m´ultiplesobjetivos (Yang et al., 2008; Motter, 2010). Ahora bien, dichos an´alisisson centrados en identificar el menor n´umerode objetivos posibles de manera tal que dichos medicamentos pertenecientes a la terapia m´ultipleno sean detonadores de efectos secundarios asociados con los nodos vecinos de los objetivos dentro de la red, dicha terapia ha sido probada en enfermedades tales como SIDA, c´ancery depresi´on (Barab´asiet al., 2010; Yang et al., 2008; Motter, 2010).

Sin importar si es el interactoma, el enfermoma o una clase de red biol´ogicareconstruida para un tipo de fenotipo de enfermedad en espec´ıfico,los an´alisisvistos anteriormente tales como comparaci´onde redes tambi´enson aplicados en medicina de redes por lo cual es posible el desarrollo de m´etodos que permitan obtener informaci´onvaliosa para cualquier tipo de fenotipo y as´ımismo permitan el desarrollo de hip´otesisconcretas, soportadas y orientadas haciendo uso del potencial de la teor´ıade redes y m´asa´unteniendo en cuenta las falencias de los m´etodos de an´alisisen biolog´ıaredes mencionados anteriormente haciendo ´enfasisen la exploraci´onmetodol´ogicam´asall´ade la detecci´onde m´odulode red y el aprovechamiento del creciente inter´esen el manejo de redes multicapa (Barab´asiet al., 2010; Boccaletti et al., 2014). 2. Objetivos

2.1. General

Establecer una metodolog´ıapara la determinaci´onde factores, procesos y asociaciones co- munes entre diversos fenotipos biol´ogicospor medio de un an´alisisbasado en teor´ıade redes.

2.2. Espec´ıficos

Obtener la informaci´onexistente y relevante en la actualidad acerca de asociaciones prote´ına-prote´ına y expresi´onde genes en diferentes redes biol´ogicasconstruidas con base en diferentes fenotipos de inter´es.

Establecer las redes de co-expresi´ony asociaci´onprote´ına-prote´ınapara cada uno de los sets de datos obtenidos.

Desarrollar un m´etodo que permita determinar los posibles componentes y patrones de asociaci´on,a nivel topol´ogico,compartidos en las redes establecidas.

Con base en el an´alisistopol´ogicoa partir del m´etodo desarrollado, identificar posibles mecanismos moleculares comunes, subyacentes a los fenotipos bajo estudio. 3. Materiales y m´etodos

3.1. Paquete en Bioconductor

Todos los procedimientos de este trabajo en su mayor´ıafueron realizados dentro del mismo ambiente de trabajo a excepci´onde la validaci´onbiol´ogicapara la cual fue necesaria la con- sulta de bases de datos y herramientas web espec´ıficasadem´asde las p´aginasoficiales de las revistas especializadas para la descarga de los art´ıculosque sirvieron de soporte.

Todas las l´ıneasde comando utilizadas para el desarrollo del presente trabajo fueron uti- lizadas para crear un paquete el cual fue llamado coexnet el cual consiste de 11 funcio- nes diferentes que permiten la descarga de perfiles de expresi´on,as´ı como su normaliza- ci´ony la identificaci´onde datos at´ıpicos por medio de an´alisisbasado en el coeficiente de variaci´on.Este paquete incluye adem´asfunciones para la identificaci´onde genes dife- rencialmente expresados y a partir de estos generar las redes de co-expresi´on(incluyen- do la funci´onpara determinar el valor umbral) y la red de interacci´onprote´ına-prote´ına y finalmente la obtenci´onde los CCPs y los elementos compartidos. El flujo de traba- jo de este paquete se encuentra debidamente detallado en el anexo A del presente docu- mento, coexnet se encuentra almacenado en el repositorio oficial de Bioconductor (https: //bioconductor.org/packages/release/bioc/html/coexnet.html) (tabla 3.1).

Tabla 3.1.: Nombre y prop´ositode las 11 funciones del paquete coexnet. Funci´on Proposito getInfo Descarga los perfiles de expresi´onas´ıcomo la informaci´ondel chip de microarreglo. getAffy Carga los perfiles de expresi´onen R. geneSymbol Obtiene el conjunto de sondas correspondientes a cada gen dentro del microarreglo. exprMat Normalizaci´ony sumarizaci´onde perfiles de expresi´on. cofVar Obtiene el coeficiente de variaci´onpara cada gen en un perfil de expresi´on. difExprs An´alisisde genes diferencialmente expresados. findThreshold Determina el valor umbral para crear la red de co-expresi´on. createNet Crea la red de co-expresi´ona partir de un valor umbral dado. 3.2 Selecci´on de fenotipos de inter´es 45

Tabla 3.1.: Continuaci´on Funci´on Proposito ppiNet A partir de una listado de genes, genera la red de interacci´onprote´ına- prote´ınausando la API de la base de datos STRING. CCP Obtiene los Common Connection Patterns para las redes introducidas. sharedComponents Obtiene los elementos compartidos para las redes introducidas.

3.2. Selecci´onde fenotipos de inter´es

Uno de los intereses del grupo de Bioinform´aticay Biolog´ıaComputacional de la Universi- dad Nacional de Colombia, dentro de la l´ıneade investigaci´onen Medicina de Sistemas, es el estudio de los mecanismos moleculares que subyacen a algunas enfermedades neurodege- nerativas con el fin de obtener informaci´onnovedosa acerca de su origen y desarrollo por medio de m´etodos propios de estas dos ramas del conocimiento. Por tal motivo los fenotipos tenidos en cuenta para el desarrollo de este trabajo fueron cuatro de las enfermedades neu- rodegenerativas de mayor impacto a nivel mundial y nacional, y para las cuales se contaba con la mayor cantidad de datos moleculares en repositorios p´ublicosde informaci´on.De esta manera se establecieron como objetos de estudio la enfermedad de Alzheimer, la enfermedad de Parkinson y esclerosis m´ultiple(Erkkinen et al., 2017).

Adicionalmente, para ampliar el n´umerode posibles fenotipos de estudio, se utiliz´ola app de Cytoscape conocida como DisGeNET la cual posee una base de datos propia para el desarrollo de redes de enfermedad, de manera tal que se obtuvo la red para des´ordenes mentales y enfermedades neurodegenerativas donde las aristas representan al menos un gen reportado asociado a dos enfermedades. Posteriormente, se identificaron los vecinos de pri- mer y segundo grado de los v´erticescorrespondientes a las tres enfermedades anteriormente mencionadas y aquellas que pose´ıandisponibilidad de los datos biol´ogicos(detallados m´as abajo) eran tenidos en cuenta para el desarrollo de este trabajo. Los resultados de este proce- so permitieron sumar a la esquizofrenia como un cuarto fenotipo para los an´alisis posteriores.

La fuente de informaci´onprimaria para la reconstrucci´onde redes biol´ogicasfueron los per- files de expresi´onde microarreglos. La base de datos utilizada fue GEO Datasets del NCBI por ser una de las m´asampliamente referenciadas y por poseer uno de lo vol´umenesm´as grandes de datos de este tipo (Barrett et al., 2012). Para cada una de las enfermedades escogidas se llev´oa cabo una b´usquedaavanzada de acuerdo a dos criterios i) el t´ermino MeSH de la enfermedad y ii) el organismo: Homo sapiens. A partir de la lista de resultados de esta b´usquedase gener´oun script en Python para filtrar los resultados de acuerdo a 46 3 Materiales y m´etodos tres criterios i) que el nombre de la enfermedad estuviera representado en el t´ıtuloo en el resumen del perfil de expresi´onii) que el organismo de muestreo fuera ´unicamente Homo sapiens discriminando as´ılos perfiles con m´ultiplesespecies muestreadas y iii) que el resul- tado tuviera un identificador GSE el cual representa el perfil de expresi´ontotal del estudio realizado (https://github.com/juancholkovich/GEO_DataSet_Browser).

Con los resultados filtrados para cada enfermedad bajo estudio, se realiz´ouna verificaci´on manual para discriminar los perfiles de expresi´onque no tuvieran una relaci´ondirecta con alguno de estas enfermedades. Finalmente, se escogieron aquellos perfiles de expresi´onque fueron obtenidos utilizando el mismo tipo de chip de microarreglo para que los resultados posteriores fueran comparables entre ellos.

3.3. Normalizaci´ony coeficiente de variaci´on

Cada uno de los perfiles de expresi´onescogidos para cada enfermedad bajo estudio fue cargado en R usando la funci´on getAffy y para cada uno de ellos se llev´oa cabo un proceso de transformaci´onde los valores crudos de expresi´onconocido como normalizaci´on(funci´on exprMat). Este procedimiento se llev´oa cabo con el fin de eliminar las variaciones t´ecnicas (Slonim and Yanai, 2009). De esta manera las variaciones de los datos de expresi´onen cada perfil ser´anentonces considerados como las variaciones biol´ogicas (niveles de expresi´onde los genes como resultado de su activaci´onen relaci´ona un fenotipo determinado). El m´etodo de normalizaci´onutilizado fue VSN el cual consiste en la transformaci´onde los valores de expresi´onde acuerdo a la siguiente ecuaci´on:

asinh(α[k ] + β[k ] ∗ x[k ]) y[k ] = i i i (3.1) i log(2) donde y[ki] representa el valor normalizado para una sonda k en una muestra i, α[ki] es un valor de compensaci´on, β[ki] es un valor de proporcionalidad y x[ki] es el valor de intensidad lum´ınicaen la matriz de expresi´onde valores crudos (Huber et al., 2002; Huber et al., 2003).

El proceso de normalizaci´onpermiti´oobtener una matriz de sondas contra muestras, pero para el cumplimiento de los objetivo aqu´ıpropuestos era necesaria la transformaci´onde esta matriz a una de tipo genes contra muestras (sumarizaci´on).Para llevar a cabo este proceso fue necesario identificar el grupo de sondas que corresponden a fragmentos del mismo gen, esto fue posible obteniendo la informaci´onrelacionada al chip de microarreglo almacenado en la base de datos de GEO Datasets como un archivo con extensi´on.soft y del cual se iden- tificaron los genes mapeados y los identificadores de las sondas asociadas. Posteriormente se calcul´ola mediana de los valores de expresi´onnormalizados para cada muestra para el grupo de sondas correspondientes a cada gen obteniendo finalmente la matriz de expresi´on 3.4 An´alisisde expresi´ondiferencial de genes 47 necesaria para llevar a cabo los an´alisisposteriores.

Con el fin de estimar cu´alesser´ıanlos posibles perfiles de expresi´oncuya variaci´onfuera origen de ruido de fondo y por tanto fueran causantes de sesgos en los resultados finales, se calcul´oel coeficiente de variaci´onpara cada uno de los genes dentro de los perfiles de expresi´on(funci´on cofVar). Posteriormente, para cada uno de los microarreglos se gener´o un boxplot con el fin de visualizar el comportamiento de los datos at´ıpicos,esto con el fin de identificar aquellos estudios que poseyeran uno o m´asdatos at´ıpicoscon una variaci´on por encima del resto de datos y que fueran ”puntos pesados”, es decir, que fueran datos que generen sesgos aumentando el error y alterando estad´ısticosb´asicostales como el promedio dado su rango de diferencia frente al resto de valores de expresi´on.Microarreglos con este tipo de datos fueron descartados para los an´alisisposteriores con el fin de evitar tanto como fuera posible el origen de ruido de fondo en los resultados finales.

3.4. An´alisisde expresi´ondiferencial de genes

En general, los chips de microarreglos permiten la identificaci´ondel nivel de expresi´ona partir del mapeo de un gran n´umerode genes, pero no todos ellos est´anestrechamente relacionados con el fenotipo de inter´es.La identificaci´onde los genes cuya expresi´onest´a relacionada con el fenotipo bajo estudio puede llevarse a cabo por medio de la estimaci´onde los niveles de expresi´onm´asaltos o m´asbajos con respecto a una regla que permite separar- los de niveles de expresi´onconsiderados “invariables” entre muestras. Este es el prop´ositode un an´alisisde expresi´ondiferencial y dado que uno de los ejes centrales del presente trabajo era la reconstrucci´onde redes biol´ogicasrepresentativas de varios fenotipos (enfermedades neurodegenerativas) la aplicaci´onde este m´etodo se hizo necesaria (funci´on difExprs).

Para estimar los genes diferencialmente expresados en cada uno de los perfiles de expresi´on analizados se utiliz´oel m´etodo “Artificial Components Detection of Differentially Expressed Genes” ACDE (Acosta and L´opez-Kleine, 2015). Este fue aplicado debido a que permite lle- var a cabo an´alisis bajo un FDR (False Discovery Rate) esperado y por su poder estad´ıstico basado en un m´etodo de correcci´onpara determinar el FDR teniendo en cuenta un proceso de bootstrapping y la construcci´onde dos arreglos de componentes artificiales (Acosta and L´opez-Kleine, 2015). ACDE trabaja para muestras de tipo caso-control de manera que per- mite contrastar los niveles de expresi´onentre los dos tipos de muestras y estimar la diferencia entre los niveles de expresi´onde estas, un primer paso es computar los valores de expresi´on para las muestras con el fin de obtener un valor representativo por gen:

√ P1P2 Ψi = √ (xiT r − xC) (3.2) P1 + P2 48 3 Materiales y m´etodos

donde P1 es el n´umerode muestras caso y P2 es el n´umerode muestras control, xiT r es el promedio de los valores de expresi´onde las muestras caso o tratamiento para el gen i y xC es el promedio de los valores de expresi´onpara las muestras control del gen i (Acosta and L´opez-Kleine, 2015). Posteriormente, se realiza el proceso de bootstrapping de las muestras y para cada permutaci´onse obtiene un nuevo valor Ψ:

Ψ = Xv (3.3) √ donde v = (P2, ..., P2, −P1, ..., −P1)/ PP 1P 2 y P es la suma de P1 y P2. Finalmente, se determina un valor umbral t tal que los valores de Ψi ≥ t y los valores Ψi ≤ −t son con- siderados como los genes diferencialmente expresados. El valor de t adem´ases escogido de manera tal que el FDR obtenido sea menor o igual al FDR deseado, este valor de error es calculado a partir de las permutaciones (Ψ) y de los valores de Ψi de una forma detallada en (Acosta and L´opez-Kleine, 2015).

Para cada perfil de expresi´onse obtuvieron los genes diferencialmente expresados bajo un FDR esperado de 0.05, 0.2 y 0.3 con el fin de predecir el mayor n´umerode genes contra el menor FDR posible dado que los perfiles de expresi´oncuyo n´umerode genes diferencialmente expresados que superan el 5 % del total de genes en el microarreglo para cada una de los FDR esperados eran descartados para los an´alisisposteriores.

3.5. Reconstrucci´onde redes biol´ogicas

Una vez identificados los genes diferencialmente expresados para cada perfil de expresi´on se gener´ouna lista ´unicade dichos genes para cada una de las cuatro enfermedades bajo estudio. Estos listados fueron utilizados como base para la reconstrucci´onde dos capas de abstracci´onmolecular: i) co-expresi´ony ii) interacci´onprote´ına-prote´ına.

3.5.1. Redes de co-expresi´on Para cada una de las enfermedades bajo estudio (enfermedad de Alzheimer, enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia), se tomo el listado de genes diferencialmen- te expresados obtenidos por el m´etodo anteriormente explicado y se gener´ouna matriz de expresi´onde manera tal que cada uno de estos genes pose´ıadatos de todas las muestras contenidas en los perfiles de expresi´onoriginal. Una vez obtenida esta matriz de expresi´on representativa de cada enfermedad se gener´ouna matriz de similitud por medio de la apli- caci´ondel coeficiente de correlaci´onde Pearson (L´opez-Kleine et al., 2013; van Dam et al., 2017). Adicionalmente, a los valores de correlaci´onobtenidos aplicamos el valor absoluto de manera que se obtiene para cada enfermedad una matriz cuadrada con un rango de valores 3.5 Reconstrucci´onde redes biol´ogicas 49

entre cero y uno (0 ≤ Sij ≤ 1).

El paso siguiente fue definir un valor umbral para transformar la matriz de similitud en una matriz de adyacencia basado en la siguiente condici´on:

 1 si Sij ≥ τ aij = (3.4) 0 si Sij < τ donde aij ser´ael valor de adyacencia en la posici´on ij dentro de la matriz y τ es el valor umbral. Para definir dicho valor umbral, se ha propuesto una metodolog´ıabasada en los trabajos previos de Elo et al. (2007) y Leal et al. (2014) para calcularlo de acuerdo a supuestos propios de redes biol´ogicas:

1. Se crea un arreglo num´ericodesde 0.01 hasta 0.99 con un incremento del 0.01:

r = [0,01, 0,02, 0,03, 0,04, ..., n, 0,99]

siendo r el conjunto de los posibles valores τ representados como ni.

2. Para cada valor ni en r se genera una matriz de adyacencia siguiendo la condici´on mostrada en (3.4) y el valor del coeficiente de agrupamiento es calculado para la red (Leal et al., 2014, ecuaci´on2).

3. Un valor de coeficiente de agrupamiento para una red aleatoria conservando la distri-

buci´onde grado (modelo de configuraci´on)de cada red originada para los ni dentro de r fue calculada con el fin de realizar una comparaci´onentre ambas (Leal et al., 2014, ecuaci´on3).

4. Una vez calculados ambos valores de coeficiente de agrupamiento para cada valor de

ni en r, se efectu´oun filtro de estos posibles valores umbral (Leal et al., 2014, ecuaci´on 4).

5. Como propuesta en este trabajo, un segundo filtro fue generado a partir de la ecuaci´on4 del trabajo de Leal et al. (2014). En este caso, se obtuvieron las matrices de adyacencia

para cada ni que cumple la condici´onen vez de obtener solo el valor m´ınimoy para cada una de estas se calcul´ola distribuci´onde grado. Posteriormente se efectu´ouna prueba de bondad de ajuste utilizando la prueba de Kolmogorov-Smirnov contra una distribuci´onnormal. En este caso, como ya se conoc´ıaque los valores τ previamente filtrados generaban redes no aleatorias siguiendo el modelo de configuraci´on,en este caso se esperaba el rechazo de la hip´otesisnula para confirmar que las redes no poseen 50 3 Materiales y m´etodos

una distribuci´oncercana a la normal como una segunda validaci´onde no aleatoriedad (doble confirmaci´on).Por lo tanto el valor τ fue dado por:

min τ = ni : p > 0,05 (3.5) ni

Este valor umbral fue calculado para cada enfermedad y el resultado fue la matriz de adya- cencia la cual fue utilizada para ser cargada en el ambiente R para los an´alisisposteriores y su respectiva visualizaci´onutilizando el paquete ggraph de R (Pedersen, 2017). Adicional- mente, este m´etodo para la identificaci´ondel valor umbral fue programado en un afuncion dentro del paquete coexnet llamado findThreshold.

3.5.2. Redes de interacci´onprote´ına-prote´ına Para generar las redes de interacci´onprote´ına-prote´ınapara cada una de las cuatro enferme- dades, fue utilizada la API de R para el manejo de la base de datos STRING implementada en el paquete STRINGdb (Szklarczyk et al., 2014) (funci´on ppiNet). Esta base de datos se caracteriza, adem´asde ser espec´ıficapara interacci´onprote´ına-prote´ına,por poseer datos de diverso origen para soportar las aristas entre nodos en las redes finalmente obtenidas (co- expresi´on,experimental, co-localizaci´on,miner´ıade texto, fusi´onde genes y co-ocurrencia). A su vez, esta base de datos es especie espec´ıficapor lo cual fue posible generar redes de interacci´onprote´ına-prote´ınade forma que represente al fenotipo de inter´es(enfermedad) basado de datos espec´ıficospara la especie bajo estudio (Homo sapiens).

Para generar la consulta dentro de la base de datos, fueron utilizados los listados de genes diferencialmente expresados de cada enfermedad como query y las interacciones entre las pro- te´ınasidentificadas dentro de dichos listados fueron soportadas por tres tipos de evidencia: i) co-expresi´on,ii) co-localizaci´ony iii) experimental, dichas evidencias fueron considerados las m´asid´oneasdado que los restantes tipos de evidencia son m´aspredictivos disminuyendo considerablemente la credibilidad biol´ogicade los resultados finales.

Finalmente, los resultados fueron obtenidos como un listado de enlaces para poder cargarlos dentro del ambiente R para el desarrollo de los correspondientes an´alisisposteriores y para desarrollar su visualizaci´onutilizando el paquete ggraph (Pedersen, 2017).

3.6. Patrones de conectividad com´un

Los CCP por sus siglas en ingl´es(Common Connection Patterns) fueron obtenidos para cada capa de abstracci´onmolecular, es decir que las comparaciones entre redes fueron realizadas 3.7 Componentes compartidos 51 entre co-expresi´one interacci´onprote´ına-prote´ına por aparte. Para cada una de las dos capas de abstracci´onmolecular, el procedimiento por el cual se identificaron los CCPs fue por medio de la obtenci´onde la intersecci´ondel conjunto de enlaces entre las redes. Es decir, conociendo que un grafo G es la colecci´ondel conjunto de v´ertices V y de enlaces E, sean estas aristas o arcos, obtenemos entonces que:

G = {V,E} (3.6)

Considerando que se trabaja con un conjunto H de grafos, se obtendr´a:

H = {G1, ..., Gn} (3.7) siendo n el n´umerode redes que ser´ancomparadas. Entonces los CCPs ser´andeterminados como cada una de las subredes de la intersecci´onde los conjuntos de enlaces para los grafos contenidos en el conjunto H siempre y cuando el resultado de I no sea un conjunto vac´ıo:

I = {E1 ∩ E2 ∩ E3 ∩ ... ∩ En; n = #H} (3.8)

S = {CCP1, ..., CCPp} : CCPj = {Vj,Ej}, j = 1, ..., p (3.9) donde S es el conjunto de todas las subredes (CCPs) obtenidas a partir de una comparaci´on de redes. As´ı mismo, este m´etodo fue programado en una funci´onllamada CCP. En el presente trabajo, se determinaron los CCPs no solo para la intersecci´onde las cuatro redes de co-expresi´ony de interacci´onprote´ına-prote´ına,sino que adem´asse tuvo en cuenta todas las posibles comparaciones entre dos y tres redes para asegurar la exploraci´onde todo el espacio de soluciones.

3.7. Componentes compartidos

Los elementos compartidos son definidos como los v´erticesen las redes (genes o prote´ınas) que al realizar las comparaciones para cada una de las capas de abstracci´onmolecular son comunes entre dos o m´asredes pero que no hacen parte de ning´unelemento dentro del con- junto de enlaces para cualquier posible CCP de las redes bajo comparaci´on.Estos elementos compartidos pueden ser entonces obtenidos como la intersecci´onde los conjuntos de v´ertices para los grafos contenidos en el conjunto H:

SC = {V1 ∩ V2 ∩ V2 ∩ V3 ∩ ... ∩ Vn; n = #H; vi ∈/ ECCP ; vi ∈ Vn} (3.10) 52 3 Materiales y m´etodos

Tal como en las comparaciones llevadas a cabo con el fin de identificar CCPs, para cada capa de abstracci´onmolecular se llevaron a cabo todas las posibles comparaciones entre dos y tres redes con el fin de asegurar la exploraci´onde todo el espacio de soluciones (funci´on sharedComponents).

3.8. Validaci´on

Para demostrar que los resultados obtenidos son producto del an´alisisde informaci´onbiol´ogi- ca que realmente yace contenida en la topolog´ıaglobal de las dos capas de abstracci´onmole- cular aqu´ıestudiadas, se llevaron a cabo pruebas para verificar la idoneidad de las topolog´ıas de las redes reconstruidas y adem´asse llevaron a cabo pruebas para determinar que los re- sultados derivados de los an´alisisy comparaciones poseen una l´ogicabiol´ogicaque permita generar hip´otesiss´olidasy novedosas en cuanto a eventos moleculares compartidos entre dos o m´asfenotipos.

3.8.1. Comparaci´onde m´etodos para an´alisisde expresi´ondiferencial Una de las validaciones metodol´ogicastenidas en cuenta fue la predictibilidad del m´eto- do ACDE para la identificaci´onde genes diferencialmente expresados frente a otro m´etodo ampliamente utilizado con el mismo fin. Este procedimiento se efectu´odado que era necesa- rio justificar la implementaci´onde este m´etodo frente al abanico de posibilidades, es decir, demostrar la idoneidad de ACDE frente a otros m´etodos. Para este ejercicio, SAM fue el m´etodo tenido en cuenta, dado que parte de supuestos estad´ısticosas´ıcomo ACDE y adem´as es uno de los m´etodo de detecci´onde genes diferencialmente expresados m´asutilizado para la reconstrucci´onde redes de co-expresi´ona partir de datos de microarreglos de DNA (Tusher et al., 2001).

Como tal, el procedimiento para desarrollar los an´alisisfue y tal como se explic´ocon anterio- ridad, es decir, se utiliz´oSAM para determinar los genes diferencialmente expresados bajo los tres valores de FDR esperados (0.05, 0.2 y 0.03). Una vez obtenidos estos resultados se identificaron aquellos perfiles de expresi´onque pose´ıanun n´umerode genes mayor al 5 % y aquellos cuyos valores de FDR fueran mayores a 0.3. Finalmente se contrastaron el n´umero de genes diferencialmente expresados totales para cada enfermedad y los valores m´aximos de FDR obtenidos para determinar la predictibilidad de ACDE frente a SAM.

3.8.2. Validaci´ontopol´ogica El factor clave para la detecci´onde CCPs son los elementos pertenecientes al conjunto de enlaces de cada grafo, esto se traduce en que la topolog´ıade las redes es fundamental. Pero dicha topolog´ıa,como se ha venido mencionando a lo largo del presente trabajo debe poseer 3.8 Validaci´on 53 una serie de caracter´ısticasque le permitan diferenciarse de una topolog´ıaque pueda ser esperada por azar. A pesar que se ha presentado una propuesta para determinar un valor umbral basado en supuestos propios de teor´ıade redes para la reconstrucci´onde redes de co-expresi´on,se debe evaluar la topolog´ıade estas redes y de las pertenecientes a la capa de interacci´onprote´ına-prote´ınapara asegurar que su topolog´ıaposee las caracter´ısticasespe- radas para redes biol´ogicas.

Un primer m´etodo aplicado para validar la topolog´ıade las redes fue estimar el valor de co- rrelaci´onde la distribuci´onde grado de cada red frente a una distribuci´onde ley de potencias para estimar el ajuste de las redes a un modelo Barabasi-Alberts debido a que dentro de la biolog´ıade redes, a pesar de los recientes estudios, se sigue usando como regla de oro el uso de redes con distribuci´onajustados a este modelo (Zhu et al., 2007; Broido and Clauset, 2018). Adicionalmente, para cada una de las redes se obtuvo el Z-score frente al valor del coeficiente de agrupaci´onrespecto a 1000 redes generadas por azar siguiendo el modelo de configura- ci´on,es decir, que conservaran la misma distribuci´onde grado respecto a las redes originales.

A su vez, para validar los CCPs obtenidos, se calcul´oel Z-score teniendo en cuenta el n´ume- ro de aristas totales frente a 1000 comparaciones de redes aleatorias siguiendo el parametro anteriormente mencionado. Adicionalmente, una segunda forma de validar los CCPs obteni- dos fue por medio de un m´etodo de bootstrapping en donde las aristas de las redes fueron permutadas, lo cual aseguraba la obtenci´onde redes con las marcas de los v´ertices pero con una topolog´ıay distribuci´onde grado diferentes a las obtenidas originalmente. Este procedi- miento se realiz´o1000 veces y el resultado final fue el n´umerode ocasiones en que los CCPs originales fueron obtenidos sin tener en cuenta los posibles isomorfos dando as´ıun estimado de la repetitividad de los resultados obtenidos como una medida de error.

3.8.3. Validaci´onbiol´ogica Para probar que a partir del m´etodo propuesto para comparaci´onde fenotipos es posible rastrear informaci´onvaliosa para la generaci´onde hip´otesis s´olidas acerca de los posibles eventos y componentes moleculares asociados con los fenotipos bajo estudio, los resultados aqu´ıobtenidos deben seguir una l´ogicaenmarcada dentro del mundo de la biolog´ıaque per- mita validar los elementos moleculares (genes o prote´ınas)as´ıcomo en lo posible validar las relaciones entre ellas con relaci´ona uno o varios de los fenotipos analizados haciendo uso tanto de los resultados experimentales almacenados dentro de las bases de datos como repor- tes previos donde se logre establecer la relaci´ondirecta entre los componentes moleculares, ya sea que estos est´enimplicados en un CCP o no, con al menos uno de los fenotipos bajo estudio.

La validaci´onde los CCPs de co-expresi´onfue llevado a cabo por medio de la implementa- 54 3 Materiales y m´etodos ci´onde la herramienta web para anotaci´onde datos de microarreglos DAVID (Huang et al., 2009). Para utilizar esta herramienta se utilizaron los identificadores de las sondas para cada uno de los genes dentro de un CCP y se gener´ola anotaci´onfuncional para los genes a los cuales corresponde cada grupo de sondas (el probeset es el input obligatorio). DAVID permite obtener informaci´onrelacionada con diferentes bases de datos pero aqu´ıse tuvo en cuenta la siguiente informaci´on:i) Relaci´onde algunos de los genes dentro de un CCP con alguna de las enfermedades de origen de acuerdo a a base de datos OMIM, ii) Categor´ıas Gene Ontology y iii) Procesos biol´ogicosde a base de datos KEGG en los cuales puedan estar implicados los miembros de un CCP determinado. Adicionalmente, para cada gen dentro de un CCP, se realiz´ola b´usqueda de al menos una referencia en la literatura que lo asocie con alguna de las enfermedades de origen.

En el caso de los CCPs obtenidos dentro de la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına-prote´ına,la validaci´onbiol´ogicafue llevada a cabo teniendo en cuenta la informaci´onarrojada dentro de la base de datos STRING. Para ello, se rastreo el tipo de evidencia que soporta cada uno de los enlaces para cada CCP obtenido y se extrajo la referencia o informaci´onconcreta que soport´ola aparici´onde cada arista. Adicionalmente, dentro de lo posible, se utiliz´ola base de datos de enriquecimiento Enrichr para determinar el posible proceso biol´ogicoen que los miembros de un CCP determinado est´aimplicado as´ı como las categor´ıasGene Ontology (Kuleshov et al., 2016). De igual forma que en el caso anterior, para cada identificador de prote´ınadentro de cada CCP, se realiz´ouna b´usqueda exhaustiva en la literatura para obtener al menos una referencia que soporte a cada prote´ına presente en cada CCP con al menos una de las enfermedades de origen.

La validaci´onpor medio de la b´usquedaexhaustiva de la literatura para determinar la relaci´on del elemento molecular con al menos una de las enfermedades de origen fue el m´etodo escogido para el an´alisisde los elementos comunes en ambas capas de abstracci´onmolecular, pero en este caso los componentes comunes entre tres y las cuatro enfermedades bajo estudio fueron escogidas para llevar a cabo dicha b´usqueda. 4. Resultados

4.1. Perfiles de expresi´on

La b´usquedaavanzada en la base de datos de GEO Datasets para cada una de las enfer- medades neurodegenerativas arroj´o2217 resultados para la enfermedad de Alzheimer, 1346 resultados para la enfermedad de Parkinson y 2386 resultados para esclerosis m´ultiple.La informaci´onde estos resultados fue descargada y por medio del script en Python (ver cap´ıtu- lo 3), se filtraron los resultados hasta obtener s´oloaquellos resultados que corresponden a perfiles completos de expresi´ony las muestras fueran extra´ıdas exclusivamente de huma- nos, obteniendo as´ı86 perfiles de expresi´onpara la enfermedad de Alzheimer, 67 perfiles de expresi´onpara la enfermedad de Parkinson y 74 perfiles de expresi´onpara esclerosis m´ultiple.

Posteriormente, se extrajeron los identificadores GPL para cada perfil de expresi´oncon el fin de elegir el chip de microarreglo que ser´ıatenido en cuenta. Los identificadores GPL96 y GPL570 fueron los m´asutilizados dentro de los resultados obtenidos (Anexo B). GPL96 po- see 22283 probesets mientras GPL570 posee 54675 probesets incluyendo 22277 pertenecientes al chip identificado como GPL96, por tal motivo se escogi´oel chip de microarreglo U133 Plus 2.0 Array de la casa comercial Affymetrix identificado como GPL570 para extraer los perfiles de expresi´onutilizados para los an´alisisposteriores. A partir de este ´ultimopaso fueron extra´ıdos12 perfiles para la enfermedad de Alzheimer, 9 perfiles para la enfermedad de Parkinson y 13 perfiles en el caso de esclerosis m´ultiple(anexo B).

Los an´alisisposteriores requer´ıan de lograr la identificaci´onde perfiles de expresi´oncon muestras de tipo caso-control, por lo cual en la revisi´onmanual este par´ametrofue inclui- do adem´asde la identificaci´onde los estudios que no estuvieran directamente relacionados con las enfermedades neurodegenerativas bajo estudio, de esta manera los perfiles identifi- cados como GSE53890 y GSE9770 fueron descartados para la enfermedad de Alzheimer al no poseer muestras de este tipo. Del mismo modo los perfiles identificados como GSE37783 y GSE68527 fueron descartados para esclerosis m´ultiplepor la misma raz´onque en el caso de la enfermedad de Alzheimer. Por tanto, fueron 10 perfiles utilizados en la enfermedad de Alzheimer, nueve perfiles en el caso de la enfermedad de Parkinson y 11 perfiles en el caso de esclerosis m´ultiple(anexo B, tabla 4.1).

En el caso de la esquizofrenia, la b´usquedade perfiles de expresi´onse dio directamente en- 56 4 Resultados focado en los perfiles de expresi´onobtenidos por medio del chip de microarreglo Human Genome U133 Plus 2.0 Array (GPL570), de lo cual resultaron seis perfiles de expresi´ony de ellos dos fueron descartados, el perfil identificado como GSE73129 por no poder identificar muestras de tipo caso-control y el perfil identificado como GSE53987 fue descartado por evaluar m´asde una enfermedad en simult´aneoincluyendo desorden bipolar y desorden de- presivo mayor, siendo as´ıcuatro los perfiles de expresi´onfinalmente utilizados en los an´alisis posteriores (anexo B, tabla 4.1).

Tabla 4.1.: Identificadores de los perfiles de expresi´onutilizados en los an´alisisposteriores para cada enfermedad. Enfermedad Identificadores Enfermedad de Alzheimer GSE16759, GSE18309, GSE28146, GSE28379, GSE29652, GSE4757, GSE48350, GSE5281, GSE6276, GSE66333 Enfermedad de Parkinson GSE14711, GSE20141, GSE20146, GSE20153, GSE30792, GSE4773, GSE49036, GSE7621, GSE9807 Esclerosis m´ultiple GSE13732, GSE14386, GSE16461, GSE21942, GSE23205, GSE26484, GSE37750, GSE43591, GSE52139, GSE53716, GSE59085 Esquizofrenia GSE27383, GSE21935, GSE21138, GSE17612

4.2. Normalizaci´ony coeficientes de variaci´on

La normalizaci´onfue realizada obteniendo los 54675 probesets a partir de las 1354896 sondas que contiene el chip de microarreglo identificado como GPL570. A partir de estos probesets y del procedimiento de sumarizaci´on fueron obtenidos finalmente un total de 21049 genes para los an´alisisposteriores.

En cuanto al an´alisis realizado utilizando el coeficiente de variaci´on,los boxplots lograron identificar perfiles de expresi´oncuya variaci´onpuede ser causal de ruido de fondo y por tanto ser´ıanresponsables del origen de sesgos en los resultados. En el caso de la enfermedad de Alzheimer, los perfiles identificados como GSE6276, GSE28379 y GSE16759 fueron descar- tados para an´alisisposteriores (figura 4.1).

As´ımismo, para la enfermedad de Parkinson el perfil de expresi´onidentificado como GSE30792 fue descartado para los an´alisis posteriores (figura 4.2). En cuanto a esclerosis m´ultiple,los perfiles de expresi´onidentificados como GSE13732 y GSE23205 fueron descartados (figu- ra 4.3). 4.2 Normalizaci´ony coeficientes de variaci´on 57

Figura 4.1.: Boxplot de los coeficientes de variaci´onpara cada perfil de expresi´onasociado a la enfermedad de Alzheimer. Los perfiles descartados est´anencerrados en rojo y se destaca su nivel de variaci´on.

Figura 4.2.: Boxplot de los coeficientes de variaci´onpara cada perfil de expresi´onasociado a la enfermedad de Parkinson. Los perfiles descartados est´anencerrados en rojo y se destaca su nivel de variaci´on. 58 4 Resultados

Figura 4.3.: Boxplot de los coeficientes de variaci´onpara cada perfil de expresi´onasociado a esclerosis m´ultiple.Los perfiles descartados est´anencerrados en rojo y se destaca su nivel de variaci´on.

Por otro lado, analizando los boxplot de los coeficientes de variaci´onde los perfiles de ex- presi´onasociados con esquizofrenia, no se pudo determinar un nivel de variaci´onsimilar a los tres casos anteriormente mencionados por lo cual ning´unperfil fue descartado para este caso (figura 4.4).

Figura 4.4.: Boxplot de los coeficientes de variaci´onpara cada perfil de expresi´onasociado a esquizofrenia. 4.3 An´alisisde expresi´ondiferencial 59

4.3. An´alisisde expresi´ondiferencial

A pesar que se manejaron tres diferentes FDR esperados (0.05, 0.2 y 0.3), algunos perfiles de expresi´ons´olopermit´ıanla obtenci´onde genes diferencialmente expresados con un FDR mayor de 0.35 (m´aximol´ımitepermitido) por lo cual bajo ninguna circunstancia podian ser tenidos en cuenta. Adicionalmente, otros perfiles de expresi´onsolo pose´ıanun n´umerode genes diferencialmente expresados mayor al 5 % del total de genes mapeados en el chip de microarreglo con el identificador GPL570 a pesar que los FDR obtenidos estaban inclusive por debajo de 0.05 (anexo C).

En el caso de la enfermedad de Alzheimer, el perfil identificado como GSE18309 fue descar- tado puesto que su FDR m´ınimoobtenido fue de 0.47, de forma similar el perfil identificado como GSE4757 fue descartado por poseer un FDR m´ınimoobtenido de uno. Por otro lado, los perfiles identificados como GSE48350 y GSE5281 tambi´endebieron ser descartados dado que a pesar que ambos poseen un FDR m´ınimoobtenido de 0.05, en ambos casos el n´umerode genes diferencialmente expresados es mayor del 5 % (4298 y 4564 respectivamente)(anexo C).

En el caso de la enfermedad de Parkinson, el perfil de expresi´onidentificado como GSE20141 no cumplio con ninguno de los dos requisitos anteriormente mencionados dado que su FDR m´ınimoobtenido fue de 0.47 y se identificaron 1575 genes diferencialmente expresados. A su vez, los perfiles identificados como GSE20153 y GSE9807 fueron descartados por poseer un FDR m´ınimoobtenido superior a 0.35 (0.47 y 0.39 respectivamente) (anexo C).

De forma similar, tres perfiles de expresi´onfueron descartados de los an´alisisposteriores para esclerosis m´ultiple.El primero de ellos fue el identificado como GSE16461 por obtener un FDR m´ınimoobtenido de 1 y adicionalmente porque el n´umerode genes diferencialmente expresados fue de 21047. De igual forma, el perfil identificado como GSE59085 obtuvo 2666 genes diferencialmente expresados bajo un FDR m´ınimo obtenido de 0.8 por lo cual fue igualmente descartado. El ´ultimoperfil que no pudo ser considerado fue el identificado como GSE26484 dado que su FDR m´ınimoobtenido fue de 0.38. De igual forma solo un perfil fue descartado en el caso de esquizofrenia el cual fue el perfil identificado como GSE21935 el cual pose´ıaun FDR m´ınimoobtenido de 0.75 (anexo C).

Los resultados anteriormente descritos permitieron la obtenci´onde tres perfiles de expresi´on tenidos en cuenta para an´alisisposteriores en el caso de la enfermedad de Alzheimer con un FDR promedio de 0.22 y un n´umerototal de genes diferencialmente expresados de 562. As´ımismo, fueron cinco los perfiles de expresi´ontenidos en cuenta para la enfermedad de Parkinson con un FDR promedio de 0.24 y un n´umerototal de genes diferencialmente ex- presados de 2313. De igual forma, fueron cinco los perfiles tenidos en cuenta para esclerosis m´ultiplecon un FDR promedio de 0.23 y un total de genes diferencialmente expresados de 60 4 Resultados

1449. Finalmente, en el caso de esquizofrenia, fueron tres los perfiles de expresi´onescogi- dos para los an´alisisposteriores con un FDR promedio de 0.26 y un total de 1134 genes diferencialmente expresados (tabla 4.2).

Tabla 4.2.: Resultados del an´alisisde expresi´ondiferencial de genes para todos los perfiles de expresi´on. Enfermedad Identificador FDR #genes Enfermedad de Alzheimer GSE28146 0.299 160 GSE29652 0.298 115 GSE66333 0.049 401 Enfermedad de Parkinson GSE14711 0.299 971 GSE20146 0.196 7 GSE4773 0.199 879 GSE49036 0.199 607 GSE7621 0.298 241 Esclerosis m´ultiple GSE21942 0.049 208 GSE37750 0.299 728 GSE43591 0.199 595 GSE52139 0.344 74 GSE53716 0.26 8 Esquizofrenia GSE27383 0.299 483 GSE21138 0.199 672 GSE17612 0.288 10

4.4. Reconstrucci´onde redes biol´ogicas

4.4.1. Redes de co-expresi´on Las redes de co-expresi´onfueron reconstruidas a partir de los valores umbrales obtenidos por medio del m´etodo aqu´ıpropuesto (ver cap´ıtulo 3). El uso de dichos umbrales caus´oque varios genes no quedaran dentro de la red dado que ninguno de sus valores de correlaci´on era igual o mayor al umbral definido. En el caso de la enfermedad de Alzheimer el 73 % de los genes diferencialmente expresados no fueron incluidos en la red, de igual forma el 42.5 % de los genes diferencialmente expresados en la enfermedad de Parkinson no fueron incluidos en la red de co-expresi´oncorrespondiente (figura 4.5(a) y figura 4.5(b)).

As´ımismo, en la reconstrucci´onde la red de co-expresi´onen esclerosis m´ultiple,el 64.6 % de 4.4 Reconstrucci´onde redes biol´ogicas 61 los genes diferencialmente expresados no fueron tenidos en cuenta. Finalmente, el 23.8 % de los genes pertenecientes al listado de genes diferencialmente expresados para esquizofrenia no fueron incluidos en su correspondiente red de co-expresi´on(figura 4.5(c) y figura 4.5(d)). Las principales caracter´ısticasde las redes est´anincluidas en la figura e y los umbrales est´an detallados en el anexo D.

(a) 152 v´ertices;821 aristas; umbral: 0.97 (b) 1331 v´ertices;22638 aristas; umbral: 0.91

(c) 513 v´ertices; 6933 aristas; umbral: 0.97 (d) 864 v´ertices; 39853 aristas; umbral: 0.88

Figura 4.5.: Redes de co-expresi´on.a) Enfermedad de Alzheimer. b) Enfermedad de Par- kinson. c) Esclerosis m´ultiple.d) Esquizofrenia.

4.4.2. Redes de interacci´onprote´ına-prote´ına Para la reconstrucci´onde las redes de interacci´onprote´ına-prote´ınapara cada enfermedad teniendo en cuenta los tres tipos de evidencia (co-expresi´on,co-localizaci´ony experimental) en la base de datos STRING, un gran n´umerode genes diferencialmente expresados fueron descartados de las redes al no poseer ninguna arista con otros miembros del listado de genes que est´esoportado por los tres tipos de evidencia tenidos en cuenta en este proceso. En 62 4 Resultados el caso de la enfermedad de Alzheimer el 83.8 % de los genes pertenecientes al listado de diferencialmente expresados no pudieron ser incluidos en la correspondiente red de interac- ci´onprote´ına-prote´ına.As´ımismo, el 54.2 % de los genes diferencialmente expresados en la enfermedad de Parkinson no cumplieron con lo necesario para estar incluidos en esta misma capa de abstracci´onmolecular (figura 4.6(a) y figura 4.6(b)).

Para el caso de esclerosis m´ultiple,el 68.1 % de los genes pertenecientes al listado de di- ferencialmente expresados no poseen evidencia de relaci´onalguna con otros miembros de este listado seg´unla base de datos STRING por lo cual no fueron representados dentro de la correspondiente red de interacci´onprote´ına-prote´ına.Finalmente, el 70.1 % de los genes diferencialmente expresados en el caso de esquizofrenia no fueron incluidos dentro de esta capa de abstracci´onmolecular por los mismos motivos que en las otras tres enfermedades bajo estudio (figura 4.6(c) y figura 4.6(d)). Las principales caracter´ısticasde cada una de las redes de interacci´onprote´ına-prote´ına est´adetallada en la figura 4.6.

(a) 91 v´ertices;90 aristas (b) 1059 v´ertices;2307 aristas

(c) 461 v´ertices;777 aristas (d) 339 v´ertices;514 aristas

Figura 4.6.: Redes de interacci´onprote´ına-prote´ına.a) Enfermedad de Alzheimer. b) En- fermedad de Parkinson. c) Esclerosis m´ultiple.d) Esquizofrenia. 4.5 Patrones de conectividad com´un 63

4.5. Patrones de conectividad com´un

4.5.1. Co-expresi´on Las diferentes comparaciones entre las redes pertenecientes a la capa de abstracci´onmole- cular correspondiente a co-expresi´onpara las cuatro enfermedades bajo estudio permiti´ola identificaci´onde patrones de conectividad com´un (CCPs) entre ellas. Comparando las redes pertenecientes a la enfermedad de Alzheimer y a esclerosis m´ultiple, un CCP fue identificado el cual est´aconstituido por tres v´erticesy dos aristas (figura 4.7(a), anexo E). Asi mismo, cuando las redes de co-expresi´onpertenecientes a la enfermedad de Parkinson y esclerosis m´ultipleson comparadas, tres CCPs son identificados donde el primero de ellos est´aformado por ocho v´ertices y siete aristas, el segundo por cinco v´erticesy cinco aristas y el ´ultimode ellos por dos v´erticesy una arista (figura 4.7(b), anexo E). Por otra parte, tres CCPs fueron identificados cuando las redes de esclerosis m´ultiple y esquizofrenia fueron comparadas sien- do el primero de ellos constituido por 43 v´erticesy 110 aristas, el segundo por cinco v´ertices y seis aristas y el tercero por dos v´erticesy una arista (figura 4.7(c), anexo E).

Adicionalmente, ha sido posible la identificaci´onde cuatro CCPs cuando las redes de co- expresi´oncorrespondientes a la enfermedad de Alzheimer y a la enfermedad de Parkinson fueron comparadas, de estos CCPs uno est´aconstituido por tres v´erticesy dos aristas mien- tras los restantes tres est´anformados por dos v´erticesy una arista (figura 4.8(a), anexo E). Por otra parte, cuando fueron comparadas las redes correspondientes a la enfermedad de Alzheimer y esquizofrenia, dos CCPs fueron identificados donde el primero de ellos est´a constituido por seis v´erticesy seis aristas y el segundo de ellos formado por ocho v´erticesy nueve aristas (figura 4.8(b), anexo E).

As´ımismo, 11 CCPs fueron identificados cuando fueron comparadas las redes de co-expresi´on pertenecientes a la enfermedad de Parkinson y a esquizofrenia donde el primero de ellos est´a constituido por 21 v´erticesy 39 aristas, el segundo de ellos por 21 v´erticesy 25 aristas, el tercero de ellos por cuatro v´erticesy tres aristas. Adicionalmente, dos de estos 11 CCPs est´anformados por tres v´erticesy dos aristas y los restantes seis CCPs por dos v´erticesy una arista (figura 4.8(c), anexo E).

Finalmente, ha sido posible la identificaci´onde un CCP dentro de la capa de abstracci´on molecular correspondiente a co-expresi´onasociado a tres enfermedades diferentes las cuales fueron la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia el cual est´aconstituido por tres v´erticesy dos aristas (figura 4.9, anexo E). 64 4 Resultados

(a) (b)

(c)

Figura 4.7.: Patrones de conectividad com´unentre redes de co-expresi´on.a) CCP entre enfermedad de Alzheimer y esclerosis m´ultiple.b) CCPs entre enfermedad de Parkinson y esclerosis m´ultiple.c) CCPs entre esclerosis m´ultipley esquizofre- nia. Los CCPs est´anseparados por colores diferentes. 4.5 Patrones de conectividad com´un 65

(a) (b)

(c)

Figura 4.8.: Patrones de conectividad com´unentre redes de co-expresi´on.a) CCPs entre enfermedad de Alzheimer y enfermedad de Parkinson. b) CCPs entre enferme- dad de Alzheimer y esquizofrenia. c) CCPs entre enfermedad de Parkinson y esquizofrenia. Los CCPs est´anseparados por colores diferentes.

Figura 4.9.: CCP identificado entre la enfermedad de Parkinson, esclerosis m´ultipley es- quizofrenia dentro de la capa de abstracci´onmolecular correspondiente a co- expresi´on. 66 4 Resultados

4.5.2. Interacci´onprote´ına-prote´ına Con respecto a la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına- prote´ınala identificaci´onde CCPs tambi´enha sido posible cuando las redes pertenecientes a cada una de las enfermedades han sido comparadas. Cuando las redes de interacciones pro- te´ına-prote´ınacorrespondientes a las enfermedades de Alzheimer y esclerosis m´ultiple fueron comparadas, dos CCPs han sido identificados donde cada uno de ellos est´aconstituido por dos v´erticesy una arista (figura 4.10(a), anexo F).

Adicionalmente, 11 CCPs fueron identificados a partir de la comparaci´onde las redes perte- necientes a esclerosis m´ultipley esquizofrenia de los cuales el primero de ellos est´aformado por 15 v´erticesy 14 aristas, el segundo por seis v´erticesy cinco aristas, el tercero por cuatro v´erticesy tres aristas y los restantes ocho CCPs est´anconstituidos por dos v´erticesy una arista (figura 4.10(b), anexo F). Por otra parte, cuando la comparaci´onentre las redes de interacci´onprote´ına-prote´ınaentre la enfermedad de Parkinson y esclerosis m´ultiplefue lle- vada a cabo, 12 CCPs fueron identificados de los cuales uno de ellos est´aconstituido por 31 v´erticesy 37 aristas, cuatro de ellos formados por tres v´ertices y dos aristas y los restantes siete CCPs por dos v´erticesy una arista (figura 4.10(c), anexo F).

As´ımismo, seis CCPs han sido identificados cuando las redes de interacci´onprote´ına-prote´ına entre la enfermedad de Alzheimer y la enfermedad de Parkinson fueron comparadas donde uno de ellos est´aconstituido por cinco v´erticesy cuatro aristas mientras los otros cinco CCPs est´anformados por dos v´erticesy una arista (figura 4.11(a), anexo F). Por otra parte, cuan- do las redes pertenecientes a la enfermedad de Alzheimer y esquizofrenia fueron comparadas dos CCPs fueron identificadas donde la primera est´aformada por 11 v´erticesy 11 aristas y la segunda por dos v´erticesy una arista (figura 4.11(b), anexo F). Adicionalmente, 13 CCPs fueron identificados comparando las redes de interacci´onprote´ına-prote´ınacorrespondientes a las enfermedades de Parkinson y esquizofrenia siendo una de ellas formada por 33 v´ertices y 44 aristas, un segundo CCP formado por cuatro v´erticesy tres aristas, dos de ellos consti- tuidos por tres v´ertices y dos aristas y los restantes nueve CCPs formados por dos v´ertices y una arista (figura 4.11(c), anexo F).

Finamente, CCPs han podido ser identificados por medio de la comparaci´onde tres en- fermedades cuando estas han sido comparadas dentro de la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına-prote´ına.Cuando las redes representativas de las en- fermedades de Alzheimer, Parkinson y esclerosis m´ultiplefueron comparadas se identific´o un CCP el cual est´aconstituido por dos v´erticesy una arista (figura 4.12(a), anexo F). As´ı mismo, un CCP fue identificado cuando las redes de interacci´onprote´ına-prote´ınacorres- pondientes a las enfermedades de Alzheimer, Parkinson y esquizofrenia fueron comparadas siendo este CCP constituido por tres v´erticesy dos aristas (figura 4.12(b), anexo F). Final- 4.5 Patrones de conectividad com´un 67

(a) (b)

(c)

Figura 4.10.: Patrones de conectividad com´unentre redes de interacci´onprote´ına-prote´ına. a) CCPs entre enfermedad de Alzheimer y esclerosis m´ultiple.b) CCPs entre esclerosis m´ultipley esquizofrenia. c) CCPs entre enfermedad de Parkinson y esclerosis m´ultiple.Los CCPs est´anseparados por colores diferentes. 68 4 Resultados

(a) (b)

(c)

Figura 4.11.: Patrones de conectividad com´unentre redes de interacci´onprote´ına-prote´ına. a) CCPs entre enfermedad de Alzheimer y enfermedad de Parkinson. b) CCPs entre enfermedad de Alzheimer y esquizofrenia. c) CCPs entre enfermedad de Parkinson y esquizofrenia. Los CCPs est´anseparados por colores diferentes. 4.6 Elementos compartidos 69 mente, cuando fueron comparadas las redes de interacci´onprote´ına-prote´ınacorrespondientes a la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia, fueron identificados cuatro CCPs donde cada uno de ellos est´aformado por dos v´ertices y una arista (figura 4.12(c), anexo F).

(a) (b)

(c)

Figura 4.12.: Patrones de conectividad com´unentre redes de interacci´onprote´ına-prote´ına. a) CCP entre enfermedad de Alzheimer, enfermedad de Parkinson y esclerosis m´ultiple.b) CCP entre enfermedad de Alzheimer, enfermedad de Parkinson y esquizofrenia. c) CCPs entre la enfermedad de Parkinson, esclerosis m´ultiple y esquizofrenia. Los CCPs est´anseparados por colores diferentes.

4.6. Elementos compartidos

A trav´esde todas las comparaciones entre redes de enfermedad en ambas capas de abs- tracci´onmolecular, tambi´enfueron identificados los componentes compartidos, pero en este caso fue posible identificar dichos elementos para todas las comparaciones posibles como se muestra en la tabla 4.3. Adicionalmente, se resaltan aquellos componentes compartidos que son comunes para tres diferentes enfermedades siendo 27 elementos diferentes presentes en la capa de abstracci´onmolecular correspondiente a co-expresi´ony 30 elementos diferentes presentes en la capa correspondiente a interacci´onprote´ına-prote´ına(figura 4.13, anexo G). 70 4 Resultados

Tabla 4.3.: Elementos compartidos para todas las posibles comparaciones entre enfermeda- des en ambas capas de abstracci´onmolecular. Comparaci´on Co-expresi´on Interacci´onprote´ına-prote´ına Enfermedad de Alzheimer vs enfermedad de 19 13 Parkinson Enfermedad de Alzheimer vs esclerosis m´ulti- 15 9 ple Enfermedad de Alzheimer vs esquizofrenia 21 7 Enfermedad de Parkinson vs esclerosis m´ulti- 46 42 ple Enfermedad de Parkinson vs esquizofrenia 81 38 Esclerosis m´ultiplevs esquizofrenia 39 27 Enfermedad de Alzheimer vs enfermedad de 6 4 Parkinson vs esclerosis m´ultiple Enfermedad de Alzheimer vs enfermedad de 8 7 Parkinson vs esquizofrenia Enfermedad de Alzheimer vs esclerosis m´ulti- 7 3 ple vs esquizofrenia Enfermedad de Parkinson vs esclerosis m´ulti- 17 18 ple vs esquizofrenia Enfermedad de Alzheimer vs enfermedad de 4 3 Parkinson vs esclerosis m´ultiple vs esquizo- frenia

Adicionalmente, aqu´ıse resaltan los elementos compartidos para las cuatro enfermedades en ambas capas de abstracci´onmolecular, cuatro para la capa de co-expresi´ony tres para la capa de de interacci´onprote´ına-prote´ına(figura 4.14, anexo G). 4.6 Elementos compartidos 71

(a) (b)

Figura 4.13.: Elementos compartidos en al menos tres enfermedades. a) capa de co- expresi´on.b) capa de interacci´onprote´ına-prote´ına.Azul: Elementos compar- tidos. Rojo: Enfermedades: AD: Enfermedad de Alzheimer, PD: Enfermedad de Parkinson, MS: esclerosis m´ultiple,SZ: esquizofrenia.

(a) (b)

Figura 4.14.: Elementos compartidos en las cuatro enfermedades. a) capa de co-expresi´on. b) capa de interacci´onprote´ına-prote´ına.Azul: Elementos compartidos. Rojo: Enfermedades: AD: Enfermedad de Alzheimer, PD: Enfermedad de Parkinson, MS: esclerosis m´ultiple,SZ: esquizofrenia. 72 4 Resultados

4.7. Validaci´on

4.7.1. Comparaci´onde m´etodos para la identificaci´onde genes diferencialmente expresados El an´alisisde expresi´ondiferencial utilizando el m´etodo SAM fue llevado a cabo bajo las mismas condiciones anteriormente mencionadas para el m´etodo ACDE (ver cap´ıtulo3), de esa manera ambos resultados pudieron ser comparados generando as´ı un estimado de la validez de ACDE frente a SAM para el presente trabajo. En la enfermedad de Alzheimer, usando el m´etodo ACDE, se obtuvieron tres perfiles de expresi´onv´alidoscon un FDR pro- medio de 0.22 y un total de 562 genes diferencialmente expresados. En cambio, realizando el mismo procedimiento con el m´etodo SAM, solo se obtuvo un perfil de expresi´onv´alidocon un FDR de 0.29 con cuatro genes diferencialmente expresados (tabla 4.4, tabla 4.2, anexo H).

En el caso de la enfermedad de Parkinson, los resultados obtenidos utilizando el m´etodo ACDE permitieron la obtenci´onde cinco perfiles de expresi´oncon un FDR promedio de 0.24 y un total de 2313 genes diferencialmente expresados. Por su parte, los resultados obtenidos llevando a cabo el m´etodo SAM permitieron la obtenci´onde seis perfiles de expresi´onv´alidos con un FDR promedio de 0.2, pero en comparaci´oncon ACDE, SAM solo pudo identificar un total de 1547 genes diferencialmente expresados (tabla 4.4, tabla 4.2, anexo H). De for- ma similar, aplicando el m´etodo ACDE en esclerosis m´ultiple,cinco perfiles de expresi´on fueron identificados como v´alidoscon un FDR promedio de 0.23 y un total de 1449 genes diferencialmente expresados. Por otro lado, fueron siete los perfiles de expresi´onidentificados como v´alidosaplicando el m´etodo SAM para esta enfermedad, obteniendo un FDR prome- dio de 0.14 pero un n´umerode 1129 genes diferencialmente expresados (tabla 4.4, tabla 4.2, anexo H).

Por ´ultimo,realizando la misma comparaci´onen esquizofrenia, se identificaron tres perfiles de expresi´onv´alidoscon un FDR promedio de 0.26 y un total de 1134 genes diferencialmente expresados como resultado de aplicar el m´etodo ACDE. En cambio, cuando se realiz´oeste mismo procedimiento utilizando el m´etodo SAM, solo un perfil de expresi´onfue considerado v´alidocon un FDR de 0.085 y un total de dos genes diferencialmente expresados (tabla 4.4, tabla 4.2, anexo H).

Tabla 4.4.: Resultados del an´alisisde expresi´ondiferencial utilizando el m´etodo SAM. Enfermedad Identificador FDR #genes Enfermedad de Alzheimer GSE28146 0.29 4 Enfermedad de Parkinson GSE14711 0.35 477 GSE20141 0.14 57 4.7 Validaci´on 73

Tabla 4.4.: Continuaci´on Enfermedad Identificador FDR #genes GSE20146 0.06 1 GSE49036 0.06 1 GSE7621 0.25 947 GSE9807 0.35 99 Esclerosis m´ultiple GSE14386 0.24 11 GSE26484 0.06 4 GSE37750 0.24 348 GSE43591 0.05 706 GSE52139 0.13 20 GSE53716 0.21 25 GSE59085 0.09 4 Esquizofrenia GSE21935 0.09 2

4.7.2. Validaci´ontopol´ogica Redes de co-expresi´one interacci´onprote´ına-prote´ına Por medio del ajuste de la distribuci´onde grado de las redes para ley de potencias en la capa de abstracci´onmolecular correspondiente a co-expresi´on,se pudo estimar que la correlaci´on promedio de las topolog´ıaspara las cuatro enfermedades poseen un valor de 0.90 lo cual permite afirmar que para las redes en esta capa de abstracci´onmolecular la distribuci´onde grado de cada una de ellas es muy cercana a la ley de potencias (tabla 4.5). As´ımismo, para las cuatro redes correspondientes a la capa de interacci´onprote´ına-prote´ına,el valor de co- rrelaci´onde la distribuci´onde grado con respecto a ley de potencias en promedio fue de 0.99, lo cual indica que para estas cuatro enfermedades la distribuci´onde grado de sus correspon- dientes redes en esta capa de abstracci´onmolecular se ajusta a la ley de potencias (tabla 4.5).

Adicionalmente, los Z-score obtenidos a partir de los valores de coeficiente de agrupamiento para 1000 redes aleatorias en la capa de abstracci´onmolecular correspondiente a co-expresi´on, permiti´oidentificar un Z-score m´ınimo de 87.87 (p-valor < 0.05) para la enfermedad de Alzheimer y un Z-score m´aximode 1848.3 (p-valor < 0.05) para la enfermedad de Parkinson lo cual permite establecer que ninguna topolog´ıapara las redes de co-expresi´onde todas las enfermedades fue dada por azar (tabla 4.5). As´ı mismo, para la capa de abstracci´on molecular correspondiente a interacci´onprote´ına-prote´ınase obtuvo un Z-score m´ınimode 3.03 (p-valor < 0.05) correspondiente a la enfermedad de Alzheimer y un Z-score m´aximode 48.15 (p-valor < 0.05) para la enfermedad de Parkinson, lo cual permite afirmar que ninguna 74 4 Resultados de las redes de interacci´onprote´ına-prote´ınapara las cuatro enfermedades aqu´ıestudiadas fue dada por azar (tabla 4.5).

Tabla 4.5.: Valores de Z-score para el coeficiente de agrupamiento con p-valor < 0.05 y valores de correlaci´onen relaci´onal ajuste de la distribuci´onde grado para ley de potencias en ambas capas de abstracci´onmolecular. Co-expresi´on Interacci´onprote´ına-prote´ına Enfermedad Z-score Correlaci´on Z-score Correlaci´on Enfermedad de Alzheimer 87.87 0.93 3.03 0.99 Enfermedad de Parkinson 1472.51 0.96 48.15 0.99 Esclerosis m´ultiple 469.26 0.96 29.02 0.99 Esquizofrenia 1848.3 0.73 23.61 0.99

Patrones de conectividad com´un Lo resultados obtenidos para la validaci´onde los CCPs a partir del Z-score del n´umerode aristas en el caso de la capa de abstracci´onmolecular correspondiente a co-expresi´onpermite afirmar que ning´unCCP obtenido a partir de todas las comparaciones realizadas teniendo en cuenta las cuatro redes correspondientes a las enfermedades bajo estudio fue dada por azar, afirmaci´onsoportada por el hecho que el m´ınimoZ-score obtenido fue de -70.97 (p-valor < 0.05) correspondiente a la comparaci´onentre esclerosis m´ultipley esquizofrenia y el mayor Z-score obtenido fue de -3.27 (p-valor < 0.05) correspondiente a la comparaci´onentre la enfermedad de Alzheimer y la enfermedad de Parkinson (tabla 4.6). As´ımismo, los valores de Z-score obtenidos para la capa de abstracci´onmolecular correspondiente a interacci´on prote´ına-prote´ınapermiten afirmar que ning´unCCP obtenido para todas las comparaciones realizadas entre las cuatro enfermedades en esta capa fue dada por azar dado que el Z-score m´ınimofue de 2.86 (p-valor < 0.05) correspondiente a la comparaci´onentre la enfermedad de Alzheimer y esclerosis m´ultiple,mientras el mayor Z-score obtenido fue de 40.26 (p-valor < 0.05) correspondiente a la comparaci´onentre la enfermedad de Parkinson y esquizofrenia (tabla 4.6).

Por otro lado, la validaci´onde los CCPs llevada a cabo a partir del m´etodo de bootstrapping soporta lo resultados anteriormente descritos debido a que en ninguna de las dos capas de abstracci´onmolecular fue posible obtener alguna repetici´onde los CCPs obtenidos origi- nalmente realizando las permutaci´onde las redes originales manteniendo las marcas de los v´ertices.Es decir, que todos los resultados del proceso de bootstrapping en todas las compa- raciones para ambas capas de abstracci´onmolecular el resultado fue igual a cero reafirmando el hecho que ning´unCCP fue obtenido por casualidad (tabla 4.6). 4.7 Validaci´on 75

Tabla 4.6.: Valores de Z-score para el n´umerode aristas con p-valor < 0.05 y valores de bootstrapping para cada uno de los CCPs obtenidos a partir de las comparacio- nes realizadas en ambas capas de abstracci´onmolecular. Co-expresi´on Interacci´onprote´ına-prote´ına Comparaci´on Z-score Bootstrap Z-score Bootstrap Enfermedad de Alzheimer vs Enferme- -3.27 0 15.58 0 dad de Parkinson Enfermedad de Alzheimer vs esclerosis -6.12 0 2.86 0 m´ultiple Enfermedad de Alzheimer vs esquizo- -7.73 0 13.09 0 frenia Enfermedad de Parkinson vs esclerosis -12.31 0 28.44 0 m´ultiple Enfermedad de Parkinson vs esquizo- -29.91 0 40.26 0 frenia Esclerosis m´ultiplevs esquizofrenia -78.97 0 13.74 0 Enfermedad de Alzheimer vs Enferme- - - 31.61 0 dad de Parkinson v esclerosis m´ultiple Enfermedad de Alzheimer vs Enferme- - - 31.61 0 dad de Parkinson vs esquizofrenia Enfermedad de Parkinson vs esclerosis -3.62 0 25.41 0 m´ultiplevs esquizofrenia

4.7.3. Validaci´onbiol´ogica Patrones de conectividad com´unen co-expresi´on La primera forma de validaci´onpara los CCPs obtenidos en la capa de abstracci´onmolecular correspondiente a co-expresi´on,la cual fue el an´alisisde enriquecimiento de rutas contenidas en la base de dato KEGG, dio como resultado dos posibles procesos con un p-valor < 0.05 identificados para un CCP obtenido cuando la redes pertenecientes a esclerosis m´ultipley esquizofrenia fueron comparadas. En ambas rutas identificadas cabe resaltar a los IDs HTR6 y CHRM2 los cuales fueron mapeados en ambas rutas (tabla 4.7). 76 4 Resultados

Tabla 4.7.: Rutas en KEGG identificadas en la capa de abstracci´onmolecular correspon- diente a co-expresi´onpor medio del an´alisisde enriquecimiento. Comparaci´on CCP Ruta p-valor IDs mapeados Esclerosis m´ultiplevs esqui- CCP 1 Neuroactive 0.0083 HTR6, CHRM2, zofrenia ligand-receptor GRM6, CGA interaction Calcium signa- 0.031 HTR6, CHRM2, ling pathway PDGFRA

El siguiente an´alisisde enriquecimiento en esta capa de abstracci´onmolecular, el cual co- rresponde a la identificaci´onde las diferentes categor´ıasdel Gene Ontology (GO), dio como resultado, en la categor´ıacorrespondiente a procesos biol´ogicos, el mapeo de 10 procesos aso- ciados con CCPs para tres diferentes comparaciones entre redes de co-expresi´on.La primera de ellas, entre esclerosis m´ultipley esquizofrenia, donde los miembros de uno de sus CCPs mapeo para dos procesos biol´ogicoscon un p-valor < 0.05. La segunda comparaci´ondonde se obtuvieron resultados para esta categor´ıadel GO fue entre la enfermedad de Parkinson y esquizofrenia, donde los miembros de dos CCPs lograron ser mapeados con un p-valor < 0.05, siendo el primero de ellos mapeado para cinco procesos y el segundo para tres (tabla 4.8).

Tabla 4.8.: Procesos biol´ogicosmapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 en la capa de abstracci´onmolecular correspondiente a co- expresi´on. Comparaci´on CCP Nombre p-valor IDs mapeados Enfermedad de Parkinson CCP1 ribosomal small 0.017 RPS17, RPS6 vs esquizofrenia subunit biogene- sis mitotic nuclear 0.028 HAUS1, RPS6 division lamellipodium 0.033 NCK1, assembly GOLPH3 protein secretion 0.034 ARFGAP3, GOLPH3 gene expression 0.05 POLR2G, GOLPH3 CCP8 nucleic acid 0.0045 APEX2, ATRIP phosphodiester bond hydrolysis 4.7 Validaci´on 77

Tabla 4.8.: Continuaci´on Comparaci´on CCP Nombre p-valor IDs mapeados DNA recombi- 0.0049 APEX2, ATRIP nation DNA repair 0.014 APEX2, ATRIP Esclerosis m´ultiplevs esqui- CCP1 positive regula- 0.03 GTSE1, CGA, zofrenia tion of cell mi- PDGFRA gration developmental 0.037 CGA, STRA6 growth

Por otra parte, realizando el mismo procedimiento de enriquecimiento para la categor´ıaGO correspondiente a componente celular en esta capa de abstracci´onmolecular, los resultados obtenidos fueron seis componentes mapeados con un p-valor < 0.05 los cuales est´ancon- tenidos dentro de cuatro diferentes CCPs. Estos resultados corresponden a un componente asociado a un CCP perteneciente a la comparaci´onentre enfermedad de Alzheimer y es- clerosis m´ultiple,cuatro componentes dentro de dos CCPs pertenecientes a la comparaci´on entre enfermedad de Parkinson y esquizofrenia, siendo uno de dichos CCPs mapeado para tres componentes y uno para el segundo CCP. El ´ultimocomponente identificado dentro de un CCP perteneciente a la comparaci´onentre esclerosis m´ultipley esquizofrenia (tabla 4.9).

Tabla 4.9.: Componentes celulares mapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 en la capa de abstracci´onmolecular correspondiente a co- expresi´on. Comparaci´on CCP Nombre p-valor IDs mapeados Enfermedad de Alzheimer CCP1 lamellipodium 0.017 ACTG2, vs esclerosis m´ultiple SLC9A1 Enfermedad de Parkinson CCP1 nucleoplasm 0.0015 POLR2G, vs esquizofrenia SNW1, SMCR8, GOLPH3, PRIM1, RPS17, RPS6, RNF7 ribosome 0.014 NCK1, PRS17, RPS6 cytosolic small 0.05 RPS17, RPS6 ribosomal subunit 78 4 Resultados

Tabla 4.9.: Continuaci´on Comparaci´on CCP Nombre p-valor IDs mapeados CCP3 presynapse 0.01 NRXN1, SYT13 Esclerosis m´ultiplevs esqui- CCP1 integral compo- 0.011 HTR6, CHRM2, zofrenia nent of plasma GRM6, IL9R, membrane PDGFRA, PTPRB

Realizando el an´alisisde enriquecimiento para la ultima categoria GO correspondiente a funci´onmolecular llevado a cabo para los v´erticesmiembros de los CCPs obtenidos en todas las comparaciones dentro de la capa de abstracci´onmolecular correspondiente a co- expresi´on,los resultados obtenidos permitieron identificar cinco funciones con un p-valor < 0.05 pertenecientes a tres CCPs asociados a dos diferente tipos de comparaci´onde red. El primero de ellos es la comparaci´onentre la enfermedad de Alzheimer y esquizofrenia donde se identific´oun CCP cuyos miembros mapearon para una funci´onmolecular. Por otro lado, la segunda comparaci´onen obtener resultados en este an´alisisfue el correspondiente entre la enfermedad de Parkinson y esquizofrenia donde los miembros de un CCP mapearon para tres funciones moleculares y los miembros de un segundo CCP mapearon para una funci´on molecular (tabla 4.10).

Tabla 4.10.: Funciones moleculares mapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 en la capa de abstracci´onmolecular correspondiente a co-expresi´on. Comparaci´on CCP Nombre p-valor IDs mapeados Enfermedad de Alzheimer CCP1 lamellipodium 0.017 ACTG2, vs esclerosis m´ultiple SLC9A1 Enfermedad de Parkinson CCP1 nucleoplasm 0.0015 POLR2G, vs esquizofrenia SNW1, SMCR8, GOLPH3, PRIM1, RPS17, RPS6, RNF7 ribosome 0.014 NCK1, PRS17, RPS6 cytosolic small 0.05 RPS17, RPS6 ribosomal subunit CCP3 presynapse 0.01 NRXN1, SYT13 4.7 Validaci´on 79

Tabla 4.10.: Continuaci´on Comparaci´on CCP Nombre p-valor IDs mapeados Esclerosis m´ultiplevs esqui- CCP1 integral compo- 0.011 HTR6, CHRM2, zofrenia nent of plasma GRM6, IL9R, membrane PDGFRA, PTPRB

Por ´ultimo,realizando la b´usquedaexhaustiva en la literatura para cada uno de los miembros pertenecientes a cada uno de los CCPs obtenidos en esta capa de abstracci´onmolecular, se logr´oidentificar al menos un v´erticeasociado con alguna de las enfermedades de origen, es decir, las enfermedades que fueron comparadas para la obtenci´ondel CCP donde se ubica dicho v´erticemapeado. Los resultados de este proceso llevaron a identificar al menos un v´erticepara el 88 % del total de CCPs en esta capa correspondiente a co-expresi´on.Asi mis- mo, del total de miembros de todos los CCPs representados en todas las comparaciones entre las cuatro enfermedades, el 36.71 % de estos fue asociado con alguna de las enfermedades de origen por al menos una referencia en la literatura (tabla 4.11, anexo I).

Tabla 4.11.: Miembros de los CCPs asociados con al menos una de las enfermedades de origen por al menos una referencia en la literatura en la capa de abstracci´on molecular correspondiente a co-expresi´on. Comparaci´on CCP IDs mapeados Enfermedad de Alzheimer CCP1 ARHGEF38, PKP1 vs enfermedad de Parkinson CCP2 HNF4G CCP3 E2F7 CCP4 SLC46A1 Enfermedad de Alzheimer CCP1 CYP4B1 vs esclerosis m´ultiple Enfermedad de Alzheimer CCP1 ACTG2, LOC338588, vs esquizofrenia TMEM30B, GRM6 CCP2 C1QTNF7 Enfermedad de Parkinson CCP1 CGA, TAB1 vs esclerosis m´ultiple CCP3 LCK 80 4 Resultados

Tabla 4.11.: Continuaci´on Comparaci´on CCP IDs mapeados Enfermedad de Parkinson CCP1 CTBP2, EXT2, RNF7, vs esquizofrenia NCK1, RPS17, N4BP2, RPS6, MICB, GOLPH3, ARFGAP3 CCP2 ABCA4, NLRP11, ZNF843, PLXNA1, CGA, LOC338588, LYNX1 CCP3 GNG3, SYT13, NRXN1 CCP4 UQCC CCP5 TSPAN18 CCP6 TAB1 CCP7 WNT7B CCP10 PDHX CCP11 PCDHG Esclerosis m´ultiplevs esqui- CCP1 CHRM2, ACTG2, zofrenia LOC338588, IL9R, PNRP, PDGFRA, HTR6, MUC16, CGA, GPR64, GRM6 CCP2 CCNA1, DLX1, SYT13, HECW1, KCNB2 CCP3 TAC1 Enfermedad de Parkinson CCP1 CGA vs esclerosis m´ultiplevs es- quizofrenia

Patrones de conectividad com´unen interacci´onprote´ına-prote´ına Las aristas de todas las redes pertenecientes a la capa de abstracci´onmolecular correspon- diente a interacci´onprote´ına-prote´ınafueron obtenidas por medio de la consulta de la base de datos STRING (ver cap´ıtulo3). As´ımismo, se consult´oesta base de datos para rastrear las evidencias que soportan cada una de las aristas, como resultado se pudo determinar que el 100 % del total de aristas de los CCPs identificados a partir de las diferente comparaciones entre las redes de interacci´onprote´ına-prote´ınaaqu´ıreconstruidas fueron establecidas por medio de datos experimentales (anexo J). Ahora bien, del total de aristas, para el 69.77 % de ellas fue posible rastrear el nombre del experimento que logr´oestablecer la asociaci´on entre los productos proteicos implicados, esto a su vez corresponde al 64.81 % del total de 4.7 Validaci´on 81

CCPs obtenidos en las diferentes comparaciones entre redes en esta capa de abstracci´onmo- lecular para los cuales al menos una arista cuyo experimento fue debidamente identificado (tabla 4.12, anexo J).

Tabla 4.12.: Aristas cuyo estudio experimental fue debidamente rastreado desde la base de datos STRING en la capa de abstracci´on molecular correspondiente a interac- ci´onprote´ına-prote´ına. Comparaci´on Aristas mapeadas Enfermedad de Alzheimer RPL21–RPS17, ATP1B4–BACE1, vs Enfermedad de Parkin- MLLT4–NRXN1 son Enfermedad de Alzheimer HP1BP3–KRT3 vs esclerosis m´ultiple Enfermedad de Alzheimer PHF5A–RNF2, RNF2–HNRNPR, vs esquizofrenia RNF2–RUVBL1, RNF2–TBL1XR1, HNRNPR–COL17A1 Enfermedad de Parkinson CSNK2A1–BMI1, CSNK2A1–CSN2, vs esclerosis m´ultiple CSNK2A1–PML, CSNK2A1–NOLC1, CSNK2A1–CSNK2A2, CSNK2A1– PIAS1, CSNK2A1–PRPF38A, CSNK2A1–TSPY1, UBB–SMAD4, UBB–PSMA2, BMI1–RPN1, BMI1– WBP11, PAK2–RPS6, PAK2–LCK, RPN1–ASB11, LCK–IFNAR1, LCK–PTPN12, PTPN12–TNS3, NOLC1–RPS6, RPS6–RPS17, RPS6–RPL14, PML–TGFBR2, PML–PIAS1, SMAD4–TGFBR2, PIAS1–SMAD4, SMAD4–CDKN2B, NOLC1–CSNK2A2, PIAS1–GEMIN4, RPS17–RPL14, PSMA2–PSMB6, PSMA2–ASB11, STK3–MST1, NFE2L2–CASP1, CASP1–CARD16, SYT13–NRXN1, CCNA1–PROCA1, APPBP2–LONRF3, MAGI1–TSHR, FSHB–CGA 82 4 Resultados

Tabla 4.12.: Continuaci´on Comparaci´on Aristas mapeadas Enfermedad de Parkinson UBB–RHOA, UBB–UCHL3, SNW1– vs esquizofrenia HNRNPA1, SNW1–HNRNPC, SNW1–FOXN3, SNW1–SNRNP40, SNW1–TUBB2C, SNW1–PRPF8, HNRNPA1–EIF2C1, HNRNPA1– HNRNPC, HNRNPA1–TARDBP, HNRNPA1–RPS6, HNRNPA1– PRPF8, HNRNPA1–PHF5A, HNRNPA1–TOPORS, HNRNPA1– PRMT3, HNRNPC–EIF2C1, EIF2C1–SLC25A3, EIF2C1–RPS6, EIF2C1–MEX3B, HNRNPC– KRAS, HNRNPC–TARDBP, HNRNPC–IFIT1, TARDBP–RPS6, TARDBP–MRPS22, SNRNP40–PML, SNRNP40–PRPF8, RPN1–ASB11, RHOA–ICMT, SLC25A3–PDHX, RPS6–RPS17, RPS6–MAPKAP1, PML–TGFBR2, TOPORS–PML, PRMT3–SEC23A, HAUS1–MYL12B, FAM96B–PRIM1, DVL3–LRRFIP2, KLHL24–PICK1, SYT13–NRXN1, APPBP2–PYROXD2, RABEP1– KCNH1, ATRIP–CCDC28B, GPD1– GK, SEMA6D–PLXNA1 Esclerosis m´ultiplevs esqui- FBXW2–RBX1, CCNT1–TUBB2C, zofrenia RBX1–PML, CCNT1–PML, IKBKG– COPS3, RBX1–COPS3, IKBKG– UBB, RPN1–ASB11, PML–TGFBR2, PML–HHEX, TGFBR2–PDGFRA, ACTA1–LGALS3, ACTA1–USP6NL, ACTA1–MYL1, LGALS3–RAB7A, LGALS3–FCGR2A, SMN1–SRP54, SMN1–SNRPA1, SNRPA1–SEPT7, RPS6–RPS17, SYT13–NRXN1, GNA11–CHRM2, SLC25A11– CAMKK2 4.7 Validaci´on 83

Tabla 4.12.: Continuaci´on Comparaci´on Aristas mapeadas Enfermedad de Parkinson RPN1–ASB11, SYT13–NRXN1, vs esclerosis m´ultiplevs es- RPS6–RPS17, PML–TGFBR2 quizofrenia

Realizando el procedimiento concerniente al an´alisisde enriquecimiento para rutas en la base de datos KEGG, los resultados obtenidos permitieron identificar un ´unicoCCP con p-valor < 0.05 asociado a alguna ruta en esta base de datos. Adicionalmente este resultado fue soportado por una prueba de Z-score contra datos aleatorizados (tabla 4.13).

Tabla 4.13.: Ruta en KEGG identificada en la capa de abstracci´onmolecular correspondien- te a interacci´onprote´ına-prote´ınapor medio del an´alisisde enriquecimiento. Comparaci´on CCP Ruta p-valor Z-score IDs mapeados Esclerosis m´ultiplevs esqui- CCP6 Cholinergic sy- 0.00049 -2.06 GNA11, zofrenia napse Homo sa- CHRM2 piens hsa04725

Por otra parte, realizando los an´alisisde enriquecimiento para la categor´ıaGO concerniente a procesos biol´ogicos para cada CCP obtenido a partir de las distintas comparaciones realizadas en esta capa de abstracci´onmolecular, los resultados permitieron identificar 25 diferentes procesos asociados con cinco diferentes comparaciones entre enfermedades con un p-valor < 0.05 y soportados por los valores de Z-score contra datos aleatorizados. Dos de los procesos biol´ogicosidentificados est´anincluidos cada uno con un CCP por separado pertenecientes a la comparaci´onentre la enfermedad de Alzheimer y la enfermedad de Parkinson. A su vez, siete de los procesos est´anincluidos dentro de la comparaci´onentre la enfermedad de Parkinson y esclerosis m´ultiple,donde seis de estos procesos corresponden a un solo CCP. Adicionalmente, tres de los procesos aqu´ıidentificados pertenecen a un mismo CCP el cual corresponde a la comparaci´onentre la enfermedad de Parkinson y esquizofrenia (tabla 4.14). De los procesos restantes, 10 pertenecen a la comparaci´onentre esclerosis m´ultipley esqui- zofrenia, donde cinco de ellos pertenecen a un solo CCP, dos pertenecen a otro patr´onde conectividad com´uny los restantes tres pertenecen cada uno a un CCP diferente. Los ´ulti- mos tres procesos fueron mapeados para tres diferentes CCPs los cuales hacen parte de los resultados obtenidos cuando las redes de interacci´onprote´ına-prote´ınacorrespondientes a la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia son comparadas (tabla 4.14). 84 4 Resultados

Tabla 4.14.: Procesos biol´ogicosmapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 y soportados por valores de Z-score en la capa de abstracci´on molecular correspondiente a interacci´onprote´ına-prote´ına. Comparaci´on CCP Nombre p-valor Z-score IDs mapeados Enfermedad de CCP1 translation 0.0056 -4.27 RPS17, RPL21 Alzheimer vs enfermedad de Parkinson CCP2 negative re- 0.0012 gulation of -2.63 transcription NCK1,PDIA2 from RNA polymerase II promoter in response to endoplasmic reticulum stress Enfermedad de CCP1 termination of T 0.0024 -3.33 PSMB6, UBB, Parkinson vs es- cell signal trans- LCK, PSMA2, clerosis m´ultiple duction PAK2 positive regu- 0.0053 -2.79 PSMB6, lation of trans- SMAD4, UBB, cription from PSMA2 RNA polymera- se II promoter in response to hypoxia I-kappaB phosp- 0.007 -4.54 CSNK2A1, horylation UBB, LCK, PAK2, TGFBR2 mitochondrial 7 -3,47 PSMB6, UBB, transmembrane PSMA2, transport SLC25A11 cleavage invol- 0.007 -3.34 RPS17, RPS6, ved in rRNA RPL14, NOLC1 processing 4.7 Validaci´on 85

Tabla 4.14.: Continuaci´on Comparaci´on CCP Nombre p-valor Z-score IDs mapeados mitochondria- 0.007 -3.33 PSMB6, UBB, associated PSMA2, PML ubiquitin- dependent pro- tein catabolic process CCP11 positive re- 0.0023 -6.32 FSHB, CGA gulation of purine nucleoti- de biosynthetic process by po- sitive regulation of transcrip- tion from RNA polymerase II promoter Enfermedad de CCP1 spliceosomal 0,00066 -3.69 SNRNP40, Parkinson vs es- complex as- PHF5A, SNW1, quizofrenia sembly HNRNPC, HNRNPA1, PRPF8 snoRNA splicing 0.0031 -2.98 SNRNP40, HNRNPC, PRPF8, TARDBP intrinsic apop- 0.016 -2.75 SNW1,TOPORS, totic signaling PML pathway in res- ponse to DNA damage by p53 class mediator Esclerosis m´ulti- CCP1 post- 0.0069 -5.01 COPS3, ple vs esquizofre- translational NPN1, ASB11, nia protein modifi- FBXW2, RBX1 cation 86 4 Resultados

Tabla 4.14.: Continuaci´on Comparaci´on CCP Nombre p-valor Z-score IDs mapeados stress-activated 0.0069 -4.07 PDGFRA, MAPK cascade UBB, IKBKG, RBX1 proteasome- 0.0069 -3.77 COPS3, UBB, mediated PML, RBX1 ubiquitin- dependent pro- tein catabolic process I-kappaB phosp- 0.01 -4.59 UBB, CCNT1, horylation IKBKG, TGFBR2 transcription- 0.0069 -2.98 COPS3, UBB, coupled RBX1 nucleotide- excision repair, DNA damage recognition CCP2 neutrophil de- 0.017 -5.24 LGALS3, granulation FCGR2A, RAB7A intracellular pro- 0.023 -3.64 USP6NL, tein transport RAB7A CCP3 spliceosomal 0.017 -3.7 SNRPA1, SMN1 complex as- sembly CCP4 ribosomal small 0.0001 -3.13 RPS6, RPS17 subunit as- sembly 4.7 Validaci´on 87

Tabla 4.14.: Continuaci´on Comparaci´on CCP Nombre p-valor Z-score IDs mapeados CCP6 G-protein 0.00001 -2.43 GNA11, coupled acetyl- CHRM2 choline receptor signaling path- way involved in positive regulation of acetylcholine secretion, neuro- transmission Enfermedad de CCP1 post- 0.011 -5.02 RPN1, ASB11 Parkinson vs es- translational clerosis m´ultiple protein modifi- vs esquizofrenia cation CCP3 ribosomal small 0.0001 -3.13 RPS6, RPS17 subunit as- sembly CCP4 negative regula- 0.014 -5.33 PML, TGFBR2 tion of cell proli- feration

Con respecto al an´alisisde enriquecimiento realizado para la categor´ıaGO concerniente a componente celular para cada uno de los CCPs obtenidos en esta capa de abstracci´onmo- lecular los resultados permitieron la identificaci´onde 10 diferentes componentes con p-valor < 0.05 y apoyados por los valores de Z-score contra datos aleatorizados. De estos resulta- dos identificados, uno de ellos fue asociado a un CCP perteneciente a la comparaci´onentre las redes de interacci´onprote´ına-prote´ınaentre las enfermedades de Alzheimer y Parkinson. Adicionalmente, tres de estos componentes fueron mapeados dentro de los resultados obte- nidos al realizar la comparaci´onde las redes entre enfermedad de Alzheimer y esquizofrenia, estos tres componentes pertenecen a un solo CCP. Por otro lado, cuatro componentes co- rresponden a dos CCPs obtenidos al comparar la enfermedad de Parkinson y esquizofrenia siendo tres de ellos mapeados para un solo CCP. As´ımismo, un componente fue identificado en un CCP obtenido como resultado de la intersecci´onentre los conjuntos de aristas entre esclerosis m´ultipley esquizofrenia, siendo el componente restante mapeado para un CCP ob- tenido al comparar las redes de enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia (tabla 4.15). 88 4 Resultados

Tabla 4.15.: Componentes celulares mapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 y soportados por valores de Z-score en la capa de abstracci´on molecular correspondiente a interacci´onprote´ına-prote´ına. Comparaci´on CCP Nombre p-valor Z-score IDs mapeados Enfermedad de Alzheimer CCP3 interleukin-3 re- 0.005 -5.58 ATP1B4, BA- vs enfermedad de Parkinson ceptor complex CE1 Enfermedad de Alzheimer CCP1 MLL1 complex 0.0075 -1,95 RUVBL1, RNF2 vs esquizofrenia polysomal ribo- 0.014 -2.19 RPS17, NCK1 some U12-type spli- 0.016 -2.2 PHF5A, ceosomal com- HNRNPR plex Enfermedad de Parkinson CCP1 precatalytic spli- 0.000049 -2.26 SNRNP40, vs esquizofrenia ceosome PHF5A, SNW1, HNRNPC, HNRNPA1 U12-type spli- 0.0009 -2.27 PHF5A, SNW1, ceosomal com- HNRNPC, plex HNRNPA1 trans spliceoso- 0.0042 -2.03 SNW1, mal complex HNRNPC, HNRNPA1 CCP10 early endosome 0.002 -2.8 RABEP1, membrane KCNH1 Esclerosis m´ultiplevs esqui- CCP4 cytosolic small 0.00017 -2.16 RPS6, RPS17 zofrenia ribosomal subunit Enfermedad de Parkinson CCP3 cytosolic small 0.00017 -2.16 RPS6, RPS17 vs esclerosis m´ultiplevs es- ribosomal quizofrenia subunit

Por ´ultimo,realizando el an´alisisde enriquecimiento para la categor´ıa GO concerniente a funci´onmolecular, los resultados muestran 11 funciones asociadas a cinco diferentes com- paraciones entre redes de interacci´onprote´ına-prote´ınacon p-valor < 0.05 y soportados por los valores de Z-score contra datos aleatorizados. Una de estas funciones fue asociada para un CCP el cual pertenece a los resultados obtenidos cuando las redes correspondientes a la enfermedad de Alzheimer y la enfermedad de Parkinson son comparadas. Adicionalmente, 4.7 Validaci´on 89 tres de estas funciones fueron relacionados para tres diferentes CCPs pertenecientes a los resultados correspondientes a la comparaci´onentre enfermedad de Parkinson y esclerosis m´ultiple(tabla 4.16).

Adicionalmente, dos CCPs mapearon cada uno para una funci´ondiferente dentro de los resul- tados obtenidos cuando se calcula la intersecci´onentre los conjuntos de aristas pertenecientes a la enfermedad de Parkinson y esquizofrenia. Por otro lado, tres CCPs correspondientes a los resultados obtenidos al comparar las redes entre esclerosis m´ultipley esquizofrenia ma- pearon cada uno para una funci´onmolecular diferente. Las dos funciones restantes, fueron cada una relacionada con un CCP diferente los cuales hacen parte de los resultados obtenidos cuando las redes de interacci´onprote´ına-prote´ınaentre enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia son comparadas (tabla 4.16).

Tabla 4.16.: Funciones moleculares mapeados a partir del an´alisisde enriquecimiento de GO con p-valor < 0.05 y soportados por valores de Z-score en la capa de abstracci´on molecular correspondiente a interacci´onprote´ına-prote´ına. Comparaci´on CCP Nombre p-valor Z-score IDs mapeados Enfermedad de CCP1 GU repeat RNA 0.0021 -3.69 PHF5A, RPS17, Alzheimer vs binding RPL21 enfermedad de Parkinson Enfermedad de CCP1 GU repeat RNA 0.00084 -3.68 EIF5B, RPS17, Parkinson vs es- binding PRPF38A, clerosis m´ultiple PRN1, RPS6, RPL14, NOLC1, WBP11, SLC25A11 CCP7 calcium ion 0.00056 -2.84 NRXN1, SYT13 binding involved in regulation of cytosolic calcium ion concentration CCP11 neuropeptide 0.00001 -2.15 FSHB, CGA hormone acti- vity 90 4 Resultados

Tabla 4.16.: Continuaci´on Comparaci´on CCP Nombre p-valor Z-score IDs mapeados Enfermedad de CCP1 regulatory 0.000002 -3.69 MEX3B, Parkinson vs es- region RNA SNRNP40, quizofrenia binding RPS17, SNW1, PHF5A, RPN1, RPS6, HNRNPC, TARDBP, HNRNPA1, IFIT1, PRPF8 CCP7 calcium ion sen- 0.00056 -2.84 SYT13, NRXN1 sor activity Esclerosis m´ulti- CCP3 regulatory 0.024 -3.67 SNRPA1, ple vs esquizofre- region RNA SRP54 nia binding CCP4 base pairing 0.0052 -3.69 RPS6, RPS17 with RNA CCP5 calcium ion sen- 0.00056 -2.84 SYT13, NRXN1 sor activity Enfermedad de CCP2 calcium ion 0.00056 -2.84 SYT13,NRXN1 Parkinson vs es- binding involved clerosis m´ultiple in regulation vs esquizofrenia of cytosolic calcium ion concentration CCP3 GU repeat RNA 0.0052 -3.69 RPS6, RPS17 binding

Finalmente, realizando la b´usquedaexhaustiva en la literatura, fue posible rastrear una refe- rencia que permita evidenciar la relaci´onde un v´ertice con al menos una de las enfermedades para la cual este est´easociado para el 45.1 % del total de v´erticesque componen todos los CCPs pertenecientes a la capa de abstracci´onmolecular correspondiente a interacci´onpro- te´ına-prote´ına.Adicionalmente, de todos los CCPs pertenecientes a esta capa, para el 73.08 % de ellos fue posible rastrear al menos uno de sus v´erticescon evidencia en la literatura que lo vincule con alguna de las enfermedades de origen (tabla 4.17, anexo K). 4.7 Validaci´on 91

Tabla 4.17.: Miembros de los CCPs asociados con al menos una de las enfermedades de origen por al menos una referencia en la literatura en la capa de abstracci´on molecular correspondiente a interacci´onprote´ına-prote´ına. Comparaci´on CCP IDs mapeados Enfermedad de Alzheimer CCP1 RPL21, MRPS22, RPS17 vs enfermedad de Parkinson CCP2 NCK1, PDIA2 CCP3 ATP1B4, BACE1 CCP6 MLLT4 Enfermedad de Alzheimer CCP1 HP1BP3 vs esclerosis m´ultiple Enfermedad de Alzheimer CCP1 RNF2, MRPS22, EIF2C1, vs esquizofrenia HNRNPR, IGHM, RPS17, TBL1XR1, NCK1 CCP2 DOCK2 Enfermedad de Parkinson CCP1 BMI1, CSN2, SMAD4, PS- vs esclerosis m´ultiple MA2, PAK2, RPS6, LCK, IFNAR1, PTPN12, RPS17, TGFBR2, CDKN2B CCP2 STK3, MST1 CCP3 NFE2L2, CASP1 CCP4 MAPKBP1 CCP6 BEX1 CCP7 NRXN1 CCP8 CCNA1 CCP10 MAGI1, TSHR CCP11 CGA CCP12 IRAK3, FOLR1 Enfermedad de Parkinson CCP1 UBB, RHOA, UCHL3, vs esquizofrenia HNRNPA1, HNRNPC, TARDBP, EIF2C1, RPS6, TOPORS, SLC25A3, RPS17, PDHX, MAP- KAP1, AS, TGFBR2 CCP3 NCK1, PYGM CCP5 DVL3 CCP6 PICK1 CCP7 SYT13, NRXN1 92 4 Resultados

Tabla 4.17.: Continuaci´on Comparaci´on CCP IDs mapeados CCP9 CTBP2, CCR5 CCP10 KCNH1 CCP13 SEMA6D, PLXNA1 Esclerosis m´ultiplevs esqui- CCP1 ASAP1, UBB, TGFBR2, zofrenia PDGFRA CCP2 USP6NL, LGALS3 CCP3 SEPT7 CCP4 RPS6 CCP5 SYT13, NRXN1 CCP6 GNA11, CHRM2 CCP8 CAMKK2 CCP9 CDIPT CCP11 TAC1, TAC4 Enfermedad de Alzheimer CCP1 EIF2C1, MRPS2 vs enfermedad de Parkinson vs esquizofrenia Enfermedad de Parkinson CCP2 SYT13, NRXN1 vs esclerosis m´ultiplevs es- quizofrenia CCP3 RPS6, RPS17 CCP4 TGFBR2

Elementos compartidos Para realizar la validaci´onde los elementos compartidos identificados en la capa de abstrac- ci´onmolecular concerniente a co-expresi´on,se realiz´ola b´usquedaexhaustiva en la literatura para quellos elementos compartidos en al menos tres de las redes correspondientes a las en- fermedades bajo estudio. Los resultados de esta b´usquedaen esta capa de abstracci´onfue la vinculaci´ondel 44.74 % de los elements que cumplian la condicion anteriormente mencionada con al menos una de las enfermedades para las que dicho elemento est´aasociado por medio de una referencia en la literatura donde se evidencia dicha relaci´on.Adicionalmente, cabe destacar el hecho que para todas las posibles comparaciones entre tres enfermedades, fue posible rastrear al menos uno de sus elementos compartidos por medio de una referencia que lo vincule con alguna de las enfermedades para el cual est´aasociado. As´ımiso, de los cuatro elementos compartidos identificados en la comparaci´onde las cuatro redes de co- expresi´oncorrespondiente a las cuatro enfermedades, para dos de ellas fue posible rastrear 4.7 Validaci´on 93 una referencia que los vincule con alguna de las enfermedades (tabla 4.18, anexo L).

Tabla 4.18.: Miembros de los elementos compartidos asociados con al menos una de las enfermedades de origen por al menos una referencia en la literatura en la capa de abstracci´onmolecular correspondiente a co-expresi´on. Comparaci´on IDs mapeados Enfermedad de Alzheimer PKP1 vs enfermedad de Parkinson vs esclerosis m´ultiple Enfermedad de Alzheimer LOC338588, TMEM30B, N4BP2, C1QTNF7, PKP1, UQCC vs enfermedad de Parkinson vs esquizofrenia Enfermedad de Alzheimer ACTG2, LOC338588, GRM6, PKP1 vs esclerosis m´ultiplevs es- quizofrenia Enfermedad de Parkinson TAB1, HECW1, SYT13, CCNA1, LOC338588, NRXN1 vs esclerosis m´ultiplevs es- quizofrenia Enfermedad de Alzheimer PKP1, LOC338588 vs enfermedad de Parkinson vs esclerosis m´ultiplevs es- quizofrenia

Realizando el mismo procedimiento anteriormente mencionado para los elementos compar- tidos pertenecientes a la capa de abstracci´onmolecular correspondiente a interacci´onpro- te´ına-prote´ına,lo resultados muestran que para el 46.88 % de los elementos asociados con al menos tres enfermedades fueron vinculados con al menos una de estas enfermedades de origen gracias a una referencia en la literatura que los relaciona. As´ımismo, se debe destacar que para esta capa de abstracci´onmolecular, tambi´enfue posible vincular al menos uno de los elementos compartidos para todas las posibles comparaciones entre las redes de interac- ci´onprote´ına-prote´ınaentre tres enfermedades y adicionalmente, dos de los tres elementos compartidos identificados para las cuatro enfermedades bajo estudio fue igualmente posible obtener al menos una referencia en la literatura que lo vincule con alguno de estos fenotipos (tabla 4.19, anexo L). 94 4 Resultados

Tabla 4.19.: Miembros de los elementos compartidos asociados con al menos una de las enfermedades de origen por al menos una referencia en la literatura en la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına-prote´ına. Comparaci´on IDs mapeados Enfermedad de Alzheimer RPS17, NRXN1, MST1 vs enfermedad de Parkinson vs esclerosis m´ultiple Enfermedad de Alzheimer IGHM, RPS17, NCK1, BACE1, CTBP2, NRXN1 vs enfermedad de Parkinson vs esquizofrenia Enfermedad de Alzheimer RPS17, NRXN1 vs esclerosis m´ultiplevs es- quizofrenia Enfermedad de Parkinson UBB, CCNA1, FCGR2A, CGA vs esclerosis m´ultiplevs es- quizofrenia Enfermedad de Alzheimer NRXN1, RPS17 vs enfermedad de Parkinson vs esclerosis m´ultiplevs es- quizofrenia 5. Discusi´on

5.1. Metodolog´ıapara determinar el valor umbral en co-expresi´on

En el presente trabajo se han utilizado una serie de herramientas y m´etodos ampliamen- te utilizados tanto para el an´alisisde microarreglos de DNA como para la identificaci´onde genes diferencialmente expresados (Huber et al., 2002; Huber et al., 2003; Acosta and L´opez- Kleine, 2015). Ahora bien, para definir los patrones coordinados de expresi´onse ha utilizado una metodolog´ıaen dos pasos basado principalmente en la manipulaci´onde una matriz de correlaci´onobtenida por medio del valor absoluto del coeficiente de correlaci´onde Pearson. Este m´etodo es el m´asampliamente utilizado en la reconstrucci´onde redes de co-expresi´on dado que permite definir las relaciones lineales de una forma m´as´optimay adicionalmente se ha demostrado que las relaciones (patrones coordinados de expresi´on)identificados con este m´etodo son muy similares al m´etodo de informaci´onmutua (MI) el cual es el m´asamplia- mente utilizado para definir relaciones no lineales en expresi´onde genes (Wang et al., 2015; Song et al., 2012). Ahora bien, se ha demostrado que el coeficiente de correlaci´onde Pearson es id´oneopara an´alisisde microarreglos de DNA con un bajo n´umerode muestras y que por el contrario el m´etodo de informaci´onmutua es id´oneopara el an´alisisde microarreglos que manejan un gran n´umerode muestras (L´opez-Kleine et al., 2013; van Dam et al., 2017).

Como se mencion´ocon anterioridad, en el presente trabajo se propone un m´etodo de dos pasos para la identificaci´on del valor umbral ´optimopara generar las redes de co-expresi´on (ver cap´ıtulo3). El primero es el filtro de los posibles valores umbral teniendo en cuenta los trabajos de Elo et al. (2007) y Leal et al. (2014) para generar los valores de coeficiente de clusterizaci´onde una red aleatoria siguiendo el modelo de configuraci´ony un criterio para identificar la redes que se someten a los principios del modelo de mundo peque˜no.El segundo paso, es un filtro de los posibles valores umbral restantes de acuerdo a un criterio aqu´ıpropuesto el cual consiste en utilizar el m´etodo de Kolmogorov-smirnov tal y como se efect´uaen el paquete igraph de R para identificar el p-valor de la prueba de bondad de ajuste en este caso frente a una distribuci´onnormal dado que para los posibles valores umbral restantes ya es conocido que no generan redes aleatorias siguiendo el modelo de configuraci´on y al contrario del paquete en R petal, el presente trabajo no genera esta prueba de bondad de ajuste para distribuci´onde ley de potencias dadas las controversias del uso de este modelo 96 5 Discusi´on

(Csardi and Nepusz, 2006; Petereit et al., 2016).

5.2. Validaci´ontopol´ogica

A pesar que las redes aqu´ıreconstruidas no fueron obtenidas por medio de una metodolog´ıa guiada hacia un modelo de distribuci´onBarab´asi-Albert, dentro de la biolog´ıade sistemas sigue siendo una regla de oro tanto para validar los resultados como criterio de publicaci´on el hecho que las redes resultantes posean una distribuci´onde ley de potencias o por lo menos posea un valor de correlaci´ono de R2 cercano a esta distribuci´on(Sulaimanov and Koeppl, 2016; Petereit et al., 2016). Es por ello que se tom´ola iniciativa de determinar el valor de correlaci´onde las redes aqu´ıobtenidas en ambas capas de abstracci´onmolecular respecto a la distribuci´onde ley de potencias en donde los resultados mostrados en la tabla 4.5 permi- ten demostrar una fuerte correlaci´oncon esta distribuci´onaunque ´esteno es el m´etodo de validaci´ontopol´ogicaid´oneodado que aqu´ıse quiere demostrar que las redes no son dadas por azar de manera independiente de su distribuci´on(modelo de configuraci´on),por ende el Z-score fue el m´etodo m´asid´oneopara efectuar ese paso (tabla 4.5) (Hao and Li, 2011; Rubinov and Sporns, 2010).

Con respecto a los CCPs obtenidos, el presente trabajo propone una nueva metodolog´ıa basada en el bootstrapping de las aristas de las redes para contar el n´umerode repeticiones de los CCPs en ambas capas de abstracci´onmolecular, es decir, el n´umerode veces que los resultados pueden ser obtenidos por casualidad (tabla 4.6). Esta metodolog´ıa,aunque sigue un principio estad´ısticoampliamente aplicado en otras ramas del conocimiento, puede representar un conflicto con la forma can´onicade validaci´ontopol´ogicaen biolog´ıade redes dado que no se rige bajo el principio de conservaci´onde la distribuci´onde grado de las redes originales (modelo de configuraci´on)o establecer su ajuste a alguno de los modelos nulos (Barab´asi-Albert, por ejemplo) (Shore and Lubin, 2015; Milenkovi´cet al., 2009; Musmeci et al., 2013). Por tanto, a pesar que el m´etodo de bootstrapping demostr´oser aplicable para generar una validaci´ontopol´ogicapara los CCPs, ajustes de este m´etodo a los principios de biolog´ıade redes es recomendado.

No obstante, cabe recordar que el m´etodo de los Patrones de Conectividad Com´uno CCP por sus siglas en ingl´esest´adefinido dentro de la comparaci´onpor emparejamiento perfecto de subredes, por lo cual la identificaci´ony conteo de isomorfos dentro de las posibles varia- ciones al m´etodo de bootstrapping no es recomendado dado que ello est´arelacionado con el alineamiento de redes lo cual no hace parte de los lineamientos te´oricosaqu´ıtenidos en cuenta dado que el prop´ositode los CCPs es la identificaci´onde patrones de asociaci´onen- tre componentes moleculares como resultado del an´alisisy rastreo de informaci´onbiol´ogica previa, por lo cual similitudes entre las redes no deben ser tenidas en cuenta puesto que ello posee un fundamento topol´ogicom´asno biol´ogico (Dehmer and Emmert-Streib, 2007; 5.3 Patrones de conectividad com´unen co-expresi´on 97

Mueller et al., 2013).

5.3. Patrones de conectividad com´unen co-expresi´on

En la capa de abstracci´onmolecular correspondiente a co-expresi´onha sido posible la iden- tificaci´onde una serie de patrones de conectividad com´unentre diferentes fenotipos de en- fermedad. Cabe resaltar de los resultados aqu´ıobtenidos que existen CCPs asociados a dos enfermedades cualesquiera sean, es decir, que existen patrones de conectividad com´uncuan- do dos de los fenotipos aqu´ıestudiados son comparados sin importar cuales son. Cuando se detalla el tama˜node los CCPs en esta capa de abstracci´onmolecular, se puede observar que son peque˜nos,esto es evidente cuando se observa el caso de los CCPs obtenidos entre la enfermedad de Parkinson y esquizofrenia, donde a pesar de haber obtenido 11 CCPs para este caso, nueve de ellos no superan los cuatro v´ertices(figura 4.8(c), anexo E).

Las consideraciones anteriormente mencionadas deben ser tenidas en cuenta dado que las metodolog´ıasampliamente utilizadas en an´alisispropios de biolog´ıade redes consideran solo la identificaci´ony comparaci´onde m´odulosde red. Este hecho conlleva a estudiar solo las subredes topol´ogicamente m´asdensas, ello se traduce en ignorar la informaci´oncontenida en la topolog´ıarestante y como aqu´ıse ha podido demostrar, es posible obtener informaci´on acerca de subredes espec´ıficas compartidas entre diferentes redes (Ghiassian et al., 2015; van Dam et al., 2017; Thomas et al., 2016). Adicionalmente, cabe resaltar el hecho asociado con la naturaleza de las redes originales que fueron comparadas para la obtenci´onde los resulta- dos aqu´ımostrados, dichas redes fueron construidas a partir de datos biol´ogicosespec´ıficos, en este caso datos de expresi´onpara la generaci´onde redes de co-expresi´one interacci´on prote´ına-prote´ına. Esto significa que es posible obtener resultados a partir de redes de es- te tipo sin necesidad de agregar informaci´onbiol´ogicaoriginada a partir de otros eventos celulares tales como interacci´onde prote´ınaso informaci´onasociada a metabolismo para ex- traer informaci´on´utilde un fenotipo dado que se ha empezado a establecer la problem´atica asociada a ruido de fondo por parte de este tipo de redes multi-´omicasy la cada vez mayor inclusi´onde supuestos basados en redes multicapa (Yugi et al., 2016; Boccaletti et al., 2014).

Por otra parte, se ha logrado determinar que los CCPs obtenidos para esta capa de abstrac- ci´onmolecular no fueron dados por azar, es intuitivo llegar a esta consideraci´ondado que las redes originales, es decir, las redes de co-expresi´oncorrespondientes a cada una de las cuatro enfermedades estudiadas aqu´ıya hab´ıan sido previamente validadas (tabla 4.5). Aun as´ı,aqu´ıse describe el m´etodo de Z-core frente a redes aleatorizadas que ya ha sido pre- viamente utilizado para generar validaciones frente a topolog´ıasesperadas por azar (Expert et al., 2011; Douw et al., 2011; Ghiassian et al., 2015). M´asa´un,podr´ıallegar a ser intuitivo pensar que el tama˜node los CCPs en la capa de co-expresi´on,dado que en su mayor´ıason de peque˜notama˜no,podr´ıan ser obtenidos con mayor probabilidad de manera azarosa, pero 98 5 Discusi´on como demuestran los resultados de este proceso, inclusive para los CCPs m´aspeque˜nos,es- tos resultados no son obtenidos por casualidad (tabla 4.6). Adicionalmente, el m´etodo aqu´ı propuesto de bootstrapping considerando las marcas de los v´ertices, tambi´endemostr´oque a pesar de generar 1000 veces las comparaciones entre reales y aleatorias, estos resultados no son repetibles de ning´unmodo, soportando a´unm´asla utilidad y la validez que los patrones de conectividad com´unpuedan tener en el proceso de formulaci´onde hip´otesisasociadas a la comparaci´onentre fenotipos.

Ahora bien, es necesario realizar una breve descripci´onde c´omolos componentes pertenecien- tes al CCP mapeado para las dos rutas identificadas a partir del an´alisisde enriquecimiento est´anrelacionadas con las enfermedades en las cuales fueron identificadas. Dicho CCP fue obtenido al realizar la comparaci´onentre las redes de co-expresi´onentre las enfermedades de esclerosis m´ultipley esquizofrenia, una de las rutas para las cuales fue posible mapear varios de sus elementos constituyentes con un p-valor < 0.05 fue la interacci´onreceptor-ligando neuroactivo donde existen reportes previos de asociaci´onde esta ruta con esclerosis m´ultiple por medio de un an´alisisde 350 marcadores identificados por medio de un an´alisisde GWAS, en este estudio la ruta de interacci´onreceptor-ligando neuroactivo fue igualmente identifica- da realizando un an´alisisde enriquecimiento de las rutas en la base de datos KEGG (Wang et al., 2011b).

Adicionalmente, esta ruta tambi´enha sido estudiada en el caso de la enfermedad de esqui- zofrenia, pero por su parte, ha sido propuesta como un blanco para el desarrollo de nuevos f´armacosantipsic´oticosdonde adicionalmente se resalta el papel de varios receptores de glu- tamato identificados llevando a cabo un procedimiento basado en la reconstrucci´onde una red de tipo gen-medicamento (Putnam et al., 2011). GRM6 es uno de los elementos pertene- cientes al CCP que mape´opara esta ruta y precisamente constituye un receptor de glutamato metabotr´opicopoco estudiado en esquizofrenia en comparaci´oncon los dem´asGRMs (Maj et al., 2016). Los otros miembros del CCP que fueron mapeados dentro de la ruta de inter- acci´onreceptor-ligando neuroactivo corresponde a receptores tales como CHRM2 el cual es un receptor colin´ergicopreviamente asociado con esclerosis m´ultiplepor medio de estudios llevados a cabo en modelo murino y adicionalmente asociado como un gen de susceptibili- dad a esquizofrenia por un SNP identificado como rs8191992 (Negoro et al., 2013; Miyauchi et al., 2016). As´ımismo, otro receptor asociado con la esclerosis m´ultipley esquizofrenia es el receptor cori´onicoCGA el cual presenta estudios donde es identificado como un gen diferencialmente expresado para ambas enfermedades (van Luijn et al., 2015; Iwazaki et al., 2004). Por su parte el receptor de serotonina HTR6 fue vinculado con esquizofrenia por me- dio de un estudio basado en la comparaci´onde muestras caso-control (Kishi et al., 2012).

La segunda ruta identificada por medio del an´alisisde enriquecimiento para la base de datos KEGG del CCP perteneciente a la comparaci´onentre las redes de co-expresi´onde las enfer- 5.3 Patrones de conectividad com´unen co-expresi´on 99 medades de esclerosis m´ultipley esquizofrenia fue la ruta de se˜nalizaci´onde calcio (tabla 4.7). En esclerosis m´ultiple se ha realizado un gran esfuerzo para determinar las anormalidades relacionadas con la homeostasis de calcio en la activacion de celulas T que provoca la acci´on asociada con el ataque a las vainas de mielina producidas por los oligodendrocitos en los estadios tempranos de esta enfermedad (Hundehege et al., 2017). En cuanto a esquizofrenia, se han presentado estudios que relacionan a la se˜nalizaci´onde calcio con cada una de las hip´otesismayores de esta enfermedad incluyendo la hip´otesisdopamin´ergica,la hip´otesis GABA´ergicay la hip´otesisde la desregulaci´onde la mielinizaci´on(Lidow, 2003). Para esta ruta fueron tres los elementos que mapearon para esta enfermedad donde se incluyen los ante- riormente descritos CHRM2 y HTR6, el otro elemento que mape´opara esta ruta corresponde a PDGFRA el cual ha sido vinculado con esclerosis m´ultipleincluyendo su co-expresi´oncon NG2 en c´elulasde oligodendrocitos y as´ımismo se identific´ocomo un gen sobreexpresado en este mismo tipo de c´elulaslo cual apoya la hip´otesisasociada con mielinizaci´onen esta enfermedad (Wilson et al., 2006; Mauney et al., 2015).

Considerando ahora las categor´ıas del Gene Ontology que fueron identificadas en este proceso de enriquecimiento, vale la pena describir el resultado obtenido concerniente a los miembros de uno de los CCPs correspondiente a la comparaci´onentre las redes de co-expresi´onde las enfermedades de Parkinson y esquizofrenia los cuales mapearon para el componente celular correspondiente a presinapsis (tabla 4.9). Este resultado est´arelacionado con la enfermedad de Parkinson dado que previamente en modelos animales se ha estudiado la relaci´onentre la prote´ınaLRRK2 la cual est´aasociada con Parkinson familiar respecto a alteraciones en el tr´aficovesicular de la dopamina en la regi´onpresin´aptica(Belluzzi et al., 2012). Por su parte, en cuanto a esquizofrenia, la hip´otesis dopamin´ergicaes considerada una de las hip´ote- sis mayores de esta enfermedad donde se resalta el an´alisisde la transmisi´onde dopamina presin´apticautilizando varios paradigmas (Miyake et al., 2011).

Ahora bien, analizando los elementos espec´ıficosque fueron asociados con esta categor´ıase encuentra NRXN1 el cual es un receptor de superficie celular el cual se une a neuroliginas para la formaci´onde un complejo neurexina/neuroligina dependiente de calcio requerido para una neurotransmisi´oneficiente en el proceso sin´aptico(Reissner et al., 2008). Por su parte, el segundo elemento correspondiente a SYT13 pertenece a la familia SYT cuya funci´on est´aasociada al tr´aficovesicular, exocitosis y secreci´on,adem´asSYT13 se caracteriza por no poseer los residuos necesarios para la uni´onde calcio (Fukuda and Mikoshiba, 2001).

En su mayor´ıa,los restantes resultados obtenidos a partir del an´alisisde enriquecimiento de las categor´ıas GO est´anrelacionadas con el proceso de expresi´ong´enica,estos resultados, independiente de su categor´ıatienen una base que les permite asociarse con las enfermedades bajo estudio, principalmente con las relacionadas a neurodegeneraci´ongracias a la hip´otesis de lo acumulados proteicos donde se destaca el supuesto relacionado con anormalidades en 100 5 Discusi´on el proceso de plegamiento y modificaciones post-traduccionales de los productos proteicos implicados (Kovacs, 2014).

Finalmente, para cada uno de los elemento pertenecientes a cada uno de los CCPs obtenidos en todas las comparaciones entre redes de co-expresi´onpertenecientes a las cuatro enferme- dades bajo estudio fue asociado una referencia en la literatura que lo vincule con alguna de las enfermedades para las cuales dicho elemento perteneciente a un CCP fue identificado (tabla 4.11, anexo I). No obstante, para todos esos elementos no fue posible identificar una referencia que los vincula de manera directa, una de las razones por la cual no fue posible ob- tener un resultado satisfactorio en este proceso se debe a la aparici´onde genes hipot´eticosy genes asociados con marcos de lectura abiertos, ejemplos de estos elementos son LOC339978 y LOC100507274 lo cuales son genes hipot´eticoslocalizados en CCPs identificados al compa- rar las redes entre la enfermedad de Alzheimer y esquizofrenia (figura 4.8(b), anexo E). Asi mismo, se pueden tomar los casos de C21orf122, C10orf25, C10orf119 y C15orf44 los cuales est´anasociados a marcos de lectura abierto y pertenecen a CCPs identificados cuando la enfermedades de Parkinson y esquizofrenia son comparadas (figura 4.8(c), anexo E).

Adicionalmente, cabe destacar que varios de estos elementos, aunque no pudieron ser rela- cionados directamente con las enfermedades de origen por una referencia en la literatura, fue posible identificar al menos una referencia que los vincule de manera indirecta con alguna de las enfermedades de origen. Por ejemplo, ABCA4 se ha identificado que su funci´onanormal produce degradaci´onretinal, fen´omenoque se vincula con la enfermedad de Parkinson da- do que existen s´ıntomas visuales asociados con la dopamina retinal que vincula esta regi´on ´opticacomo posible biomarcador para esta enfermedad (Lee et al., 2014a; Han et al., 2012). As´ımismo, dentro de los CCPs obtenidos en esta comparaci´on,se puede resaltar al elemento RPS6 cuyo producto proteico es una prote´ına ribosomal y para la cual existe una referencia en la literatura la cual reporta la relaci´onentre el aumento de L-DOPA y la fosforilaci´onde esta prote´ınaen relaci´ona la ruta mTOR que a su vez ha sido vinculada con la enfermedad de Parkinson (Santini et al., 2010).

Por otra parte, cuando se comparan las enfermedades de esclerosis m´ultipley esquizofrenia en la capa de abstracci´onmolecular correspondiente a co-expresi´on,varios elementos perte- necientes a los CCPs obtenidos tampoco pueden ser identificados directamente con alguna de estas dos enfermedades a pesar que fue posible obtener m´ultiplesresultados en los an´ali- sis de enriquecimiento descritos anteriormente (tabla 4.8, tabla 4.9, tabla 4.10, anexo I). No obstante, varios de estos elementos se asocian de forma indirecta con alguna de estas dos enfermedades, un ejemplo destacable de ello es el gen CTDSPL, una quinasa la cual es silenciada por el microRNA identificado como miR-183-5p el cual ha sido reportado como sobreexpresado en un estudio en esquizofrenia (Vachev et al., 2016). Estos resultados ante- riormente descritos permiten evidenciar una relaci´onque, aunque no es evidente puede ser 5.4 Patrones de conectividad com´unen interacci´onprote´ına-prote´ına 101 rastreada entre estos elementos y alguna de las enfermedades para las cuales est´aasociada, esto permite recomendar a estos elementos como objetivos para futuros estudios validados con m´assoporte biol´ogicode fondo.

5.4. Patrones de conectividad com´unen interacci´on prote´ına-prote´ına

Al igual que en co-expresi´on,en la capa de abstracci´onmolecular correspondiente a interac- ci´onproteina-prote´ınatambi´enha sido posible la identificaci´onde una serie de patrones de conectividad com´unasociados a las diferentes enfermedades bajo estudio. No obstante, en esta capa se debe resaltar el hecho que se han podido identificar un n´umeromayor de CCPs y adicionalmente, como se puede observar en los casos relacionados con la comparaci´onentre las enfermedades de Parkinson y esclerosis m´ultipley la comparaci´onentre la enfermedad de Parkinson y esquizofrenia, el tama˜node los CCPs es m´asgrande (figura 4.10(c), figu- ra 4.11(c), anexo F). Este hecho llama la atenci´ondebido a que el tama˜node las redes de interacci´onprote´ına-prote´ınade cada una de las cuatro enfermedades aqu´ıtenidas en cuenta, en relaci´ona las redes de co-expresi´on,son de menor tama˜no,lo cual se debe al hecho que varios de los genes diferencialmente expresados corresponden a genes hipot´eticoso regiones asociadas con marcos abiertos de lectura los cuales no pueden ser mapeados a un producto proteico dentro de la base de datos STRING (Szklarczyk et al., 2014).

Otro resultado que debe ser mencionado corresponde a la obtenci´onde CCPs en tres de las cuatro posibles comparaciones entre tres enfermedades de manera simult´aneasiendo so- lo la comparaci´onentre las enfermedades de Alzheimer, esclerosis m´ultipley esquizofrenia aquella para la cual no fueron identificados patrones de conectividad com´un(figura 4.12, anexo F). Es necesario hacer un hincapi´een estas dos caracter´ısticasmencionadas anterior- mente respecto a los CCPs obtenidos en la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına-prote´ınadado que han demostrado que no hay necesidad de generar redes como resultado de la mezcla de datos biol´ogicosbajo el supuesto de aumentar el poder predictivo de dichas redes y a´unm´asse debe hacer hincapi´een el hecho que es posible obte- ner resultados topol´ogicos teniendo en cuenta la totalidad de la red biol´ogicabajo an´alisis. Esto, apoyado por una segunda capa de red tal como fue aplicado en este estudio en el caso de co-expresi´onpermiten rastrear de una forma ´optimala naturaleza biol´ogicade todos los resultados obtenidos (Rowlands et al., 2014; Kim et al., 2017).

Al igual que los CCPs obtenidos en la capa de co-expresi´on,fue posible demostrar que los patrones de conectividad com´unidentificados en la capa de abstracci´on molecular corres- pondiente a interacci´onprote´ına-prote´ınano fueron, en ninguno de los casos, dados por azar (tabla 4.6). Esta afirmaci´onyace soportada por los resultados obtenidos en el proceso de 102 5 Discusi´on validaci´ontopol´ogicaa partir del c´alculode los valores de Z-score y del conteo de las repe- ticiones de los CCPs obtenidos por medio del procedimiento de bootstrapping siendo estos dos procedimientos id´oneospara la verificaci´onaqui llevada a cabo principalmente el uso de Z-score utilizado previamente en otros estudios con el mismo prop´osito (Expert et al., 2011; Douw et al., 2011; Ghiassian et al., 2015).

As´ımismo, se identific´ouna ruta en el an´alisisde enriquecimiento asociada a un CCP obte- nido cuando las redes de interacci´onprote´ına-prote´ınacorrespondientes a esclerosis m´ultiple y esquizofrenia son comparadas (tabla 4.13). En este caso, la ruta de la base KEGG que fue mapeada con p-valor < 0.05 y apoyada por el valor de Z-score contra dato aleatorizados corresponde a sinapsis colin´ergica,esta ruta ha sido asociada en estudios previos con ambas enfermedades (Kooi et al., 2011; Sarter et al., 2012). En el caso de la esclerosis m´ultipleha sido demostrado la alteraci´onde neurotransmisores colin´ergicosen el hipocampo asociados con esta enfermedad en muestras post-mortem las cuales fueron identificadas como firmas ´unicasen comparaci´oncon alteraciones en la misma regi´onen la enfermedad de Alzheimer (Kooi et al., 2011). Por su parte, en el caso de esquizofrenia se han llevado a cabo esfuerzos principalmente en modelos animales con el fin de estudiar la posible contribuci´ondel sistema colin´ergicocon respecto a los s´ıntomas cognitivos propios de esta enfermedad (Sarter et al., 2012). Los elementos pertenecientes al CCP que fue asociado con esta ruta fueron el recep- tor colin´ergicoCHRM2 el cual ya ha sido previamente asociado con ambas enfermedades incluyendo la variante de este gen identificada como rs8191992 asociada espec´ıficamente con esquizofrenia (Negoro et al., 2013; Miyauchi et al., 2016). Por otro lado, el segundo elemento relacionado con esta ruta fue GNA11 el cual fue propuesto como marcador para esclerosis m´ultipleen un estudio llevado a cabo en una poblaci´onescandinava, siendo este el primer estudio en asociar a GNA11 con esclerosis m´ultiple(Westerlind et al., 2015).

Llevando a cabo este mismo proceso para conectar los resultados obtenidos a partir del an´ali- sis de enriquecimiento para las diferentes categor´ıasdel Gene Ontology con los CCPs obte- nidos en la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına-prote´ına, merece ser analizado el caso de uno de los CCPs pertenecientes a la comparaci´onentre las redes correspondientes a la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia el cual mapeo para la categor´ıade funci´onmolecular concerniente a la regulaci´ondel calcio citos´olico(tabla 4.16). Este resultado no es posible asociarlo directamente con la ruta de sinapsis colin´ergicaobtenida en el enriquecimiento de rutas anteriormente descrito e identi- ficado entre esclerosis m´ultipley esquizofrenia pero si posee una relaci´oncon los resultados descritos en la capa de abstracci´onmolecular correspondiente a co-expresi´on(tabla 4.7).

Dicha relaci´onentre estos resultados yace en que los elementos mapeados en el CCP de la capa de interacci´onprote´ına-prote´ınapara estas tres enfermedades fueron SYT13 y NRXN1 los cuale fueron mapeados en la anterior capa de abstracci´onmolecular y cuya relaci´oncon el 5.4 Patrones de conectividad com´unen interacci´onprote´ına-prote´ına 103 ion calcio fue descrita debidamente (Belluzzi et al., 2012; Miyake et al., 2011). Por otro lado, aqu´ıse relacionan de manera adicional con la enfermedad de Parkinson para la cual tambi´en existen estudios previos que asocian este ion con el desarrollo de esta enfermedad (Surmeier et al., 2017). En este caso, se define una citotoxicidad producida por una concentraci´onele- vada de dopamina, calcio y alfa-sinucle´ınaque provoca la p´erdida de los terminales axonales en las neuronas, lo cual relaciona al calcio con la hip´otesis de dopamina en la enfermedad de esquizofrenia y a su vez enlaza el posible papel de secreci´onde neurotransmisores de SYT13 y la capacidad de uni´onentre NRXN1 con calcio en las regiones sin´apticasde las neuronas en el complejo neurexina/neuroligina (Reissner et al., 2008; Fukuda and Mikoshiba, 2001). Es vital dar este tipo de descripciones que, aunque breves, permite generar un marco biol´ogico que vincula los resultados aqu´ıobtenidos de forma que posibilita el desarrollo de hip´otesis novedosas que asocian diferentes fenotipos de manera simult´anea.

Adicionalmente, en la mayor´ıade los resultados obtenidos en este an´alisisde enriquecimiento, independientemente de la categor´ıaGO fueron identificados procesos asociados a expresi´on de genes, ya sea en los procesos, funciones y componentes propios de la traducci´on,as´ı como para los eventos y factores propios asociados con modificaciones post-traduccionales e inclusive, resaltando los fen´omenosinvolucrados en el desarrollo de splicing alternativo, m´asespec´ıficamente el ensamblaje del spliceosoma que est´anasociados para cada una de las cuatro enfermedades aqu´ıestudiadas y que a su vez alimenta la hip´otesisasociadas a los acumulados proteicos previamente descrito (tabla 4.14, tabla 4.15, tabla 4.16) (Kovacs, 2014).

Realizando la vinculaci´onde cada uno de los elementos pertenecientes a los CCPs obteni- dos en la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına-prote´ınacon cada una de las enfermedades para las cuales dicho CCP fue identificado, se puede observar que caso contrario a la capa de co-expresi´on,los resultados muestran pocos identificadores asociados a prote´ınashipot´eticassalvo pocos casos tomando como ejemplo los CCPs ob- tenidos al comparar a la enfermedad de Parkinson y esquizofrenia donde se identificaron CCPs con elementos identificados como C6ORF18 y C1ORF190 los cuales est´anasociados a marcos de lectura abierto para los cuales no fue posible identificar ninguna referencia en la literatura que los vincule con alguna de estas dos enfermedades (figura 4.11(c), anexo F). Adicionalmente, en estos resultados obtenidos vale la pena destacar a los elementos identi- ficados como KRTAP9 y KRTAP4 los cuales son prote´ınasasociadas a queratina las cuales est´aninvolucradas en la mayor´ıade las comparaciones entre enfermedades en esta capa de abstracci´onmolecular y para las cuales no existe evidencia en la literatura de su asociaci´on para al menos una de ellas (figura 4.10, figura 4.11, figura 4.12, anexo F).

Por otro lado, no todos los elementos miembros de los CCPs identificados en esta capa lograron ser vinculado con una de las enfermedades asociados a dicho CCP por medio de una referencia en la literatura (tabla 4.17, anexo K). Sin embargo, varios de estos elementos 104 5 Discusi´on poseen una relaci´onindirecta con alguna de estas enfermedades y cuya evidencia en la lite- ratura pudo ser obtenida gracias a la b´usquedaexhaustiva, un ejemplo de ello se presenta en CCPs identificados cuando las redes de interacci´onprote´ına-prote´ınacorrespondientes a las enfermedades de Parkinson y esquizofrenia son comparadas. De los elementos miembros de estos CCPs se destaca MYL12B el cual est´aasociado a miosina y para la cual existe un estudio previo donde se describe su interacci´oncon SNCA y LRRK2 las cuales son bien estudiadas y caracterizadas en Parkinson (Lee et al., 2014b). As´ımismo, de esto elementos se resalta NCK1 para el cual se asocia una referencia en la literatura donde se identifica como sobreexpresado en pacientes con Parkinson pero se describe solo su interacci´oncon EGR3 el cual est´aestrechamente relacionado con esta enfermedad (Diao et al., 2012).

Todos los resultados anteriormente presentados, aunque muchos de ellos ya hab´ıansido pre- viamente reportado de manera experimental y este hecho suponga una desventaja respecto a redescubrir resultados, en realidad demuestra el poder predictivo in silico del m´etodo aqu´ı propuesto dado que no solo permite identificar factores clave previamente reportados sino adem´aspermite exponer sus relaciones particulares en diferentes capas de abstracci´onmole- cular aumentando el poder predictivo para la generaci´onde hip´otesisbiol´ogicas m´asprecisas enfocados a procesos celulares concretos (tablas 4.6 y 4.13). Adicionalmente, aunque pare- ciera que estos resultados pueden ser f´acilmente obtenidos por utilizar datos de expresi´on concretos para cada una de las cuatro enfermedades, en realidad toda la metodolog´ıaaqu´ı expuesta tiene como fin aumentar el poder predictivo de los patrones coordinados de ex- presi´ony en ning´uncaso, los estudios de expresi´onde los datos crudos originales pretenden en ning´uncaso buscar asociaciones entre m´asde uno de los fenotipos de enfermedad aqu´ı tratados (ver anexo B). Por tanto, todos los resultados concernientes a asociaciones entre elementos moleculares aqu´ıpresentados fueron obtenidos de novo como resultado de la me- todolog´ıadenominada Patrones de Conectividad Com´un(CCP).

Es necesario ser enf´aticos en este aspecto en la capa de abstracci´onmolecular correspondiente a interacci´onprote´ına-prote´ınadado que puede llegar a ser intuitivo el concluir que todas las aristas y por ende los CCPs obtenidos, al poseer ´unicamente evidencia experimental de soporte, est´enreproduciendo ´unicamente resultados previos y no se est´eobservando ning´un resultado novedoso (tabla 4.12, anexo J). No obstante, debe quedar claro el hecho que estas interacciones entre productos proteicos fueron experimentalmente validados para una c´elula sana, es decir, el objetivo de estos experimentos fue descubrir las asociaciones existentes dentro de una c´elulasin tener en cuenta un fenotipo en particular (tabla 4.12, anexo J). Por lo tanto, la novedad en los resultados aqu´ı expuestos (CCPs) yace en el hecho que dichas interacciones son presentadas como factores comunes en el origen y/o desarrollo de fenotipos espec´ıficos,en este caso des´ordenesneurol´ogicoslos cuales no han sido reportados previamente para estas enfermedades. 5.5 Elementos compartidos 105

5.5. Elementos compartidos

Un resultado obtenido adicionalmente el cual tambi´endebe ser tenido en cuenta para el presente trabajo es la obtenci´onde elementos comunes entre las enfermedades, dichos ele- mentos aunque compartidos, no fue posible identificarlos dentro de un CCP espec´ıficopor lo cual son presentados s´olocomo una lista de componentes (anexo G). Se debe destacar adem´asque ha sido posible la identificaci´onde estos elementos en ambas capas de abstrac- ci´onmolecular y a´unm´asimportante fue posible obtener resultados para todas las posible comparaciones incluyendo las comparaciones entre tres y entre las cuatro enfermedades bajo estudio (tabla 4.3, anexo G). Adicionalmente, los resultados muestran un n´umerovariable entre el n´umerode elementos compartidos obtenidos para cada una de las comparaciones en ambas capas de abstracci´onmolecular, pero a pesar de ello una misma comparaci´onposee un n´umerosimilar de elementos identificados en sus respectivas capas de co-expresi´one in- teracci´onprote´ına-prote´ına(tabla 4.3).

Un ejemplo de este hecho es la comparaci´onentre las enfermedades de Parkinson y esclerosis m´ultiple,donde en la capa correspondiente a co-expresi´onfueron 46 los elementos compar- tidos identificados y siendo 42 de estos elementos identificados en la capa de abstracci´on molecular correspondiente a interacci´onprote´ına-prote´ına(tabla 4.3). No obstante, existe una comparaci´ondonde el n´umerode elementos identificados var´ıaconsiderablemente en sus correspondientes capas de co-expresi´one interacci´onprote´ına-prote´ına,dicha comparaci´on es entre la enfermedad de Alzheimer y esquizofrenia donde se identificaron 21 y 7 elementos compartidos respectivamente (tabla 4.3).

Estos listados de elementos compartidos a pesar de ser resultados ´utilespara la generaci´on de nuevas hip´otesisque relacionen a los fenotipos bajo estudio, no son lo suficientemente informativos para lograr la construcci´onde un tejido conceptual alrededor de la biolog´ıa equiparable a los resultados obtenidos bajo la identificaci´onde los patrones de conectividad com´un.Esto puede ser f´acilmente evidenciado en el hecho que los elementos pertenecientes a los CCPs pueden ser usados como entradas para herramientas que efect´uenan´alisis de enriquecimiento como se describi´ocon anterioridad dado que estos elementos poseen una interconectividad espec´ıficaentre ellos que soporta los resultados del enriquecimiento. Caso contrario, los elementos compartidos al no poseer evidencia de interconectividad entre ellos respecto a la capa de abstracci´onmolecular para la cual fueron identificados, aunque sean usados como entrada para las herramientas de enriquecimiento, no existe un soporte v´alido que permita confiar en los posibles resultados obtenidos (Tamayo et al., 2016).

Con respecto a los elementos compartidos identificados al comparar tres enfermedades bajo estudio de manera simult´anea,se debe resaltar que en ambas capas de abstracci´onmolecular se obtuvo un n´umeromuy similar de elementos identificados siendo 17 los componentes ob- 106 5 Discusi´on tenidos en el caso de co-expresi´ony 18 los elementos identificados en la capa correspondiente a interacci´onprote´ına-prote´ına(tabla 4.3, anexo G). Cabe resaltar de manera adicional que para todas las posibles comparaciones entre tres enfermedades fue posible identificar al me- nos para uno de sus elementos compartidos una referencia en la literatura que lo vincule con al menos una de las enfermedades asociadas (tabla 4.18, tabla 4.19, anexo L). Ahora bien, como se mencion´oanteriormente no es posible generar una hip´otesisque permita vin- cular estos elementos en una posible sucesi´onde eventos biol´ogicoscomo sucedi´ocon varios CCPs descritos anteriormente, un ejemplo claro de ello es el hecho que para las redes de co-expresi´onse identificaron los elementos SYT13 y NRXN1 cuando se comparan las enfer- medades de Parkinson, esclerosis m´ultipley esquizofrenia (anexo G). Estos dos elementos y su vinculaci´oncon estas enfermedades fue descrita anteriormente para varios CCPs pero en este caso hacen parte de un listado compartido con elemento tales como HECW1 el cual posee un dominio de uni´ona ubiquitina E3 lo que apoya en parte la hip´otesisde ubiquiti- naci´onde prote´ınasdescrita anteriormente de forma independiente (Miyazaki et al., 2004; Kovacs, 2014).

Por su parte, en esta misma comparaci´onentre estas tres enfermedades tomando los resul- tados de la capa de abstracci´onmolecular correspondiente a interaccion proteina-prote´ına, se obtuvieron referencias en la literatura para elementos compartidos tales como ubiquitina B, el cual apoya la hip´otesisantes descrita y a FCGR2A el cual es un receptor para la in- munoglobulina G lo cual es concordante con la hip´otesisinmune en esclerosis m´ultiple (Hu et al., 2017; Lee et al., 2011a; Jern˚aset al., 2013; Guerau-de Arellano et al., 2011). No obs- tante, no existe evidencia adicional que permita asociar ambas hipotesis en una sola teor´ıa biol´ogicahaciendo referencia a la imposibilidad de llevar a cabo an´alisisde enriquecimien- to para estos elementos compartidos que distinga alguna categor´ıadel Gene Ontology o en el mejor de los casos una ruta de la base de datos KEGG que soporte una relaci´onentre ellos.

As´ımismo, tambi´enfue posible identificar elementos compartidos para las cuatro enferme- dades aqu´ıanalizadas en ambas capas de abstracci´onmolecular aunque en este caso solo se identificaron cuatro elementos en la capa de co-expresi´ony tres elementos en la capa corres- pondiente a interacci´onprote´ına-prote´ına (tabla 4.3, anexo G). Esta cantidad de elementos compartidos obtenidos para todas las enfermedades bajo estudio da la posibilidad de que sean estudiadas de manera separada en estudios futuros. Adicionalmente cabe resaltar que varios de estos elementos hacen parte de CCPs en otro tipo de comparaciones destacando aqu´ıa PKP1 y LOC338588 en la capa de abstracci´onde co-expresi´ony a RPS17 en el caso de las comparaciones llevadas a cabo entre redes pertenecientes a la capa de interacci´on prote´ına-prote´ına(anexo E, anexo F). A pesar que el nivel de informaci´onque es posible extraer de los elementos compartidos en comparaci´ona la informaci´onque es posible obtener de los patrones de conectividad com´unes mucho menor, estos pueden ser un apoyo para las posibles hip´otesisque surjan del an´alisisde los CCPs por lo tanto es recomendable reali- 5.5 Elementos compartidos 107 zar una b´usquedade este tipo de elementos para todas las capas de abstracci´onmolecular involucradas. 6. Conclusiones y recomendaciones

6.1. Conclusiones

Los patrones de conectividad com´unhan demostrado ser una herramienta f´acilde implementar, biol´ogicamente id´oneay f´acilde rastrear para abordar comparaciones entre fenotipos a trav´esde un enfoque basado en redes.

Aqu´ıse presenta una nueva metodolog´ıapara determinar un valor umbral en la cons- trucci´onde redes de co-expresi´ona partir de datos de microarreglos basado en supuestos propios de biolog´ıade redes el cual ha demostrado originar topolog´ıasque se ajustan a los principales modelos aceptados en esta rama del conocimiento (Watts-Strogatz y Barab´asi-Albert).

El an´alisisde expresi´ondiferencial de genes llevado a cabo utilizando el m´etodo ACDE demostr´oser el m´as id´oneopara la posterior reconstrucci´on de las redes biol´ogicasen ambas capas de abstracci´onmolecular aqu´ıtrabajadas dado que sus resultados fueron mejores que los obtenidos aplicando un m´etodo ampliamente utilizado con el mismo fin como es SAM, siendo m´asevidente esta observaci´onen los resultado obtenidos en las enfermedades de Alzheimer y esquizofrenia.

Es posible obtener resultados soportados estad´ısticamente para an´alisisde enriqueci- miento llevados a cabo en los CCPs resaltando la ruta de se˜nalizaci´onde calcio en la capa de co-expresi´ony la ruta de se˜nalizaci´oncolin´ergicaen la capa de interacci´on prote´ına-prote´ına.

Los resultados sugieren una relaci´onbiol´ogicam´asestrecha entre las enfermedades de esclerosis m´ultipley esquizofrenia seguido de la enfermedad de Parkinson validado por lo an´alisisde enriquecimiento y por referencias en la literatura de los elementos implicados.

Los resultados obtenidos soportan principalmente las hip´otesisdopamin´ergicaentre enfermedad de Parkinson y esquizofrenia, la hip´otesisasociada a calcio entre esclerosis m´ultipley esquizofrenia y as´ımismo refuerza la hip´otesisinmune de degradaci´onde mielina en la enfermedad de esclerosis m´ultiple. 6.2 Recomendaciones 109

Elementos compartidos fueron obtenidos en todas las posibles comparaciones entre las enfermedades bajo estudio. No obstante, no es posible extraer informaci´onque soporte hip´otesisasociadas a procesos biol´ogicosconcretos comunes entre varios fenotipos a partir de un listado de estos componentes.

Los elementos compartidos pueden apoyar los resultados obtenidos en los patrones de conectividad com´undando un soporte adicional a las posible hip´otesisgeneradas a partir del an´alisisde cada capa de abstracci´onmolecular.

Los patrones de conectividad com´unmostraron su viabilidad y demuestra de manera adicional que es posible obtener informaci´onbiol´ogicamente plausible sin caer en la uni´onde datos biol´ogicosde diverso origen en una sola capa de red y sin la necesidad de ignorar la informaci´ontopol´ogicaglobal realizando enfoques basados en m´odulos.

6.2. Recomendaciones

Establecer metodolog´ıasde laboratorio h´umedoorientados al an´alisisde los procesos y componentes identificados en cada uno de los patrones de conectividad com´unen ambas capas de abstracci´onmolecular para llevar a cabo el procedimiento de validaci´on experimental.

Ampliar los fenotipos de enfermedad asociados a des´ordenesdel sistema nervioso para determinar el alcance del m´etodo aqu´ıpropuesto y generar nuevas hip´otesisacerca de los procesos compartidos entre enfermedades de este tipo.

Aplicar el m´etodo de patrones de conectividad com´unpara determinar el conjunto de componentes, factores y procesos asociados a un n´umerode diversos conjuntos de fenotipos para validar la capacidad de la metodolog´ıaaqu´ıplanteada de ser aplicada de forma general en la comparaci´onde cualquier tipo de fenotipo.

Tanto para los fenotipos de enfermedad aqu´ıanalizados como para nuevos fenotipos a ser estudiados aplicando este m´etodo, ampliar tanto como sea posible el n´umero de capas de abstracci´onmolecular para desarrollar hip´otesism´ascerteras acerca de componentes y procesos compartidos soportados por una visi´onmolecular a gran escala.

Desarrollar propuestas metodol´ogicas orientadas a mejorar la b´usquedade posibles perfiles de expresi´oncausantes de ruido de fondo apoyado en el an´alisisdel coeficiente de variaci´onde los valores de expresi´onde cada gen que permita identificar de forma autom´aticadichos perfiles que deben ser descartados de los an´alisisposteriores.

Los an´alisisde enriquecimiento actuales necesitan, en la mayor´ıade los casos, de un gran n´umerode componentes moleculares para generar soporte estad´ıstico.Por lo tanto 110 6 Conclusiones y recomendaciones

nuevos m´etodos que permitan la obtenci´onde resultados a partir de conjuntos de datos tales como miembros de CCPs se hace necesario.

Aumentar los esfuerzos relacionados al desarrollo del m´etodo para la obtenci´ondel valor umbral para la reconstrucci´onde redes de co-expresi´onenfocando dichos esfuerzos en aplicar nuevas formas de estimar umbrales que ajusten la posible red final con los diversos modelos topol´ogicoestablecidos en biolog´ıade redes y en generar una lista de posibles valores umbrales donde cada uno de ellos permita ajustar la topolog´ıafinal de forma que uno de ellos sea el m´asid´oneopara resolver la hip´otesisestablecida por el investigador. A. coexnet: An R package to build CO-EXpression NETworks from Microarray Data

Abstract

The network analysis of biological data has increased in recent years, due to the capacity of this approach to analyze and represent complex information in a simple way, information that nowadays is growing and that covers different levels of biological resolution (protein- protein interaction, signaling interaction networks, gene regulatory network, among others). Currently, one of the most used and informative representations of biological data are co- expression networks. In this approach a network is created based on data obtained from experimental expression measures, taking into account the existence of particular patterns or relations between expression profiles among different genes, proteins or RNA fragments involved in a specific phenotype. Hereby, we introduce coexnet, a new R package for the creation of undirected co-expression networks from microarray data, obtained from GEO Datasets database. This package contains all the necessary functions that pipe the analysis process from the download of microarray datasets, going through the normalization and filtering of genes and experiments, to the creation of the co-expression network using state of the art correlation measures and statistical analysis. The package coexnet includes some new functions that allow connecting and using functions from other CRAN and Bioconductor packages for the analysis of genomic data.

Workflow getInfo All microarray raw data associated to the same study are stored in a CEL file, this type of file contains the GSM files, each one corresponding to one sample of a gene expression study. The user can also obtain each GSM file individually, but it is preferable to obtain all the samples at once as they come in the CEL file, in order to avoid the work of joining each GSM. Additionally having all GSM files at once will allow to perform a simultaneous data 112 A coexnet: An R package to build CO-EXpression NETworks from Microarray Data

analysis (in a future normalization process, for example). Furthermore, all the microarray chips are documented in the GEO Datasets database. Each of them is identified with the letters GPL adding a unique number. The information in the GPL file is then linked to the information of each probeset in the microarray chip, including the gene, function, type and other information. This information is very useful to enrich the analysis of expression data.

This function will create, in your current path, a folder with the GSE (unique number) name where the GSM downloaded files will be stored. It also will create the GPL (unique number) .soft file that contains the microarray chip information.

1 l i b r a r y(coexnet)

2

3 # Downloading the microarray raw data from GSE8216 study 4 # The accession number of the microarray chip related with this study is GPL2025

5

6 getInfo(GSE =”GSE8216” , GPL =”GPL2025”,directory =”.”)

7

8 # Shows the actual path file with the folder, its GSE number and the.soft f i l e

9

10 d i r()

Take into account: In some cases the information in the GPL file is partial, so take this into account if you are willing to run future analysis over the same data, so it is recomended not to store the files in a temporal folder, given that in many cases you will need the raw data to re-process the expression values using, for example, different methods.

getAffy The AffyBatch object is used to process and analyse microarray expression data. The Affy- Batch object stores information about the date in which each one of the samples were scan- ned, as well as the information related with the phenotype, the raw expression values to each probe in the microarray chip and the kind of library to read the expression data among others.

You can use the AffyBatch object in many different packages mainly in the affy package, additionally you can modify the AffyBatch object if you consider it necessary.

This function searches in your current or designated path file the folder with the GSE accession number and reads the filelist.txt file that contains the name of each GSM sample, in order to recognize them and join them in an unified AffyBatch object. 113

1 # Reading some GSM samples from GSE4773 study, the folder with the 2 # GSM files are called GSE1234.

3

4 a f f y <− getAffy(GSE =”GSE1234”,directory = system.file(”extdata”,package=” coexnet”)) 5 a f f y

Take into account:

In some cases the AffyBatch object doesn’t have all the necessary information, and a war- ning message appears when you visualize the variable containing the AffyBatch object. Ne- vertheless, you can manually edit the AffyBatch afterwards to complete all the requiered information. If you try to process the AffyBatch in some of the packages that use this kind object with missing information, you will get an error message.

1 # The variable affy doesn’t have the CDF(Chip Definition File) information. 2 # You can include this information modifying the AffyBatch object afterwards.

3

4 affy@cdfName <− ”HG−U133 Plus 2”

geneSymbol In most cases, the idea behind creating a co-expression network is to visualize the relations- hips among diferent genes, proteins, specific DNA or RNA fragments or any other kind of molecular entities, that are identified by a specific ID. For this reason, it is very useful to keep the information of the corresponding ID corresponding to each one of the probesets in the microarray. This kind of information will be used when you need to switch from a matrix of probeset-samples to one of genes (or another ID)-samples before the construction of the co-expression network.

The .soft file, downloaded from GEO Datasets database using the GPL identifier has the information to create a table with the relationship between a probeset and one ”molecular ID”, in this table one ID can be related to two or more probesets, the process of mapping the expression value to a gene ID is called summarization (see below).

This function searches, in the current or the designated path file, the .soft file and creates a data frame, where the first column contains each of the probeset names and the second one contains the corresponding ID (gene symbol, protein name or another identifier). This 114 A coexnet: An R package to build CO-EXpression NETworks from Microarray Data

matching information is needed to summarize the gene expression data. This step is only needed if microarray chip data is used.

1 # Create the table with the match between probesets and IDs.

2

3 gene t a b l e <− geneSymbol(GPL =”GPL2025”,directory = system.file(”extdata”, package=”coexnet”))

4

5 head ( gene t a b l e)

6

7 ## probeID 8 ##1 AFFX−BioB−3 at 9 ##2 AFFX−BioB−5 at 10 ##3 AFFX−BioB−M at 11 ##4 AFFX−BioC−3 at 12 ##5 AFFX−BioC−5 at 13 ##6 AFFX−BioDn−3 at

Take into account:

In some cases, the .soft file dosen’t have all the IDs that are related to each one of the micro- array probesets, you can ignore this probeset under the assumption that another probeset could have the same ID and this second one has the respective annotation. On the other hand, one ID can have more than two names, this function creates an ID with all the related names separated by ”−”. This happens when a sequence of nucleotides of a specific probeset matches the sequence of two or more genes. For example, in the microarray chip GPL570, there exists a probeset whose sequence match with the genes CPZ and GPR78, so the final ID will be CPZ-GPR78.

1 # The created table have NA and empty IDs information. 2 # We can delete this unuseful information.

3

4 # Deletion of IDs with NA information

5

6 gene na <− na.omit(gene t a b l e)

7

8 # Deletion of empty IDs

9

10 f i n a l t a b l e <− gene na[gene na$ID!=””,]

11

12 head ( f i n a l t a b l e)

13

14 ## probeID 15 ##118 Os.10.1.S1 s at Os03g0669200 16 ##119 Os.10003.1.S1 at Os01g0235100 115

17 ##120 Os.10007.2.S1 a at Os06g0256200 18 ##121 Os.10017.1.S1 at Os01g0556400 19 ##122 Os.10038.1.S1 s at Os07g0153000 20 ##123 Os.10055.1.S1 at Os01g0231500

exprMat The raw expression data in a microarray experiment must be processed, in order to transform the original data into an ideal way as to be analyzed and thus obtain high confidence results. The first step is the normalization of the data, that consists in a background correction of the raw data followed by a normalization. The second one is the mapping of probeset to gene or any other ID to represent the molecular entity to analyze. Additionally, there exists the posibility to make a second kind of background correction based on the batch of samples scaned in a separate way due to the large number of samples and the limitation in the si- ze of the particular microarray chip used, this correction is known as Batch Effect Correction.

Different methods exist in order to normalize raw expression data from microrray experi- ments, each one of this methodologies consider a particular way to generate a background correction, the process of normalization and the mapping from probes to probesets. The difference between these methods consists on the underliying mathematic assumptions used and the range of the normalized results, in some cases the expression data have a wider range than anothers. In the same way, the process to transform the probeset-samples matrix in a gene(or another ID)-sample matrix considers diferent methodologies, including the obtantion of the average of the expression values of each of the probesets corresponding to the same gene or protein, the selection of the maximum or minimum value, among others.

This function offers the possibility to choose among two different methods to normalize the raw expression values, including the process of background correction and the mapping from probes to probeset. The first one is rma (Robust Multi-Array Average), this method per- forms a background correction and normalization in separate calculations (Irizarry et al., 2003). The second one is vsn (Variance Stabilizing Normalization), this method, contrary to rma, generates the background correction and the normalization in the same equation (Huber et al., 2002). This function also offers the option to perform Batch Effect Correction identifying the samples belonging to the same batch using the scan date into the AffyBatch object.

Additionally, this method considers two ways to calculate the values in the process to map from probesets to gene/ID. The first one is selecting the representative probeset to each of the genes, proteins or another kind of ID. To do that, it calculates the average of each of 116 A coexnet: An R package to build CO-EXpression NETworks from Microarray Data

the probesets associated with the same gene/ID, and the probeset with the highest value in the average is selected. The second one is to obtain the median of each of the samples to the probesets associated with the same gene/ID, getting only one expression value for sample as the transformation of the normalized data.

1 # Loading gata

2

3 i f(require(affydata)) { 4 data(Dilution) 5 }

6

7 # Loading table with probeset and gene/ID information

8

9 data(”info”)

10

11 # Calculating the expression matrix with rma

12

13 rma <− exprMat(affy = Dilution ,genes = info ,NormalizeMethod =”rma”, 14 SummaryMethod =”median”,BatchCorrect = FALSE) 15 head (rma)

Take into account:

Consider that rma is a method in which the amplitude of the results are narrower than in vsn, take into account this situation, in order to select the method to normalize the raw expresion values. In some cases the vsn method takes into account every probe in the normalize process, so it could take time to process. In some cases if you made a Batch Effect Correction, you will want to compare the results normalizing the raw expression data without the Batch Effect Correction.

cofVar In some cases, the co-expression network is built from two or more microarrays studies, in this sense, it is necessary to define wich one of these studies accounts for more source of back- ground noise and will probably have a negative impact on the results. One way to determine the most harmful studies is from a variation analysis. By this approach the study holding more variation among the normalized expression values can be considered as the source of future background noise and then it is necessary not to consider the use of this studies in the construction of the co-expression network.

The variation amongst the normalized expression values can be determined by the coefficient of variation of each one of the genes in each one of the studies and thus generate a boxplot 117

from these results. So, in a graphical way it is possible to define the studies that will generate background noise by visual inspection of the atypical information. On the other hand, it is also possible to define the number of atypical data and determine the more variant studies using the boxplot and the number of atipic data defining a threshold value, for example you can determine the studies with more of 10 % of atypical data wont be used in the construc- tion of the co-expression network.

This function takes the normalized ID-sample matrix and calculates the median and the coefficient of variation for each one of the IDs, this process must be applied in a study-by- study basis. Additionally, this function allows to calculate the mean and the coefficient of variation to cases and control samples separately, using a vector of 0s and 1s to identify the cases and control samples. This vector can be defined in the description of each sample in the GEO Datasets database and it is necessary in the process of identification of the genes (or another ID as proteins) that are differentially expressed (see bellow).

1 # Simulated expression data

2

3 n <− 200 4 m <− 20

5

6 # The vector with treatment samples and control samples

7

8 t <− c(rep(0,10),rep(1,10))

9

10 # Calculating the expression values normalized

11

12 mat <− as.matrix(rexp(n, rate = 1)) 13 norm <− t(apply(mat, 1, function (nm) rnorm(m, mean=nm, sd=1)))

14

15 # Calculating the coefficient of variation to case samples

16

17 case <− cofVar(expData = norm,complete = FALSE,treatment =t,type =”case”) 18 head (case)

19

20 ##1 1.1 1.2 1.3 1.4 1.5 21 ##1 −0.53894434 1.9664990 2.5120129 0.9918740 −1.9954403 2.124143 22 ##2 −0.25119536 0.8192673 1.2354088 0.7657696 0.8414560 2.790348 23 ##3 3.21144691 1.8541273 3.6574363 3.0698618 1.8853221 1.722851 24 ##4 1.17822162 0.6218963 1.1900262 0.6781718 −1.0224605 1.230290 25 ##5 −0.56100728 0.4044794 −0.2967613 0.5435435 1.1046068 1.577752 26 ##6 0.02582541 1.3502015 1.9792714 0.1793484 0.4416942 −1.440842 27 ## 1.6 1.7 1.8 1.9 mean cv 28 ##1 0.2328688 2.2140072 0.9862991 0.20157129 0.8694890 1.6424366 29 ##2 2.1782146 3.0048275 1.8350648 0.06333763 1.3282498 0.8263924 30 ##3 1.4963731 2.0804041 1.6453099 1.08935146 2.1712484 0.3881537 31 ##4 0.2004208 −0.5118027 0.7693975 2.56833130 0.6902492 1.4435957 118 A coexnet: An R package to build CO-EXpression NETworks from Microarray Data

32 ##5 1.4793737 −1.2238293 −0.7837202 0.75511100 0.2999548 3.2479542 33 ##6 0.1509186 −1.0964765 −0.1724980 −0.45343138 0.0964012 10.6080759

34

35 # Creating the boxplot to coefficient of variation results

36

37 boxplot(case$cv)

38

39 # Extracting the number of atipic data

40

41 length(boxplot.stats(case$cv)$out)

42

43 ## [1] 37

Take into account:

The decision of discarding a microarray study from our analysis, based on the result of the coefficient of variation analysis, depends on the data and the criteria of the researcher to filter the studies (the selection of a threshold value), there is no a Gold Standard to discard a study, so it is advisable to calculate the coefficient of variation of all samples at the same time to compare and to determine which one shows more variation.

1 # Calculating the coefficient of variation to whole matrix

2

3 complete <− cofVar(norm) 4 head (complete)

5

6 ## V1 V2 V3 V4 V5 V6 7 ##1 1.464204 1.2438086 −0.04230227 1.97963883 0.3481069 0.2932179 8 ##2 2.398396 2.1669239 2.39027541 0.49468142 1.5859583 1.0576155 9 ##3 2.810234 2.9314263 0.58897160 1.75732353 0.8268811 0.9167232 10 ##4 −1.575820 −0.8964035 0.91191516 0.03036933 2.0131438 −1.5354413 11 ##5 −1.578971 0.1527024 2.03979142 −1.17069083 0.2947974 −1.0216447 12 ##6 1.107769 −2.0028855 1.24699372 0.26688376 −1.3865754 0.5802898 13 ## V7 V8 V9 V10 V11 V12 14 ##1 0.7278941 1.7375353 0.8376563 1.328621 −0.53894434 1.9664990 15 ##2 1.0529874 2.8871106 −0.8127294 1.129793 −0.25119536 0.8192673 119

16 ##3 0.7451675 1.4976995 3.2297353 1.097676 3.21144691 1.8541273 17 ##4 0.5593942 0.8060613 0.2998396 1.007612 1.17822162 0.6218963 18 ##5 −0.9717792 1.6088032 1.5710688 2.049704 −0.56100728 0.4044794 19 ##6 0.1939551 1.0678741 2.0577867 1.327679 0.02582541 1.3502015 20 ## V13 V14 V15 V16 V17 V18 21 ##1 2.5120129 0.9918740 −1.9954403 2.124143 0.2328688 2.2140072 22 ##2 1.2354088 0.7657696 0.8414560 2.790348 2.1782146 3.0048275 23 ##3 3.6574363 3.0698618 1.8853221 1.722851 1.4963731 2.0804041 24 ##4 1.1900262 0.6781718 −1.0224605 1.230290 0.2004208 −0.5118027 25 ##5 −0.2967613 0.5435435 1.1046068 1.577752 1.4793737 −1.2238293 26 ##6 1.9792714 0.1793484 0.4416942 −1.440842 0.1509186 −1.0964765 27 ## V19 V20 mean cv 28 ##1 0.9862991 0.20157129 0.9306635 1.1673845 29 ##2 1.8350648 0.06333763 1.3816755 0.7739487 30 ##3 1.6453099 1.08935146 1.9057161 0.4932017 31 ##4 0.7693975 2.56833130 0.4261581 2.5629317 32 ##5 −0.7837202 0.75511100 0.2986664 3.9941854 33 ##6 −0.1724980 −0.45343138 0.2711891 4.1730445

34

35 # Creating the boxplot to coefficient of variation results

36

37 boxplot(complete$cv)

38

39

40

41 # Extracting the number of atipic data

42

43 length(boxplot.stats(complete$cv)$out)

44

45 ## [1] 33

difExprs When expression data of gene, proteins, or another kind of ID are used to build a co- expression network, in most cases it is convenient to asses differences in the expression value 120 A coexnet: An R package to build CO-EXpression NETworks from Microarray Data

of each of them. A differential expression analysis will allow us to identify the genes/IDs that are over-expressed or under-expressed with respect the whole data set and thus to establish the possible molecular components that are associated directly or indirectly with the onset and/or development of a certain phenotype and use them to create the co-expression network.

There are several methodologies to identify differentially expressed genes/IDs, some methods are more predictive than others, so depending of the method, it is possible obtain genes/IDs that clearly differentiate from others in their expression values or it is also possible to ob- tain genes/IDs whose expression value are slightly different from others, but that given the criteria of the method used, they are considered as differentialy expressed. In both cases it is possible to have genes/IDs that are identified as differentialy expressed by error and it is necessary to consider a measure of this error. One common measure of error is the False Discover Rate or FDR, this metric describes the probability of one gene/ID being selected as differentially expressed by error.

This function considers two ways to calculate the differentially expressed genes/IDs. It is possible to carry out a predictive methodology that obtains the majority of genes or IDs considered as differentially expressed, in this case the sam method is used. This method basically uses a difference of means to calculate the genes/IDs that are over-expressed or under-expressed using a permutation process to test the results and prove that the gene- s/IDs selected where not randomly selecte. Through these permutations the FDR value is calculated (Tusher et al., 2001). This function can also use the acde method to calculate and obtain the genes/IDs that are differentially expressed in a less predictive way. This method consists, essentially, on the application of the main components to characterize the genes differentially expressed by calculating the FDR using multiple hypothesis tests according to Benjamini and Hochberg (1995) (Acosta and L´opez-Kleine, 2015).

1 # Creatinga matrix with 200 genes and 20 samples

2

3 n <− 200 4 m <− 20

5

6 # The vector with treatment samples and control samples

7

8 t <− c(rep(0,10),rep(1,10))

9

10 # Calculating the expression values normalized

11

12 mat <− as.matrix(rexp(n, rate = 1)) 13 norm <− t(apply(mat, 1, function (nm) rnorm(m, mean=nm, sd=1)))

14

15 # Running the function using the two approaches

16

17 sam <− difExprs(expData = norm,treatment =t,fdr = 0.2,DifferentialMethod =” 121

sam”) 18 head (sam)

Take into account:

This function identifies the genes/IDs differentially expressed taking into account the ex- pected FDR, so independently of the method used (sam or acde), the number of genes/IDs identified as differentially expressed will be guided by the FDR expected by the user, thus increasing the predictive power in the final results.

findThreshold Once you have the final expression matrix, it is used as basis to obtain the co-expression network. There are two methods widely used to obtain it, both of them are related to the definition of correlation value between all the genes/IDs creating a square matrix. On one hand you can calculate the Pearson Correlation Coefficient, this method calculates the co- rrelation between each genes/IDs expression values, as result, the square matrix will have values between zero and one, given that for the future construction of the co-expression network it is necessary to use the absolute value of the results. On the other hand, the Mu- tual Information approach is based on the entropy of the data and in a simmilar manner a square matrix is created, but, in this case, it is necessary to perform an additional trans- formation of the results in order to obtain a square matrix with values between zero and one.

Obtaining a square matrix with a range of values between zero and one is necessary in order to perform a future transformation of this correlation matrix into an adjacency matrix (see bellow). Additionally, it is also necessary to work on this range of values because a threshold value must be defined in order to establish the final relationships between the genes/IDs. In order to achieve this, a value between zero and one is defined and the values of correlation below a threshold will indicate the no-existance of a real correlation among them, allowing us to finally obtain the relationships between the genes/IDs expressed as co-expression network.

This function computes a threshold value using a novel method based on two Biological Systems approaches. First, each possible threshold value, from 0.01 to 0.99 with an increa- se of 0.01 is examined. Each of this values is then analyzed using the Pearson Correlation Coefficient. Thus the Clustering Coefficient is calculated for the created network using the current threshold value under test, this is performed for each value. Thereafter, a new ar- tificial Clustering Coefficient is calculated to simulate a random network, created using the same threshold value. Then, the difference between the two Clustering Coefficient values is calculated, and the result that meets the criteria of Elo et al. (2007), is used for next 122 A coexnet: An R package to build CO-EXpression NETworks from Microarray Data

analysis. Finally, the remaining threshold values are analyzed using the Degree Distribution under normal distribution, using the Kolmogorov-Smirnov test, expecting that the resulting p-value rejects the distribution, as a result of the assumption that the biological networks do not have a normal distribution when the Degree Distribution is analyzed. Finally, the mi- nimum threshold value that satisfies this two criteria will be selected as the final threshold value for the construction of the co-expression network (Leal et al., 2014).

1 # Loading data

2

3 p a t h f i l e <− system.file(”extdata”,”expression example.txt”,package=”coexnet” ) 4 data <− read.table(pathfile ,stringsAsFactors = FALSE)

5

6 # Finding threshold value

7

8 cor pearson <− findThreshold(expData = data,method =”correlation”) 9 cor pearson

Take into account:

Mutual Information is used, in most cases, when you need to analyze a huge amount of expression data, for example, when the study was designed to use a lot of samples and you must process all information simultaneously. In most cases, the threshold value is selected by the researcher without any biological assumption. Here, we present this novel methodology to select a threshold value under a network biology assumption.

createNet The last step in the construction of a co-expression network is the creation of a data struc- ture that stores the information necessary to create a network graph. Once you had defined a threshold value, the last step is to transform the expression matrix in a adjacency matrix using the correlation or the mutual information method to obtain the values of relationship between the diferent genes or proteins (or another kind of ID).

The process to go from an expression matrix to a network graph consists on two steps. The first one is the building of a correlation matrix, to do that is necessary to apply one of two methods to calculate the relationship among the genes/ID (Pearson correlation or mutual information, see above) (L´opez-Kleine et al., 2013). The second one is the transformation from a expression matrix to adjacency matrix, for which it is necessary to apply a threshold value. Every correlation value inside the matrix that is less than the threshold will be repla- ced by zero, while all remaining values will be replaced by one. Additionally, the diagonal in 123

the square matrix will be replaced with zero to avoid loops in the co-expression network.

Finally, based on the adjacency matrix, a list is created, where connected gene/IDs are se- parated by a space. For example if gene A and gene B, have a value of one in the adjacency matrix, then in the final edge list they will be shown as:

gene A – gene B

This way every genes/IDs are connected in the final co-expression network.

This function takes the expression matrix and creates the correlation matrix using Pearson Correlation Coefficient or Mutual Informtion. After that, it creates the adjacency matrix using the threshold value given by the user and finally creates the network from the adjacency matrix as an igraph object to be analyzed using the igraph R package or any other tool that recognizes this type of object.

1 # Loading data

2

3 p a t h f i l e <− system.file(”extdata”,”expression example.txt”,package=”coexnet” ) 4 data <− read.table(pathfile ,stringsAsFactors = FALSE)

5

6 # Building the network

7

8 cor pearson <− createNet(expData = data,threshold = 0.7,method =”correlation” ) 9 p l o t(cor pearson )

10

Take into account: 124 A coexnet: An R package to build CO-EXpression NETworks from Microarray Data

In the process of construction of the adjacency matrix, sometimes a gene/ID can not be related to another one and in the process passing from a matrix to an edge list, this gene/ID will be deleted. Additionally, the network in the igraph object can be exported as an edge list using the igraph package to be visualized in another tool such as Cytoscape or Gephi.

ppiNet In many cases, it is necessary to consider additional information to have a more robust analy- sis. Protein-protein interaction (PPI) is the most used additional information to support the relationships detected by the co-expression network. One way to relate the protein-protein interaction information with the co-expression data is by building a PPI prediction network. To create this kind of networks, it is useful to start with the list of genes obtained from the differential expression analysis results (see above). From this list of genes, the network will be created based on different pieces of evidence like experimental data and the distances of the genes inside in the genome, among others.

This function, creates a PPI network from a vector of genes IDs or another type of commonly used identifier to be recognized by the STRING database. STRING contains information on protein-protein interaction from many species and supports the relationships between proteins with different types of pieces of evidence like experimental data, co-occurrence of the proteins among related species, text mining, among others. Inside STRING database, each relationship between proteins is supported using the information in KEGG database, a widely used and curated database of information on metabolic pathways. Finally, this function returns the PPI network as an igraph object to be analyzed in the same way as a co-expression network.

1 # Creatinga vector with identifiers

2

3 ID <− c(”FN1”,”HAMP”,”ILK”,”MIF”,”NME1”,”PROCR”,”RAC1”,”RBBP7”, 4 ”TMEM176A”,”TUBG1”,”UBC”,”VKORC1”)

5

6 # Creating thePPI network

7

8 ppi <− ppiNet(molecularIDs = ID,evidence =c(”neighborhood”,”coexpression”,” experiments”))

9

10 # CreatingaPPI network from external data

11

12 ppi <− ppiNet (file= system.file(”extdata”,”ppi.txt”,package=”coexnet”)) 13 p l o t(ppi) 125

14

Take into account:

It is key that all IDs used are those identifiers used in main bioinformatics databases (such as UNIPROT, GeneBank, ENA or KEGG), in order to be efficiently mapped by STRING. Additionally, this database uses its own IDs to recognize the species of interest, in this case, by default, the function has the ID ”9606”which corresponds to the human species, for additional information about species IDs, visit the database website (http://string-db.org/).

CCP The Common Connection Pattern (CCP), is a new methodological proposal to identify mole- cular components linked together and common in several biological networks. The principal assumption behind Common Connection Pattern is that the networks to be compared must have the same molecular information from, i.e., must compare one layer of molecular abs- traction at the same time, for example, co-expression layer, protein-protein layer, the gene regulation layer, among others.

In general, the comparison of biological networks is made to determine common elements or biomarkers among several related phenotypes. In this case, the Common Connection Patterns aims to identify common molecular elements between these phenotypes that are associated also with each other in a specific way. For this, the intersection between biological networks is calculated whose result can have two kinds of elements. On the one hand, the shared nodes without any connection with other nodes in the intersection network. On the other hand, nodes connected to one or more nodes in the intersection network. Each connected component in the intersection will be considered as a Common Connection Pattern. 126 A coexnet: An R package to build CO-EXpression NETworks from Microarray Data

This function obtains the Common Connection Patterns making two steps. In the first one, it generates the intersection of the networks given in the input as graph objects. In the second one, it identifies the solitary nodes in the intersection network and then they are re- moved to leave the connected components only. Finally, the function returns all the Common Connection Patterns in one graph object.

1 # Loading data

2

3 data(”net1”) 4 data(”net2”)

5

6 # Obtaining Common Connection Patterns

7

8 ccp <− CCP(net1 , net2) 9 p l o t(ccp)

10

Take into account:

Although the idea is to compare biological networks from the same nature and created to study related phenotypes, the function can have results, when it compares any kind network. Additionally, is possible not find Common Connection Patterns when two or more networks are compared, but, is possible to find shared solitary nodes between them.

sharedComponents Solitary nodes obtained when two or more biological networks are compared also have re- levant information associated because these nodes are molecular components implicated in more than two phenotypes. This is especially true if the filter used to include genes was that of the differential expression. The reason behind obtaining solitary nodes may be that there is not enough information to relate them with another component in the network or that the node has a relationship in another layer of the network (protein-protein interaction layer, 127

genetic regulation layer, SNP layer, etc).

Thus, obtaining these solitary nodes can enrich the comparisons made between generated networks from the same type of molecular information and also seeks to find common ele- ments among related phenotypes such as the Common Connection Patterns (see above). Additionally, it is possible to find none Common Connection Patterns between networks but only common elements.

This function obtains the shared components between two or more biological networks in two steps. During the first one, it gets the intersection from the networks in the input as igraph objects. During the second one, it extracts the solitary nodes present in the resulting intersected network . Finally, the result is a vector with the names of each solitary node. On the other hand, the nodes connected in the intersection network won’t be taken into account because they are considered as being part of some Common Connection Pattern (see above).

1 # Loading data

2

3 data(”net1”) 4 data(”net2”)

5

6 # Obtain shared components

7

8 share <− sharedComponents(net1 , net2) 9 share

10

11 ## [1]”P””X””O””Y”

Take into account:

The assumption behind the solitary nodes in the intersection network as molecular elements associated with related phenotypes is that all the networks were created using the same molecular information (gene co-expression, protein-protein interaction, TF site or any other) although this function is also able to find shared components between any biological network types. B. Obtenci´onde perfiles de expresi´on

Conteo de microarreglos asociados a perfiles de expresi´on

Tabla B.1.: Conteo de chips Enfermedad de Parkinson Enfermedad de Alzheimer Esclerosis m´ultiple Chip ID Cantidad Chip ID Cantidad Chip ID Cantidad GPL16791 1 GPL16791 1 GPL16791 2 GPL14561 1 GPL4372 4 GPL3307 1 GPL19718 1 GPL1211 3 GPL15491 1 GPL7884 1 GPL2700 1 GPL10850 1 GPL15098 1 GPL10904 1 GPL15847 1 GPL13695 1 GPL5188 2 GPL14837 2 GPL5188 2 GPL96 3 GPL6480 3 GPL6480 3 GPL14932 1 GPL96 3 GPL97 1 GPL16221 1 GPL10049 1 GPL96 12 GPL11154 3 GPL16209 5 GPL17047 1 GPL4757 5 GPL15445 1 GPL19310 1 GPL10123 1 GPL11154 3 GPL11154 6 GPL201 1 GPL6534 1 GPL14559 1 GPL10558 3 GPL10558 2 GPL201 1 GPL6244 3 GPL4191 1 GPL10558 5 GPL4 1 GPL6244 4 GPL6244 2 GPL11532 1 GPL10332 2 129

Tabla B.1.: Continuaci´on Enfermedad de Parkinson Enfermedad de Alzheimer Esclerosis m´ultiple Chip ID Cantidad Chip ID Cantidad Chip ID Cantidad GPL9442 2 GPL10999 1 GPL9741 1 GPL6801 2 GPL6883 1 GPL8178 1 GPL9128 1 GPL8490 1 GPL9040 1 GPL6104 1 GPL4133 3 GPL13328 1 GPL13669 3 GPL6947 2 GPL13329 1 GPL6947 3 GPL5175 2 GPL6883 1 GPL1352 1 GPL10702 2 GPL2895 2 GPL5175 6 GPL13534 4 GPL4133 2 GPL8882 1 GPL1930 1 GPL6947 1 GPL13534 2 GPL13669 1 GPL13534 1 GPL13915 1 GPL10983 1 GPL15456 1 GPL13829 4 GPL570 12 GPL17586 3 GPL14560 1 GPL17303 1 GPL17585 2 GPL20732 1 GPL571 8 GPL15106 1 GPL570 14 GPL571 5 GPL570 10

Perfiles de expresi´onobtenidos a partir del microarreglo GPL570

Enfermedad de Alzheimer

Tabla B.2.: Informaci´onde cada perfil de expresi´onen enfermedad de Alzheimer. Accesi´on T´ıtulo Referencia GSE16759 mRNA and miRNA expression in parietal (Nunez-Iglesias et al., 2010) lobe cortex in Alzheimer’s disease GSE18309 Transcriptomes in Peripheral Blood Mono- (Chen et al., 2009) (Unmen- nuclear Cells of Dementia and Alzheimer tioned paper). Patients 130 B Obtenci´onde perfiles de expresi´on

Tabla B.2.: Continuaci´on Accesi´on T´ıtulo Referencia GSE28146 Microarray analyses of laser-captured hip- (Blalock et al., 2011) pocampus reveal distinct gray and white matter signatures associated with incipient Alzheimer’s disease GSE28379 Gene expression profiles of familial Alzhei- (Yagi et al., 2011) mer’s disease with presenilin 2 mutation patient-specific induced pluripotent stem cells GSE29652 Microarray analysis of the astrocyte trans- (Simpson et al., 2011) criptome in the ageing brain: relationship to Alzheimer’s pathology and ApoE ge- notype GSE4757 Gene expression correlates of neurofibri- (Simpson et al., 2011) llary tangles in Alzheimer’s disease. GSE48350 Synaptic genes are extensively downregu- (Berchtold et al., 2013) lated across multiple brain regions in nor- mal human aging and Alzheimer’s disease. GSE5281 Alzheimer’s disease is associated with re- (Liang et al., 2008) duced expression of energy metabolism ge- nes in posterior cingulate neurons. GSE6276 rogae-affy-human-323460 (Rogaev, 2006) (Unmentio- ned paper) GSE66333 Neuronal DNA damage response- (Simpson et al., 2016) associated dysregulation of signalling pathways and cholesterol metabolism at the earliest stages of Alzheimer-type pathology GSE53890 REST and stress resistance in ageing and (Lu et al., 2014) Alzheimer’s disease. GSE9770 Non-demented individuals with interme- (Liang et al., 2010) diate Alzheimer’s neuropathologies - neu- ronal expression (6 regions) 131

Enfermedad de Parkinson

Tabla B.3.: Informaci´onde cada perfil de expresi´onen enfermedad de Parkinson. Accesi´on T´ıtulo Referencia GSE14711 Parkinson’s disease patient-derived indu- (Soldner et al., 2009) ced pluripotent stem cells free of viral re- programming factors GSE20141 PGC-1α, a potential therapeutic target for (Zheng et al., 2010) early intervention in Parkinson’s disease. GSE20146 PGC-1α, a potential therapeutic target for (Zheng et al., 2010) early intervention in Parkinson’s disease. GSE20153 PGC-1α, a potential therapeutic target for (Zheng et al., 2010) early intervention in Parkinson’s disease. GSE30792 Parkinson’s disease induced pluripotent (Devine et al., 2011) stem cells with triplication of the α- synuclein locus. GSE4773 Greene-5P01NS017771-220003 (Greene, 2006) (Unmentio- ned paper). GSE49036 Evidence for immune response, axonal dys- (Dijkstra et al., 2015) function and reduced endocytosis prece- ding Lewy body pathology in the substan- tia nigra in Parkinson’s disease GSE7621 A genomic pathway approach to a complex (Lesnick et al., 2007) disease: axon guidance and Parkinson di- sease. GSE9807 Microarray expression analysis of human (H¨abiget al., 2009) dopaminergic neuroblastoma cells after RNA interference of SNCA–a key player in the pathogenesis of Parkinson’s disease. 132 B Obtenci´onde perfiles de expresi´on

Esclerosis m´ultiple

Tabla B.4.: Informaci´onde cada perfil de expresi´onen esclerosis m´ultiple. Accesi´on T´ıtulo Referencia GSE13732 Abrogation of T cell quiescence characteri- (Corvol et al., 2008) zes patients at high risk for multiple scle- rosis after the initial neurological event. GSE14386 IFN-beta1a inhibits the secretion of Th17- (Zhang et al., 2009) polarizing cytokines in human dendritic cells via TLR7 up-regulation. GSE16461 CD161(high)CD8+T cells bear pathogene- (Annibali et al., 2011) tic potential in multiple sclerosis. GSE21942 Systematic review of genome-wide expres- (Kemppinen et al., 2011a) sion studies in multiple sclerosis. GSE23205 Gender-associated differences of perforin (Cami˜na-Tato et al., 2010) polymorphisms in the susceptibility to multiple sclerosis. GSE26484 Elevation of Sema4A implicates Th cell (Nakatsuji et al., 2012) skewing and the efficacy of IFN-β therapy in multiple sclerosis. 133

Tabla B.4.: Continuaci´on Accesi´on T´ıtulo Referencia GSE37750 Multiple sclerosis-linked and interferon- (Aung et al., 2012) beta-regulated gene expression in plas- macytoid dendritic cells. GSE43591 MicroRNA regulate immune pathways in (Jern˚aset al., 2013) T-cells in multiple sclerosis (MS). GSE52139 Tissue remodeling in periplaque regions of (Lieury et al., 2014) multiple sclerosis spinal cord lesions. GSE53716 The role of endogenous IFN-β in the regu- (Tao et al., 2014) lation of Th17 responses in patients with relapsing-remitting multiple sclerosis. GSE59085 IL-11 Induces Th17 Cell Responses in (Zhang et al., 2015a) Patients with Early Relapsing-Remitting Multiple Sclerosis. GSE37783 Natalizumab exerts direct signaling capa- (Benkert et al., 2012) city and supports a pro-inflammatory phe- notype in some patients with multiple scle- rosis. GSE68527 Gene expression studies of a human mo- (Kolitz et al., 2015) nocyte cell line identify dissimilarities between differently manufactured glatira- moids. 134 B Obtenci´onde perfiles de expresi´on

Esquizofrenia

Tabla B.5.: Informaci´onde cada perfil de expresi´onen esquizofrenia. Accesi´on T´ıtulo Referencia GSE27383 Marked Reduction of AKT1 Expres- (van Beveren and Swage- sion and Deregulation of AKT1-associated makers, 2013) (Unmentio- Pathways in Peripheral Blood Mononu- ned paper) clear Cells of Schizophrenia Patients GSE21935 Transcription and pathway analysis of the (Barnes et al., 2011) superior temporal cortex and anterior pre- frontal cortex in schizophrenia. GSE21138 Molecular profiles of schizophrenia in the (Narayan et al., 2008) CNS at different stages of illness. GSE17612 Analysis of gene expression in two lar- (Maycox et al., 2009) ge schizophrenia cohorts identifies multi- ple changes associated with nerve terminal function. GSE73129 Molecular signatures associated with cog- (Horiuchi et al., 2016) nitive deficits in schizophrenia: a study of biopsied olfactory neural epithelium. GSE53987 STEP levels are unchanged in pre-frontal (Lanz et al., 2015) cortex and associative striatum in post- mortem human brain samples from sub- jects with schizophrenia, bipolar disorder and major depressive disorder. C. An´alisisde expresi´ondiferencial usando el m´etodo ACDE

Enfermedad de Alzheimer

Tabla C.1.: Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de Alzheimer. FDR = 0.05 FDR = 0.2 FDR = 0.3 Accesi´on FDR #genes FDR #genes FDR #genes GSE18309 - - - - 0.47 1 GSE28146 0.096 5 0.187 13 0.299 160 GSE29652 0.14 9 0.188 10 0.298 115 GSE4757 - - - - 1 21043 GSE48350 0.05 4298 0.2 8776 0.3 10700 GSE5281 0.05 4564 0.2 10424 0.3 12806 GSE66333 0.049 401 0.2 4545 0.3 6956

Enfermedad de Parkinson

Tabla C.2.: Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de Parkinson. FDR = 0.05 FDR = 0.2 FDR = 0.3 Accesi´on FDR #genes FDR #genes FDR #genes GSE14711 0.112 4 0.19 6 0.299 971 GSE20141 - - - - 0.467 1575 136 C An´alisisde expresi´ondiferencial usando el m´etodo ACDE

Tabla C.2.: Continuaci´on FDR = 0.05 FDR = 0.2 FDR = 0.3 Accesi´on FDR #genes FDR #genes FDR #genes GSE20146 0.16 4 0.196 7 0.224 7 GSE20153 - - - - 0.49 1 GSE4773 0.05 25 0.199 879 0.3 1937 GSE49036 0.056 13 0.199 607 0.3 2107 GSE7621 0.0327 11 0.199 67 0.298 241 GSE9807 - - - - 0.37 1

Esclerosis m´ultiple

Tabla C.3.: Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de esclerosis m´ultiple. FDR = 0.05 FDR = 0.2 FDR = 0.3 Accesi´on FDR #genes FDR #genes FDR #genes GSE14386 0.035 4 0.197 50 0.298 82 GSE16461 - - - - 1 21047 GSE21942 0.049 208 0.2 3680 0.299 5591 GSE26484 - - - - 0.379 493 GSE37750 0.08 1 0.197 63 0.299 728 GSE43591 0.09 7 0.199 595 0.299 1875 GSE52139 - - - - 0.344 74 GSE53716 0.16 1 0.16 3 0.26 8 GSE59085 - - - - 0.8 2666 137

Esquizofrenia

Tabla C.4.: Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de esquizofrenia. FDR = 0.05 FDR = 0.2 FDR = 0.3 Accesi´on FDR #genes FDR #genes FDR #genes GSE27383 0.08 1 0.08 1 0.299 483 GSE21935 - - - - 0.747 57 GSE21138 0.057 3 0.199 672 0.299 1088 GSE17612 - - - - 0.288 10 D. Valores umbral calculados en las redes de co-expresi´on

Enfermedad de Alzheimer 0.20 0.15

Threshold = 0.97 | Ci − C0 0.10 0.05 0.00

0.0 0.2 0.4 0.6 0.8 1.0

Threshold

Figura D.1.: Valor umbral obtenido para reconstruir la red de co-expresi´onen la enfermedad de Alzheimer. 139

Enfermedad de Parkinson 0.3

Threshold = 0.91 0.2 | Ci − C0 0.1 0.0

0.0 0.2 0.4 0.6 0.8 1.0

Threshold

Figura D.2.: Valor umbral obtenido para reconstruir la red de co-expresi´onen la enfermedad de Parkinson. 140 D Valores umbral calculados en las redes de co-expresi´on

Esclerosis m´ultiple 0.20 0.15

0.10 Threshold = 0.97 | Ci − C0 0.05 0.00

0.0 0.2 0.4 0.6 0.8 1.0

Threshold

Figura D.3.: Valor umbral obtenido para reconstruir la red de co-expresi´onen esclerosis m´ultiple. 141

Esquizofrenia 0.4

Threshold = 0.88 0.3 0.2 | Ci − C0 0.1 0.0

0.0 0.2 0.4 0.6 0.8 1.0

Threshold

Figura D.4.: Valor umbral obtenido para reconstruir la red de co-expresi´onen esquizofrenia. E. Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´onmolecular correspondiente a co-expresi´on

Enfermedad de Alzheimer vs enfermedad de Parkinson

V´ertices

Tabla E.1.: V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Alzheimer y la enfermedad de Parkinson en co-expresi´on. #CCP Elementos CCP1 ARHGEF38, PKP1, DKFZp434E1119 CCP2 HNF4G, TFAP2B CCP3 E2F7, N4BP2 CCP4 SLC46A1, ITGA10

Aristas

Tabla E.2.: Aristas pertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Alzheimer y la enfermedad de Parkinson en co-expresi´on. #CCP Elementos CCP1 ARHGEF38–PKP1, PKP1–DKFZp434E1119 CCP2 HNF4G–TFAP2B CCP3 E2F7–N4BP2 CCP4 SLC46A1–ITGA10 143

Enfermedad de Alzheimer vs esclerosis m´ultiple

V´ertices

Tabla E.3.: V´erticespertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Alzheimer y esclerosis m´ultipleen co-expresi´on. #CCP Elementos CCP1 ACTG2, CYP4B1, SLC9A1

Aristas

Tabla E.4.: Aristas pertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Alzheimer y esclerosis m´ultipleen co-expresi´on. #CCP Elementos CCP1 ACTG2–CYP4B1, ACTG2–SLC9A1

Enfermedad de Alzheimer vs esquizofrenia

V´ertices

Tabla E.5.: V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Alzheimer y esquizofrenia en co-expresi´on. #CCP Elementos CCP1 ACTG2, CHST4, LOC338588, TMEM30B, LOC339978, GRM6 CCP2 WDR49, C1QTNF7, LOC100507274, STOML3, CCDC150, HOXA5, FABP1, FIGLA E Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´on 144 molecular correspondiente a co-expresi´on

Aristas

Tabla E.6.: Aristas pertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Alzheimer y esquizofrenia en co-expresi´on. #CCP Elementos CCP1 ACTG2–CHST4, ACTG2–LOC338588, CHST4–LOC338588, ACTG2– TMEM30B, LOC338588–LOC339978, LOC339978–GRM6 CCP2 WDR49–C1QTNF7, WDR49–LOC100507274, WDR49–STOML3, CCDC150–HOXA5, HOXA5–FABP1, LOC100507274–FABP1, FABP1– FIGLA, LOC100507274–HOXA5, C1QTNF7–LOC100507274

Enfermedad de Parkinson vs esclerosis m´ultiple

V´ertices

Tabla E.7.: V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Parkinson y esclerosis m´ultipleen co-expresi´on. #CCP Elementos CCP1 PKP1, C21orf122, SLC9A1, FLJ39582, CGA, TAB1, ZNF541, HYDIN2 CCP2 SLC34A3, LOC100288447, GFRA3, EDA2R, LOC652346-PML CCP3 GEMIN4, LCK

Aristas

Tabla E.8.: Aristas pertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Parkinson y esclerosis m´ultipleen co-expresi´on. #CCP Elementos CCP1 PKP1–C21orf122, PKP1–SLC9A1, PKP1–FLJ39582, PKP1–CGA, FLJ39582–TAB1, FLJ39582–ZNF541, FLJ39582–HYDIN2 CCP2 SLC34A3–LOC100288447, SLC34A3–GFRA3, SLC34A3–EDA2R, GFRA3–EDA2R, GFRA3–LOC652346-PML CCP3 GEMIN4–LCK 145

Enfermedad de Parkinson vs esquizofrenia

V´ertices

Tabla E.9.: V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Parkinson y esquizofrenia en co-expresi´on. #CCP Elementos CCP1 CCDC12, CTBP2, ZC3H7AEXT2, C10orf119, ACN9, POLR2GHAUS1, RNF7, SNW1, NCK1, RPS17, N4BP2, RPS6, MICB, PCID2, GOLPH3PRIM1, RPN1, ARFGAP3, SMCR8 CCP2 ABCA4, DYRK3, NLRP11, ZNF843, LOC100129058, PRPS1L1, PKP1, TSPAN9, LOC100129845, PLXNA1, LOC100288447, C21orf122, CCDC30, LOC100133985, C10orf25, CGA, OR4D2, LOC100507670, LOC338588, LYNX1, SLC25A34 CCP3 REEP1, GNG3, SYT13, NRXN1 CCP4 UQCC, CYB5D1, CAPN5 CCP5 C15orf44, GPATCH3, TSPAN18 CCP6 TAB1, C7orf52 CCP7 LOC100133089, WNT7B CCP8 APEX2, ATRIP CCP9 CCDC94, CPSF3L CCP10 PDHX, TUBB2C CCP11 SELM, PCDHG E Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´on 146 molecular correspondiente a co-expresi´on

Aristas

Tabla E.10.: Aristas pertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Parkinson y esquizofrenia en co-expresi´on. #CCP Elementos CCP1 CCDC12–CTBP2, CTBP2–ZC3H7A, ZC3H7A– EXT2, ZC3H7A–C10orf119, EXT2–POLR2G, ACN9–POLR2G, POLR2G–HAUS1, POLR2G– RNF7, HAUS1–RNF7, POLR2G–SNW1, HAUS1– SNW1, RNF7–SNW1, HAUS1–NCK1, SNW1–NCK1, POLR2G–RPS17, HAUS1–RPS17, NCK1–RPS17, HAUS1–N4BP2, SNW1–N4BP2, HAUS1–RPS6, SNW1–RPS6, NCK1–RPS6, RPS17–RPS6, HAUS1– MICB, SNW1–MICB, NCK1–MICB, N4BP2–MICB, POLR2G–PCID2, SNW1–PCID2, NCK1–PCID2, N4BP2–PCID2, POLR2G–GOLPH3, RPS17– GOLPH3, PCID2–GOLPH3, PCID2–PRIM1, SNW1– RPN1, NCK1–RPN1, EXT2–ARFGAP3, C10orf119– SMCR8 147

Tabla E.10.: Continuaci´on #CCP Elementos CCP2 ABCA4–DYRK3, ABCA4–NLRP11, DYRK3– ZNF843, DYRK3–LOC100129058, NLRP11–PRPS1L1, ZNF843–PKP1, ZNF843–TSPAN9, ZNF843– LOC100129845, TSPAN9–LOC100129845, ZNF843– PLXNA1, TSPAN9–PLXNA1, PKP1–LOC100288447, PKP1–C21orf122, LOC100288447–C21orf122, PKP1– CCDC30, PKP1–LOC100133985, LOC100288447– LOC100133985, PKP1–C10orf25, PKP1–CGA, PKP1–OR4D2, LOC100288447–LOC100507670, LOC100288447–LOC338588, TSPAN9–LYNX1, LOC100507670–LYNX1, CCDC30–SLC25A34 CCP3 REEP1–GNG3, GNG3–SYT13, GNG3–NRXN1 CCP4 UQCC–CYB5D1, CYB5D1–CAPN5 CCP5 C15orf44–GPATCH3, C15orf44–TSPAN18 CCP6 TAB1–C7orf52 CCP7 LOC100133089–WNT7B CCP8 APEX2–ATRIP CCP9 CCDC94–CPSF3L CCP10 PDHX–TUBB2C CCP11 SELM–PCDHG E Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´on 148 molecular correspondiente a co-expresi´on

Esclerosis m´ultiplevs esquizofrenia

V´ertices

Tabla E.11.: V´erticespertenecientes a cada patr´onde conectividad com´unidentificados en- tre esclerosis m´ultipley esquizofrenia en co-expresi´on. #CCP Elementos CCP1 A1CF, GDEP, NCRNA00269, CGA, CHRM2, CPB1, CXorf41, GPR64, LOC283403, LOC338588, PDG- FRAPKP1, LOC349408, C10orf93, ESRG, LOC283089, LOC642345, EPB41L5, SOX13, GRM6, LOC100129845, CTDSPL, LOC100288447, FSD2, ACTG2, ZNF324B, OR2J2, FABP1, LOC645591, SCGB1A1, HTR6, MYL1, TTC23, PTPRB, C21orf122, LOC220980, STRA6, IL9R, GTSE1, LOC339862, UBE2CBP, LOC100507516- PRNP, MUC16 CCP2 CCNA1, DLX1, SYT13, HECW1, KCNB2 CCP3 DACH2, TAC1

Aristas

Tabla E.12.: Aristas pertenecientes a cada patr´onde conectividad com´unidentificados entre esclerosis m´ultipley esquizofrenia en co-expresi´on. #CCP Elementos CCP1 A1CF–GDEP, GDEP–CGA, GDEP–CXorf41, GDEP–LOC338588, GDEP–LOC349408, GDEP–LOC283089, GDEP–SOX13, NCRNA00269–CTDSPL, NCRNA00269–FSD2, PKP1–ACTG2, CGA–CPB1, CGA–LOC338588, CGA–ZNF324B, CGA–FABP1, CGA–LOC642345, CHRM2–LOC283403, CHRM2–PKP1, CPB1– CXorf41, CPB1–PDGFRA, CXorf41–PKP1, CXorf41–LOC645591, GPR64–PKP1, GPR64–LOC642345 149

Tabla E.12.: Continuaci´on #CCP Elementos CCP1 LOC283403–HTR6, LOC283403–GRM6, PDGFRA–C10orf93, PDGFRA–SOX13, PKP1–C21orf122, PKP1–TTC23, LOC349408– ZNF324B, ZNF324B–GTSE1, LOC339862–LOC100507516-PRNP, ESRG–OR2J2, OR2J2–LOC645591, LOC642345–OR2J2, ESRG– LOC645591, LOC645591–MUC16, A1CF–NCRNA00269, GDEP– CHRM2, GDEP–GPR64, GDEP–PDGFRA, GDEP–C10orf93, GDEP–LOC642345, GDEP–GRM6, NCRNA00269–LOC100288447, LOC283089–CTDSPL, LOC349408–ACTG2, CGA–CXorf41, CGA– PKP1, CGA–OR2J2, CGA–LOC645591, CHRM2–CPB1, CHRM2– LOC338588, CHRM2–SCGB1A1, CPB1–GPR64, CPB1–PKP1, CXorf41–OR2J2, CXorf41–SCGB1A1, GPR64–ESRG, LOC283403– LOC338588, LOC283403–MYL1, LOC338588–PKP1, PDGFRA– PTPRB, PKP1–LOC349408, PKP1–LOC220980, ZNF324B–IL9R, LOC349408–ESRG, OR2J2–LOC339862, LOC645591–LOC339862, OR2J2–FABP1, OR2J2–SCGB1A1, ESRG–UBE2CBP, FABP1– LOC645591, LOC642345–EPB41L5, GDEP–NCRNA00269, GDEP– CPB1, GDEP–LOC283403, GDEP–PKP1, GDEP–ESRG, GDEP– EPB41L5, LOC283403–LOC100129845, NCRNA00269–LOC283089, CPB1–ACTG2, ACTG2–ZNF324B, CGA–GPR64, CGA–LOC349408, CGA–ESRG, CGA–SCGB1A1, CHRM2–CXorf41, CHRM2–PDGFRA, CHRM2–LOC642345, CPB1–LOC283403, CXorf41–GPR64, CXorf41– C10orf93, CXorf41–LOC642345, GPR64–SCGB1A1, LOC283403–PKP1, LOC283403–TTC23, PDGFRA–PKP1, PDGFRA–TTC23, PKP1– ZNF324B, PKP1–STRA6, IL9R–GTSE1, LOC349408–LOC645591, LOC339862–UBE2CBP, OR2J2–UBE2CBP, OR2J2–LOC100507516- PRNP, OR2J2–MUC16, C10orf93–SCGB1A1, LOC645591–SCGB1A1 CCP2 CCNA1–DLX1, CCNA1–SYT13, DLX1–SYT13, DLX1–HECW1, SYT13–HECW1, HECW1–KCNB2 CCP3 DACH2–TAC1 E Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´on 150 molecular correspondiente a co-expresi´on

Enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia

V´ertices

Tabla E.13.: V´erticespertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en co-expresi´on. #CCP Elementos CCP1 PKP1, C21orf122, CGA

Aristas

Tabla E.14.: Aristas pertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en co-expresi´on. #CCP Elementos CCP1 PKP1–C21orf122, PKP1–CGA F. Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´onmolecular correspondiente a interacci´on prote´ına-prote´ına

Enfermedad de Alzheimer vs enfermedad de Parkinson

V´ertices

Tabla F.1.: V´erticespertenecientes a cada patr´onde conectividad com´unidentificados en- tre la enfermedad de Alzheimer y la enfermedad de Parkinson en interacci´on prote´ına-prote´ına #CCP Elementos CCP1 PHF5A, EIF2C1, RPL21, MRPS22, RPS17 CCP2 NCK1, PDIA2 CCP3 ATP1B4, BACE1 CCP4 KRTAP9, KRTAP4 CCP5 CCDC93, TRAF3IP1 CCP6 MLLT4, NRXN1 F Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´on 152 molecular correspondiente a interacci´onprote´ına-prote´ına

Aristas

Tabla F.2.: Aristas pertenecientes a cada patr´on de conectividad com´unidentificados en- tre la enfermedad de Alzheimer y la enfermedad de Parkinson en interacci´on prote´ına-prote´ına #CCP Elementos CCP1 PHF5A–EIF2C1, EIF2C1–RPL21, EIF2C1–MRPS22, RPL21–RPS17 CCP2 NCK1–PDIA2 CCP3 ATP1B4–BACE1 CCP4 KRTAP9–KRTAP4 CCP5 CCDC93–TRAF3IP1 CCP6 MLLT4–NRXN1

Enfermedad de Alzheimer vs esclerosis m´ultiple

V´ertices

Tabla F.3.: V´erticespertenecientes a cada patr´onde conectividad com´un identificados en- tre la enfermedad de Alzheimer y esclerosis m´ultipleen interacci´onprote´ına- prote´ına #CCP Elementos CCP1 HP1BP3, KRT3 CCP2 KRTAP9, KRTAP4

Aristas

Tabla F.4.: Aristas pertenecientes a cada patr´on de conectividad com´unidentificados en- tre la enfermedad de Alzheimer y esclerosis m´ultipleen interacci´onprote´ına- prote´ına #CCP Elementos CCP1 HP1BP3–KRT3 CCP2 KRTAP9–KRTAP4 153

Enfermedad de Alzheimer vs esquizofrenia V´ertices

Tabla F.5.: V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Alzheimer y esquizofrenia en interacci´onprote´ına-prote´ına #CCP Elementos CCP1 PHF5A, RNF2, EIF2C1, HNRNPR, IGHM, MRPS22, RUVBL1, RPS17, TBL1XR1, NCK1, COL17A1 CCP2 DOCK2, KRTAP4

Aristas

Tabla F.6.: Aristas pertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Alzheimer y esquizofrenia en interacci´onprote´ına-prote´ına #CCP Elementos CCP1 PHF5A–RNF2, PHF5A–EIF2C1, RNF2–HNRNPR, RNF2–IGHM, RNF2–MRPS22, RNF2–RUVBL1, RNF2–RPS17, RNF2–TBL1XR1, EIF2C1–MRPS22, HNRNPR–NCK1, HNRNPR–COL17A1 CCP2 DOCK2–KRTAP4 F Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´on 154 molecular correspondiente a interacci´onprote´ına-prote´ına

Enfermedad de Parkinson vs esclerosis m´ultiple

V´ertices

Tabla F.7.: V´erticespertenecientes a cada patr´onde conectividad com´un identificados en- tre la enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına- prote´ına #CCP Elementos CCP1 ASB11, BMI1, CDKN2B, CSN2, CSNK2A1, CSNK2A2, EIF5B, FRMD5, GEMIN4, IFNAR1, LCK, NOLC1, PAK2, PIAS1, PKP1, PML, PRPF38A, PSMA2, PSMB6, PTPN12, RPL14, RPN1, RPS17, RPS6, SLC25A11, SMAD4, TGFBR2, TNS3, TSPY1, UBB, WBP11 CCP2 STK3, SULT2A1, MST1 CCP3 NFE2L2, CASP1, CARD16 CCP4 KRTAP9, KRTAP4, MAPKBP1 CCP5 MYBPC2, TULP3, COL12A1 CCP6 MDFI, BEX1 CCP7 SYT13, NRXN1 CCP8 CCNA1, PROCA1 CCP9 APPBP2, LONRF3 CCP10 MAGI1, TSHR CCP11 FSHB, CGA CCP12 IRAK3, FOLR1

Aristas

Tabla F.8.: Aristas pertenecientes a cada patr´on de conectividad com´unidentificados en- tre la enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına- prote´ına #CCP Elementos CCP1 CSNK2A1–BMI1, CSNK2A1–CSN2, CSNK2A1–PML, CSNK2A1– EIF5B, CSNK2A1–NOLC1, CSNK2A1–CSNK2A2, CSNK2A1–PIAS1, CSNK2A1–PRPF38A, CSNK2A1–TSPY1, UBB–SMAD4, UBB– PSMA2 155

Tabla F.8.: Continuaci´on #CCP Elementos CCP1 BMI1–RPN1, BMI1–WBP11, BMI1–GEMIN4, BMI1–SLC25A11, BMI1–PKP1, PAK2–RPS6, PAK2–LCK, PSMA2–PAK2, RPN1– ASB11, LCK–IFNAR1, LCK–PTPN12, PTPN12–TNS3, NOLC1–RPS6, RPS6–RPS17, RPS6–RPL14, PML–TGFBR2, PML–PIAS1, SMAD4– TGFBR2, PIAS1–SMAD4, SMAD4–CDKN2B, NOLC1–CSNK2A2, PIAS1–GEMIN4, RPS17–RPL14, RPS17–FRMD5, PSMA2–PSMB6, PSMA2–ASB11 CCP2 STK3–SULT2A1, STK3–MST1 CCP3 NFE2L2–CASP1, CASP1–CARD16 CCP4 KRTAP9–KRTAP4, KRTAP9–MAPKBP1 CCP5 MYBPC2–TULP3, MYBPC2–COL12A1 CCP6 MDFI–BEX1 CCP7 SYT13–NRXN1 CCP8 CCNA1–PROCA1 CCP9 APPBP2–LONRF3 CCP10 MAGI1–TSHR CCP11 FSHB–CGA CCP12 IRAK3–FOLR1

Enfermedad de Parkinson vs esquizofrenia

V´ertices

Tabla F.9.: V´erticespertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Parkinson y esquizofrenia en interacci´onprote´ına-prote´ına #CCP Elementos CCP1 AS, ASB11, CCT2, EIF2C1, FOXN3, HNRNPA1, HNRNPC, ICMT, IFIT1, KRAS, MAPKAP1, MEX3B, MRPS22, PDHX, PHF5A, PKP1, PML, PRMT3, PRPF8, RHOA, RPN1, RPS17, RPS6, SEC23A, SLC25A3, SNRNP40, SNW1, TARDBP, TGFBR2, TOPORS, TUBB2C, UBB, UCHL3 F Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´on 156 molecular correspondiente a interacci´onprote´ına-prote´ına

Tabla F.9.: Continuaci´on #CCP Elementos CCP2 C6ORF182, HAUS1, MYL12B, C1ORF190 CCP3 NCK1, FAM110A, PYGM CCP4 FAM96B, PRIM1, ELP4 CCP5 DVL3, LRRFIP2 CCP6 KLHL24, PICK1 CCP7 SYT13, NRXN1 CCP8 APPBP2, PYROXD2 CCP9 CTBP2, CCR5 CCP10 RABEP1, KCNH1 CCP11 ATRIP, CCDC28B CCP12 GPD1, GK CCP13 SEMA6D, PLXNA1

Aristas

Tabla F.10.: Aristas pertenecientes a cada patr´onde conectividad com´unidentificados entre la enfermedad de Parkinson y esquizofrenia en interacci´onprote´ına-prote´ına #CCP Elementos CCP1 UBB–RHOA, UBB–UCHL3, SNW1–HNRNPA1, SNW1–HNRNPC, SNW1–TARDBP, SNW1–FOXN3, SNW1–SNRNP40, SNW1–CCT2, SNW1–TUBB2C, SNW1–PRPF8, HNRNPA1–EIF2C1, HNRNPA1– HNRNPC, HNRNPA1–TARDBP, HNRNPA1–RPS6, HNRNPA1– PRPF8, HNRNPA1–PHF5A, HNRNPA1–TOPORS, HNRNPA1– PRMT3, HNRNPC–EIF2C1, EIF2C1–RPN1, EIF2C1–SLC25A3, EIF2C1–RPS6, EIF2C1–PHF5A, EIF2C1–MRPS22, EIF2C1–MEX3B, HNRNPC–KRAS, HNRNPC–TARDBP, HNRNPC–IFIT1, TARDBP– RPS6, TARDBP–PKP1, TARDBP–RPS17, TARDBP–MRPS22, SNRNP40–PML, SNRNP40–PRPF8, RPN1–ASB11, RHOA–ICMT, SLC25A3–PDHX, RPS6–RPS17, RPS6–MAPKAP1, RHOA–AS, PML–TGFBR2, TOPORS–PML, AS–SEC23A, PRMT3–SEC23A 157

Tabla F.10.: Continuaci´on #CCP Elementos CCP2 C6ORF182–HAUS1, HAUS1–MYL12B, HAUS1–C1ORF190 CCP3 NCK1–FAM110A, FAM110A–PYGM CCP4 FAM96B–PRIM1, FAM96B–ELP4 CCP5 DVL3–LRRFIP2 CCP6 KLHL24–PICK1 CCP7 SYT13–NRXN1 CCP8 APPBP2–PYROXD2 CCP9 CTBP2–CCR5 CCP10 RABEP1–KCNH1 CCP11 ATRIP–CCDC28B CCP12 GPD1–GK CCP13 SEMA6D–PLXNA1

Esclerosis m´ultiplevs esquizofrenia

V´ertices

Tabla F.11.: V´erticespertenecientes a cada patr´onde conectividad com´unidentificados en- tre esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına #CCP Elementos CCP1 ASAP1, ASB11, CCNT1, COPS3, FBXW2, GNGT1, HHEX, IKBKG, PDGFRA, PML, RBX1, RPN1, TGFBR2, TUBB2C, UBB CCP2 ACTA1, FCGR2A, LGALS3, MYL1, RAB7A, USP6NL CCP3 SMN1, SRP54, SNRPA1, SEPT7 CCP4 RPS6, RPS17 CCP5 SYT13, NRXN1 CCP6 GNA11, CHRM2 CCP7 APPBP2, C6ORF226 CCP8 SLC25A11, CAMKK2 CCP9 CDIPT, UNC93B1 CCP10 RGS20, KRTAP4 CCP11 TAC1, TAC4 F Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´on 158 molecular correspondiente a interacci´onprote´ına-prote´ına

Aristas

Tabla F.12.: Aristas pertenecientes a cada patr´onde conectividad com´unidentificados entre esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına #CCP Elementos CCP1 ASAP1–IKBKG, FBXW2–RBX1, CCNT1–TUBB2C, RBX1–PML, CCNT1–PML, IKBKG–COPS3, RBX1–COPS3, IKBKG–UBB, IKBKG–GNGT1, IKBKG–RPN1, RPN1–ASB11, PML–TGFBR2, PML–HHEX, TGFBR2–PDGFRA CCP2 ACTA1–LGALS3, ACTA1–USP6NL, ACTA1–MYL1, LGALS3– RAB7A, LGALS3–FCGR2A CCP3 SMN1–SRP54, SMN1–SNRPA1, SNRPA1–SEPT7 CCP4 RPS6–RPS17 CCP5 SYT13–NRXN1 CCP6 GNA11–CHRM2 CCP7 APPBP2–C6ORF226 CCP8 SLC25A11–CAMKK2 CCP9 CDIPT–UNC93B1 CCP10 RGS20–KRTAP4 CCP11 TAC1–TAC4

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esclerosis m´ultiple

V´ertices

Tabla F.13.: V´erticespertenecientes al patr´onde conectividad com´un identificado entre la enfermedad de Alzheimer, enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına-prote´ına #CCP Elementos CCP1 KRTAP9, KRTAP4 159

Arista

Tabla F.14.: Arista perteneciente al patr´onde conectividad com´unidentificado entre la en- fermedad de Alzheimer, enfermedad de Parkinson y esclerosis m´ultipleen in- teracci´onprote´ına-prote´ına #CCP Elemento CCP1 KRTAP9–KRTAP4

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esquizofrenia

V´ertices

Tabla F.15.: V´erticespertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Alzheimer, enfermedad de Parkinson y esquizofrenia en inter- acci´onprote´ına-prote´ına #CCP Elementos CCP1 PHF5A, EIF2C1, MRPS22

Aristas

Tabla F.16.: Aristas pertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Alzheimer, enfermedad de Parkinson y esquizofrenia en inter- acci´onprote´ına-prote´ına #CCP Elementos CCP1 PHF5A–EIF2C1, EIF2C1–MRPS22 F Detalles de los patrones de conectividad com´unidentificados en la capa de abstracci´on 160 molecular correspondiente a interacci´onprote´ına-prote´ına

Enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia

V´ertices

Tabla F.17.: V´erticespertenecientes al patr´onde conectividad com´un identificado entre la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en interacci´on prote´ına-prote´ına #CCP Elementos CCP1 RPN1, ASB11 CCP2 SYT13, NRXN1 CCP3 RPS6, RPS17 CCP4 PML, TGFBR2

Aristas

Tabla F.18.: Aristas pertenecientes al patr´onde conectividad com´unidentificado entre la enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en interacci´on prote´ına-prote´ına #CCP Elementos CCP1 RPN1–ASB11 CCP2 SYT13–NRXN1 CCP3 RPS6–RPS17 CCP4 PML–TGFBR2 G. Detalle de los elementos compartidos en ambas capas de abstracci´on molecular

Co-expresi´on

Enfermedad de Alzheimer vs enfermedad de Parkinson FAM46B, LOC338588, SLC9A1, TMEM30B, SEC16B, LOC728175, LOC642345, C1QTNF7, PGR, SCGB1A1, PLAU, UQCC, ARL5C, MC2R, LOC100270804, LOC100505764, KCNT1, POLA2, RAD54L2

Enfermedad de Alzheimer vs esclerosis m´ultiple LOC338588, GRM6, FABP1, LOC642345, DEFB119, NRK, SCGB1A1, PKP1, SCTR, KIR2DL4- KIR2DL5A-LOC100287534, KRTAP9-4, NXF5, CD163L1, SLC17A8, ITGA10

Enfermedad de Alzheimer vs esquizofrenia DKFZp434J0226, LOC400958, TNFRSF19, KRTAP4-8, FCER1A, LOC642345, N4BP2, NCRNA00213, DOCK2, SCGB1A1, MTHFSD, PKP1, UQCC, C1orf101, LOC145757, OR1D4-OR1D5, SAMD3, MLN, TRIM43-TRIM43B, PHKA1, MTMR14

Enfermedad de Parkinson vs esclerosis m´ultiple OPN5, RPL14, CPSF3L, LONRF3, LOC100129845, ODF3B, PPP1R15B, SMPX, MAST2, STRA6, NMT2, TMEM191A, YPEL3, COG2, GSTA1, RNF220, C7orf52, TSPY1, DENND2C, VGLL1, BEAN1, HECW1, SYT13, LOC286058, C1orf183, KRTAP11-1, VENTXP1, CCDC64, CCNA1, LOC283761, SPATA4, COL12A1, CPXCR1, DDO, OR4D2, TC2N, ITGA10, LOC338588, LOC642345, NRXN1, SCGB1A1, LOC100240728, LOC100130522, SULT2A1, OR5L2, ROPN1L 162 G Detalle de los elementos compartidos en ambas capas de abstracci´onmolecular

Enfermedad de Parkinson vs esquizofrenia CCT2, SNRNP40, TOPORS, RHOXF2-RHOXF2B, OCEL1, IPO4, SLC25A3, TFDP1, UCHL3, PRMT3, PLEKHO2, FAM192A, ATP6V0B, CCDC115, KBTBD6, MYL12B, GSTCD, PRPF8, CCR1, AGA, CHRND, ELP4, BACE1, APH1B, MGC2752, WDR7, STRA6, C1orf190, C1RL, PCBD1, SLC25A11, TFEB, COG2, MTRR, KIAA1958, C11orf48, ARMCX6, CHMP1A, SH2D5, MASP1, MIPOL1, EIF2C1, ESRP2, HECW1, BEX1, TECPR2, BLCAP, HNRPLL, LOC100130700, KRTAP4-5, DVL3, CLCN2, NFATC4, C1QTNF7, MYOT, TMEM30B, UNC93B1, ZCCHC4, GBA3, LOC283045, CCNA1, SERPINB5, LOC283761, CHST15, SLC12A2, TSPAN8, LPAL2, DLK2, TC2N, FAM169A, FCRL2, LOC642345, LOC286068, SCGB1A1, IL25, KIAA1549, LOC100128079, SSTR4, SVEP1, TBX21, WNT9A

Esclerosis m´ultiplevs esquizofrenia FGFBP1, RAB3D, C5orf23, IKBKG, C3orf36, HCP5P10, ZNF844, TC2N, TSHZ1, AGAP3, C20orf29, CPSF3L, CRYGS, OR4D2, IL15, BCKDHA, LOC283761, RNF152, C6orf168, C6orf182, C18orf20, FLJ37035, C7orf52, CAMKK2, CCRN4L, CNO, CLEC4E, COG2, NOM1, TAB1, PLEC, SLC30A8, EFNB1, NRXN1, LOC348751, MTCP1-MTCP1NB, LOC780529, TIMP1, SOX15

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esclerosis m´ultiple LOC338588, SLC9A1, LOC642345, SCGB1A1, PKP1, ITGA10

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esquizofrenia LOC338588, TMEM30B, LOC642345, N4BP2, C1QTNF7, SCGB1A1, PKP1, UQCC

Enfermedad de Alzheimer vs esclerosis m´ultiplevs esquizofrenia ACTG2, LOC338588, GRM6, FABP1, LOC642345, SCGB1A1, PKP1

Enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia TAB1, CPSF3L, LOC100288447, LOC100129845, STRA6, COG2, C7orf52, HECW1, SYT13, CCNA1, LOC283761, OR4D2, TC2N, LOC338588, LOC642345, NRXN1, SCGB1A1

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia PKP1, LOC338588, LOC642345, SCGB1A1 163

Interacci´onprote´ına-prote´ına

Enfermedad de Alzheimer vs enfermedad de Parkinson MGA, KIAA1244, IGHM, CTBP2, CD82, SMARCAD1, UIMC1, TH1L, KRT3, KIAA1958, PGR, DCTPP1, MST1

Enfermedad de Alzheimer vs esclerosis m´ultiple TARS, RPS17, E2F4, DDX19A, DDX19B, NRXN1, ASPSCR1, NSFL1C, MST1

Enfermedad de Alzheimer vs esquizofrenia BACE1, CTBP2, MSH2, RAP1GAP, NRXN1, CIAPIN1, SNX5

Enfermedad de Parkinson vs esclerosis m´ultiple HOXA7, SNRPD3, PLAU, TJP1, C6ORF182, EIF2S3, IKBIP, KLHL24, TOX4, FOXP1, STX2, MAST2, TUBB2C, TAB1, HECW1, PPP2R5C, COL4A1, POLR2G, ITPR1, FCGR2A, KRT3, NQO1, GTF2I, EIF4ENIF1, ABCB7, KCTD17, ZNF16, MKL2, PKD1, MEX3B, C1ORF190, MRPS28, LIG4, RUFY1, C7ORF25, LIN52, RNF220, UNC93B1, ADAM22, PIP5K1A, IGLα, NDUFA12

Enfermedad de Parkinson vs esquizofrenia PCBD1, USP12, ARRDC1, TFDP1, CXCL16, OSBPL11, TMX3, FAM192A, TAB1, HECW1, CCNA1, RNF7, POLR2G, IGHM, FCGR2A, ASB9, SLC25A11, SOD2, IPO4, XAF1, CHMP1A, MRPS28, BACE1, PCID2, C10ORF119, UNC93B1, KRTAP4, GNG3, ACY3, RPS6KA5, ZNF232, CGA, SVEP1, SLC12A2, CLCN2, TCP11L1, TSFM, GCLM

Esclerosis m´ultiplevs esquizofrenia CDK18, PTPRB, CCNA1, KLHL24, YY1, MRPS28, HECW1, PKP1, TAB1, PLEC, IL3RA, SMN2, MEX3B, PRNP, MLNR, MYO1E, CDC7, CGA, WARS, EPB41L5, C1ORF190, C6ORF182, PDE4DIP, POLR2G, SMG1, CDK5RAP2, NUP88

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esclerosis m´ultiple RPS17, NRXN1, KRT3, MST1 164 G Detalle de los elementos compartidos en ambas capas de abstracci´onmolecular

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esquizofrenia IGHM, RPS17, NCK1, BACE1, CTBP2, KRTAP4, NRXN1

Enfermedad de Alzheimer vs esclerosis m´ultiplevs esquizofrenia RPS17, KRTAP4, NRXN1

Enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia UBB, C6ORF182, KLHL24, TUBB2C, TAB1, HECW1, CCNA1, POLR2G, FCGR2A, APPBP2, SLC25A11, PKP1, MEX3B, C1ORF190, MRPS28, UNC93B1, KRTAP4, CGA

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia NRXN1, RPS17, KRTAP4 H. An´alisisde expresi´ondiferencial usando el m´etodo SAM

Enfermedad de Alzheimer

Tabla H.1.: Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de Alzheimer. FDR = 0.05 FDR = 0.2 FDR = 0.3 Accesi´on FDR #genes FDR #genes FDR #genes GSE18309 - - - - 1 27 GSE28146 - - 0.29 4 - - GSE29652 - - - - 0.89 20 GSE4757 - - - - 1 1 GSE48350 0.18 15249 - - 0.32 19287 GSE5281 0.07 11886 0.22 16675 - - GSE66333 - - - - 0.39 19438

Enfermedad de Parkinson

Tabla H.2.: Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en la enfermedad de Parkinson. FDR = 0.05 FDR = 0.2 FDR = 0.3 Accesi´on FDR #genes FDR #genes FDR #genes GSE14711 0.09 21 0.25 96 0.35 477 166 H An´alisisde expresi´ondiferencial usando el m´etodo SAM

Tabla H.2.: Continuaci´on FDR = 0.05 FDR = 0.2 FDR = 0.3 Accesi´on FDR #genes FDR #genes FDR #genes GSE20141 0.14 57 0.24 6430 0.43 9636 GSE20146 0.06 1 - - - - GSE20153 0.96 1 - - - - GSE4773 0.14 1304 - - - - GSE49036 0.06 1 0.25 2290 0.39 4719 GSE7621 0.06 46 0.25 947 0.40 3266 GSE9807 0.12 2 0.23 50 0.35 99

Esclerosis m´ultiple

Tabla H.3.: Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en esclerosis m´ultiple. FDR = 0.05 FDR = 0.2 FDR = 0.3 Accesi´on FDR #genes FDR #genes FDR #genes GSE14386 - - 0.24 11 0.41 32 GSE16461 0 0 GSE16461 - - - - GSE21942 0.07 5383 - - - - GSE26484 0.06 30 0.27 3234 - - GSE37750 0.072 4 0.24 348 0.46 5820 GSE43591 0.05 706 - - 0.34 3833 GSE52139 0.13 20 0.28 1077 0.39 2717 GSE53716 0.07 16 0.21 25 0.41 34 GSE59085 0.09 4 - - 0.33 5364 167

Esquizofrenia

Tabla H.4.: Resultados del an´alisisde expresi´ondiferencial de genes para los tres valores de FDR esperados en esquizofrenia. FDR = 0.05 FDR = 0.2 FDR = 0.3 Accesi´on FDR #genes FDR #genes FDR #genes GSE27383 0.08 1238 0.29 3696 0.38 5017 GSE21935 0.09 2 - - - - GSE21138 0.18 1070 0.26 2611 0.33 3704 GSE17612 0.41 3 - - - - I. Elementos pertenecientes a los CCPs vinculados con una de las enfermedades asociadas por una referencia en la literatura en co-expresi´on

Enfermedad de Alzheimer vs enfermedad de Parkinson

Tabla I.1.: Detalle de los elementos vinculados entre enfermedad de Alzheimer y enfermedad de Parkinson en co-expresi´on. #CCP Elementos Referencias CCP1 ARHGEF38 (Gonzalez-Mantilla et al., 2016) PKP1 (Stahl et al., 1999) CCP2 HNF4G (Rosenthal et al., 2014) CCP3 E2F7 (Swiss and Casaccia, 2010); (Stanelle and P¨utzer,2006) CCP4 SLC46A1 (Rhodes and Ritz, 2008)

Enfermedad de Alzheimer vs esclerosis m´ultiple

Tabla I.2.: Detalle de los elementos vinculados entre enfermedad de Alzheimer y esclerosis m´ultipleen co-expresi´on. #CCP Elementos Referencias CCP1 CYP4B1 (Cacabelos and Torrellas, 2015) 169

Enfermedad de Alzheimer vs esquizofrenia

Tabla I.3.: Detalle de los elementos vinculados entre enfermedad de Alzheimer y esquizofre- nia en co-expresi´on. #CCP Elementos Referencias CCP1 ACTG2 (Narayanan et al., 2015) LOC338588 (Grozeva et al., 2010) TMEM30B (Rushworth and Hooper, 2011) GRM6 (Maj et al., 2016) CCP2 C1QTNF7 (L´opez Gonz´alezet al., 2016)

Enfermedad de Parkinson vs esclerosis m´ultiple

Tabla I.4.: Detalle de los elementos vinculados entre enfermedad de Parkinson y esclerosis m´ultipleen co-expresi´on. #CCP Elementos Referencias CCP1 CGA (van Luijn et al., 2015) TAB1 (Feng et al., 2014) CCP3 LCK (Ramanathan et al., 2001) I Elementos pertenecientes a los CCPs vinculados con una de las enfermedades asociadas 170 por una referencia en la literatura en co-expresi´on

Enfermedad de Parkinson vs esquizofrenia

Tabla I.5.: Detalle de los elementos vinculados entre enfermedad de Parkinson y esquizofre- nia en co-expresi´on. #CCP Elementos Referencias CCP1 CTBP2 Stankiewicz et al. (2013) EXT2 (Gomez-Bernal, 2008) RNF7 (Rubio et al., 2013) NCK1 (Diao et al., 2012); (Jia and Zhao, 2011) RPS17 (Garcia-Esparcia et al., 2015) N4BP2 (Woolston et al., 2017) RPS6 (Santini et al., 2010) MICB (Shirts et al., 2007) GOLPH3 (Buschman et al., 2015); (Ritter et al., 2012) ARFGAP3 (Yeger-Lotem et al., 2009) CCP2 ABCA4 (Tzekov et al., 2011) NLRP11 (Guipponi et al., 2014) ZNF843 (Mi˜nones-Moyano et al., 2013) PLXNA1 (Chandrasekaran and Bonchev, 2013); (Gilabert-Juan et al., 2015) CGA (Iwazaki et al., 2004) LOC338588 (Grozeva et al., 2010) LYNX1 (Miwa et al., 2006) CCP3 GNG3 (Hill et al., 2014) SYT13 (Yu et al., 2016a) NRXN1 (Lowther et al., 2016) CCP4 UQCC (Fu and Fu, 2015) CCP5 TSPAN18 (Wu et al., 2016) CCP6 TAB1 (Feng et al., 2014) CCP7 WNT7B (Levchenko et al., 2015) CCP10 PDHX (Ahmed et al., 2009) CCP11 PCDHG (El Hajj et al., 2017) 171

Esclerosis m´ultiplevs esquizofrenia

Tabla I.6.: Detalle de los elementos vinculados entre esclerosis m´ultipley esquizofrenia en co-expresi´on. #CCP Elementos Referencias CCP1 CHRM2 (Negoro et al., 2013); (Miyauchi et al., 2016) ACTG2 (Narayanan et al., 2015) LOC338588 (Grozeva et al., 2010) IL9R (Hawi et al., 1999) PNRP (Chubukova et al., 2009) PDGFRA (Wilson et al., 2006); (Mauney et al., 2015) HTR6 (Kishi et al., 2012) MUC16 (Darby et al., 2016) CGA (van Luijn et al., 2015); (Iwazaki et al., 2004) GPR64 (Darby et al., 2016) GRM6 (Maj et al., 2016) CCP2 CCNA1 (Mycko et al., 2003) DLX1 (K¨ahleret al., 2008) SYT13 (Yu et al., 2016a) HECW1 (Viana et al., 2016) KCNB2 (Stepanov et al., 2015) CCP3 TAC1 (Cunningham et al., 2005)

Enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia

Tabla I.7.: Detalle de los elementos vinculados entre enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en co-expresi´on. #CCP Elementos Referencias CCP1 CGA (van Luijn et al., 2015); (Iwazaki et al., 2004) J. Aristas plenamente identificadas en la capa de abstracci´onmolecular correspondiente a interacci´on prote´ına-prote´ına.

Enfermedad de Alzheimer vs enfermedad de Parkinson

Tabla J.1.: Detalle de las aristas plenamente identificadas entre enfermedad de Alzheimer y enfermedad de Parkinson en interacci´onprote´ına-prote´ına. #CCP Elementos Referencia CCP1 RPL21–RPS17 (Li et al., 2015a) CCP3 ATP1B4–BACE1 (Wickham et al., 2005) CCP6 MLLT4–NRXN1 (Hock et al., 1998)

Enfermedad de Alzheimer vs esclerosis m´ultiple

Tabla J.2.: Detalle de las aristas plenamente identificadas entre enfermedad de Alzheimer y esclerosis m´ultipleen interacci´onprote´ına-prote´ına. #CCP Elementos Referencia CCP1 HP1BP3–KRT3 (Havugimana et al., 2012) 173

Enfermedad de Alzheimer vs esquizofrenia

Tabla J.3.: Detalle de las aristas plenamente identificadas entre enfermedad de Alzheimer y esquizofrenia en interacci´on prote´ına-prote´ına. #CCP Elementos Referencia CCP1 PHF5A–RNF2 (Cao et al., 2014) RNF2–HNRNPR (Cao et al., 2014) RNF2–RUVBL1 (Dou et al., 2005) RNF2–TBL1XR1 (Cao et al., 2014) HNRNPR–COL17A1 (Sampath et al., 2004)

Enfermedad de Parkinson vs esclerosis m´ultiple

Tabla J.4.: Detalle de las aristas plenamente identificadas entre enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına-prote´ına. #CCP Elementos Referencia CCP1 CSNK2A1–BMI1 (Vandamme et al., 2011) CSNK2A1–CSN2 (Golsteyn et al., 1995) CSNK2A1–PML (Stehmeier and Muller, 2009) CSNK2A1–NOLC1 (Werner et al., 2015) CSNK2A1–CSNK2A2 (Li et al., 2015a) CSNK2A1–PIAS1 (Stehmeier and Muller, 2009) CSNK2A1–PRPF38A (Zhang et al., 2011b) CSNK2A1–TSPY1 (Krick et al., 2006) UBB–SMAD4 (Barrios-Rodiles et al., 2005) UBB–PSMA2 (Bousquet-Dubouch et al., 2009) BMI1–RPN1 (Cao et al., 2014) BMI1–WBP11 (Cao et al., 2014) PAK2–RPS6 (Brandon and Masaracchia, 1991) PAK2–LCK (K¨arkk¨ainenet al., 2006) RPN1–ASB11 (Andresen et al., 2013) LCK–IFNAR1 (Petricoin et al., 1997) LCK–PTPN12 (Barr et al., 2009) PTPN12–TNS3 (Kristensen et al., 2012) NOLC1–RPS6 (Havugimana et al., 2012) J Aristas plenamente identificadas en la capa de abstracci´onmolecular correspondiente a 174 interacci´onprote´ına-prote´ına.

Tabla J.4.: Continuaci´on #CCP Elementos Referencia RPS6–RPS17 (Havugimana et al., 2012) RPS6–RPL14 (Li et al., 2015a) PML–TGFBR2 (Lin et al., 2004) PML–PIAS1 (Rabellino et al., 2012) SMAD4–TGFBR2 (Zhang et al., 1996) PIAS1–SMAD4 (Liang et al., 2004) SMAD4–CDKN2B (Trinh et al., 2011) NOLC1–CSNK2A2 (So et al., 2015) PIAS1–GEMIN4 (Di et al., 2003) RPS17–RPL14 (Havugimana et al., 2012) PSMA2–PSMB6 (Li et al., 2015a) PSMA2–ASB11 (Andresen et al., 2014) CCP2 STK3–MST1 (Hauri et al., 2013) CCP3 NFE2L2–CASP1 (Ohtsubo et al., 1999) CASP1–CARD16 (Lee et al., 2001) CCP7 SYT13–NRXN1 (Fukuda and Mikoshiba, 2001) CCP8 CCNA1–PROCA1 (Diederichs et al., 2004) CCP9 APPBP2–LONRF3 (Rolland et al., 2014) CCP10 MAGI1–TSHR (Hirakawa et al., 2003) CCP11 FSHB–CGA (Ben-Menahem et al., 1999)

Enfermedad de Parkinson vs esquizofrenia

Tabla J.5.: Detalle de las aristas plenamente identificadas entre enfermedad de Parkinson y esquizofrenia en interacci´onprote´ına-prote´ına. #CCP Elementos Referencia CCP1 UBB–RHOA (Wiesner et al., 2007) UBB–UCHL3 (Misaghi et al., 2005) SNW1–HNRNPA1 (Li et al., 2015a) SNW1–HNRNPC (Li et al., 2015a) SNW1–FOXN3 (Scott and Plon, 2005) SNW1–SNRNP40 (Singh et al., 2012) SNW1–TUBB2C (Li et al., 2015a) SNW1–PRPF8 (Li et al., 2015a) 175

Tabla J.5.: Continuaci´on #CCP Elementos Referencia HNRNPA1–EIF2C1 (Behrends et al., 2010) HNRNPA1–HNRNPC (Yu et al., 2016b) HNRNPA1–TARDBP (Jeronimo et al., 2007) HNRNPA1–RPS6 (Havugimana et al., 2012) HNRNPA1–PRPF8 (Close et al., 2012) HNRNPA1–PHF5A (Havugimana et al., 2012) HNRNPA1–TOPORS (Pungaliya et al., 2007) HNRNPA1–PRMT3 (Chan et al., 2009) HNRNPC–EIF2C1 (H¨ock et al., 2007) EIF2C1–SLC25A3 (H¨ock et al., 2007) EIF2C1–RPS6 (H¨ock et al., 2007) EIF2C1–MEX3B (Courchet et al., 2008) HNRNPC–KRAS (Rual et al., 2005) HNRNPC–TARDBP (Freibaum et al., 2010) HNRNPC–IFIT1 (Pichlmair et al., 2011) TARDBP–RPS6 (Freibaum et al., 2010) TARDBP–MRPS22 (Freibaum et al., 2010) SNRNP40–PML (McNamara et al., 2008) SNRNP40–PRPF8 (Huttlin et al., 2015) RPN1–ASB11 (Andresen et al., 2014) RHOA–ICMT (Dai et al., 1998) SLC25A3–PDHX (Li et al., 2015a) RPS6–RPS17 (Havugimana et al., 2012) RPS6–MAPKAP1 (Oh et al., 2010) PML–TGFBR2 (Lin et al., 2004) TOPORS–PML (Renner et al., 2010) PRMT3–SEC23A (Kristensen et al., 2012) CCP2 HAUS1–MYL12B (Fogeron et al., 2013) CCP4 FAM96B–PRIM1 (Stehling et al., 2013) CCP5 DVL3–LRRFIP2 (Liu et al., 2005) CCP6 KLHL24–PICK1 (Laezza et al., 2008) CCP7 SYT13–NRXN1 (Fukuda and Mikoshiba, 2001) CCP8 APPBP2–PYROXD2 (Rolland et al., 2014) CCP10 RABEP1–KCNH1 (Ninkovic et al., 2012) CCP11 ATRIP–CCDC28B (Rolland et al., 2014) CCP12 GPD1–GK (Wang et al., 2011a) J Aristas plenamente identificadas en la capa de abstracci´onmolecular correspondiente a 176 interacci´onprote´ına-prote´ına.

Tabla J.5.: Continuaci´on #CCP Elementos Referencia CCP13 SEMA6D–PLXNA1 (Toyofuku et al., 2004)

Esclerosis m´ultiplevs esquizofrenia

Tabla J.6.: Detalle de las aristas plenamente identificadas entre esclerosis m´ultipley esqui- zofrenia en interacci´onprote´ına-prote´ına. #CCP Elementos Referencia CCP1 FBXW2–RBX1 (Saiga et al., 2009) CCNT1–TUBB2C (Havugimana et al., 2012) RBX1–PML (Shima et al., 2008) CCNT1–PML (Marcello et al., 2003) IKBKG–COPS3 (Hong et al., 2001) RBX1–COPS3 (Hein et al., 2015) IKBKG–UBB (Bouwmeester et al., 2004) RPN1–ASB11 (Andresen et al., 2014) PML–TGFBR2 (Lin et al., 2004) PML–HHEX (Topcu et al., 1999) TGFBR2–PDGFRA (Wang et al., 2011a) CCP2 ACTA1–LGALS3 (Voss et al., 2008) ACTA1–USP6NL (Lanzetti et al., 2004) ACTA1–MYL1 (Martin et al., 2014) LGALS3–RAB7A (Chen et al., 2014) LGALS3–FCGR2A (Cortegano et al., 2000) CCP3 SMN1–SRP54 (Piazzon et al., 2012) SMN1–SNRPA1 (Fuller et al., 2009) SNRPA1–SEPT7 (Havugimana et al., 2012) CCP4 RPS6–RPS17 (Havugimana et al., 2012) CCP5 SYT13–NRXN1 (Fukuda and Mikoshiba, 2001) CCP6 GNA11–CHRM2 (Offermanns and Simon, 1995) CCP8 SLC25A11–CAMKK2 (Behrends et al., 2010) 177

Enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia

Tabla J.7.: Detalle de las aristas plenamente identificadas entre enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına. #CCP Elementos Referencia CCP1 RPN1–ASB11 (Andresen et al., 2014) CCP2 SYT13–NRXN1 (Fukuda and Mikoshiba, 2001) CCP3 RPS6–RPS17 (Havugimana et al., 2012) CCP4 PML–TGFBR2 (Lin et al., 2004) K. Elementos pertenecientes a los CCPs vinculados con una de las enfermedades asociadas por una referencia en la literatura en interacci´onprote´ına-prote´ına

Enfermedad de Alzheimer vs enfermedad de Parkinson

Tabla K.1.: Detalle de los elementos vinculados entre enfermedad de Alzheimer y enferme- dad de Parkinson en interacci´onprote´ına-prote´ına. #CCP Elementos Referencias CCP1 RPL21 (Bouter et al., 2014); (Garcia-Esparcia et al., 2015) MRPS22 (Lunnon et al., 2017) RPS17 (Garcia-Esparcia et al., 2015); (Miyashita et al., 2014) CCP2 NCK1 (Diao et al., 2012) PDIA2 (Walker et al., 2013) CCP3 ATP1B4 (Gao et al., 2014) BACE1 (Robert, 2004); (Lange et al., 2015) CCP6 MLLT4 (Hu et al., 2017) 179

Enfermedad de Alzheimer vs esclerosis m´ultiple

Tabla K.2.: Detalle de los elementos vinculados entre enfermedad de Alzheimer y esclerosis m´ultipleen interacci´onprote´ına-prote´ına. #CCP Elementos Referencias CCP1 HP1BP3 (Neuner et al., 2016)

Enfermedad de Alzheimer vs esquizofrenia

Tabla K.3.: Detalle de los elementos vinculados entre enfermedad de Alzheimer y esquizo- frenia en interacci´onprote´ına-prote´ına. #CCP Elementos Referencias CCP1 RNF2 (Huber et al., 2002) MRPS22 (Lunnon et al., 2017) EIF2C1 (Topol et al., 2015) HNRNPR (Saia-Cereda et al., 2017) IGHM (Saia-Cereda et al., 2017) RPS17 (Miyashita et al., 2014) TBL1XR1 (Bennett and Keeney, 2017); (Hong et al., 2013) NCK1 (Jia and Zhao, 2011) CCP2 DOCK2 (Cimino et al., 2009)

Enfermedad de Parkinson vs esclerosis m´ultiple

Tabla K.4.: Detalle de los elementos vinculados entre enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına-prote´ına. #CCP Elementos Referencias CCP1 BMI1 (Guerau-de Arellano et al., 2011) CSN2 (Otaegui et al., 2007) SMAD4 (Sonntag et al., 2005); (Tseveleki et al., 2010) PSMA2 (Avsar et al., 2015) K Elementos pertenecientes a los CCPs vinculados con una de las enfermedades 180 asociadas por una referencia en la literatura en interacci´onprote´ına-prote´ına

Tabla K.4.: Continuaci´on #CCP Elementos Referencias PAK2 (Marlin et al., 2010); (Paap et al., 2013) RPS6 (Santini et al., 2010); (Parnell et al., 2014) LCK (Ramanathan et al., 2001) IFNAR1 (Main et al., 2016); (Serana et al., 2008) PTPN12 (Rhee et al., 2014) RPS17 (Garcia-Esparcia et al., 2015) TGFBR2 (Baranzini et al., 2009) CDKN2B (Chung et al., 2015) CCP2 STK3 (S¨arkij¨arviet al., 2006) MST1 (Ciccone et al., 2013); (Marquez et al., 2009) CCP3 NFE2L2 (von Otter et al., 2014) CASP1 (Wang et al., 2016); (Huang et al., 2004) CCP4 MAPKBP1 (Gao et al., 2014) CCP6 BEX1 (Capurro et al., 2015); (Freiesleben et al., 2016) CCP7 NRXN1 (Wang et al., 2011a) CCP8 CCNA1 (Mycko et al., 2003) CCP10 MAGI1 (Baranzini et al., 2009) TSHR (Jones et al., 2009) CCP11 CGA (van Luijn et al., 2015) CCP12 IRAK3 (Srinivasan et al., 2017) FOLR1 (Gennet et al., 2016)

Enfermedad de Parkinson vs esquizofrenia

Tabla K.5.: Detalle de los elementos vinculados entre enfermedad de Parkinson y esquizo- frenia en interacci´onprote´ına-prote´ına. #CCP Elementos Referencias CCP1 UBB (Lee et al., 2011a) RHOA (Labandeira-Garcia et al., 2015); (Hill et al., 2006) UCHL3 (Filatova et al., 2014) HNRNPA1 (Li et al., 2015b) HNRNPC (Iwata et al., 2011) TARDBP (Rayaprolu et al., 2013); (Geser et al., 2010) EIF2C1 (Topol et al., 2015) 181

Tabla K.5.: Continuaci´on #CCP Elementos Referencias RPS6 (Santini et al., 2010) TOPORS (Shinbo et al., 2005) SLC25A3 (Hauser et al., 2005); (Mladinov et al., 2016) RPS17 (Garcia-Esparcia et al., 2015) PDHX (Ahmed et al., 2009) MAPKAP1 (Aberg et al., 2014) AS (Bhat et al., 2014); (Bassett, 2011) TGFBR2 (Numata et al., 2008) CCP3 NCK1 (Diao et al., 2012); (Jia and Zhao, 2011) PYGM (Pinacho et al., 2016) CCP5 DVL3 (Sancho et al., 2009) CCP6 PICK1 (Joch et al., 2007); (Dev and Henley, 2006) CCP7 SYT13 (Yu et al., 2016a) NRXN1 (Lowther et al., 2016) CCP9 CTBP2 (Stankiewicz et al., 2013) CCR5 (Huerta et al., 2004); (Dasdemir et al., 2016) CCP10 KCNH1 (Zhang et al., 2011a) CCP13 SEMA6D (Chandrasekaran and Bonchev, 2013); (Arion et al., 2010) PLXNA1 (Chandrasekaran and Bonchev, 2013); (Gilabert-Juan et al., 2015)

Esclerosis m´ultiplevs esquizofrenia

Tabla K.6.: Detalle de los elementos vinculados entre esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına. #CCP Elementos Referencias CCP1 ASAP1 (Kemppinen et al., 2011b) UBB (Lee et al., 2011a) TGFBR2 (Baranzini et al., 2009); (Numata et al., 2008) PDGFRA (Wilson et al., 2006); (Mauney et al., 2015) CCP2 USP6NL (Saia-Cereda et al., 2016) LGALS3 (Haines et al., 2015); (Shao and Vawter, 2008) CCP3 SEPT7 (Engmann et al., 2011) CCP4 RPS6 (Parnell et al., 2014) CCP5 SYT13 (Yu et al., 2016a) K Elementos pertenecientes a los CCPs vinculados con una de las enfermedades 182 asociadas por una referencia en la literatura en interacci´onprote´ına-prote´ına

Tabla K.6.: Continuaci´on #CCP Elementos Referencias NRXN1 (Wang et al., 2011a); (Lowther et al., 2016) CCP6 GNA11 (Westerlind et al., 2015) CHRM2 (Negoro et al., 2013); (Miyauchi et al., 2016) CCP8 CAMKK2 (Luo et al., 2014) CCP9 CDIPT (Nishioka et al., 2012) CCP11 TAC1 (Cunningham et al., 2005); (Guillozet-Bongaarts et al., 2014) TAC4 (Cunningham et al., 2005)

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esquizofrenia

Tabla K.7.: Detalle de los elementos vinculados entre enfermedad de Alzheimer, enfermedad de Parkinson y esquizofrenia en interacci´onprote´ına-prote´ına. #CCP Elementos Referencias CCP1 EIF2C1 (Topol et al., 2015) MRPS22 (Lunnon et al., 2017)

Enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia

Tabla K.8.: Detalle de los elementos vinculados entre enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına. #CCP Elementos Referencias CCP2 SYT13 (Yu et al., 2016a) NRXN1 (Wang et al., 2011a); (Lowther et al., 2016) CCP3 RPS6 (Santini et al., 2010); (Parnell et al., 2014) RPS17 (Garcia-Esparcia et al., 2015) CCP4 TGFBR2 (Baranzini et al., 2009); (Numata et al., 2008) L. Elementos compartidos vinculados con una de las enfermedades asociadas por una referencia en la literatura en ambas capas de abstracci´onmolecular

Co-expresi´on

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esclerosis m´ultiple

Tabla L.1.: Detalle de los elementos compartidos vinculados entre enfermedad de Alzheimer, enfermedad de Parkinson y esclerosis m´ultipleen co-expresi´on. Elementos Referencias PKP1 (Stahl et al., 1999)

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esquizofrenia

Tabla L.2.: Detalle de los elementos compartidos vinculados entre enfermedad de Alzheimer, enfermedad de Parkinson y esquizofrenia en co-expresi´on. Elementos Referencias LOC338588 (Grozeva et al., 2010) TMEM30B (Rushworth and Hooper, 2011) N4BP2 (Woolston et al., 2017) C1QTNF7 (L´opez Gonz´alezet al., 2016) PKP1 (Stahl et al., 1999) L Elementos compartidos vinculados con una de las enfermedades asociadas por una 184 referencia en la literatura en ambas capas de abstracci´onmolecular

Tabla L.2.: Continuaci´on Elementos Referencias UQCC (Fu and Fu, 2015)

Enfermedad de Alzheimer vs esclerosis m´ultiplevs esquizofrenia

Tabla L.3.: Detalle de los elementos compartidos vinculados entre enfermedad de Alzheimer, esclerosis m´ultipley esquizofrenia en co-expresi´on. Elementos Referencias ACTG2 (Narayanan et al., 2015) LOC338588 (Grozeva et al., 2010) GRM6 (Maj et al., 2016) PKP1 (Stahl et al., 1999)

Enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia

Tabla L.4.: Detalle de los elementos compartidos vinculados entre enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en co-expresi´on. Elementos Referencias TAB1 (Feng et al., 2014) HECW1 (Viana et al., 2016) SYT13 (Yu et al., 2016a) CCNA1 (Mycko et al., 2003) LOC338588 (Grozeva et al., 2010) NRXN1 (Lowther et al., 2016)

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia

Tabla L.5.: Detalle de los elementos compartidos vinculados entre enfermedad de Alzheimer, enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en co-expresi´on. Elementos Referencias PKP1 (Stahl et al., 1999) 185

Tabla L.5.: Continuaci´on Elementos Referencias LOC338588 (Grozeva et al., 2010)

Interacci´onprote´ına-prote´ına

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esclerosis m´ultiple

Tabla L.6.: Detalle de los elementos compartidos vinculados entre enfermedad de Alzheimer, enfermedad de Parkinson y esclerosis m´ultipleen interacci´onprote´ına-prote´ına. Elementos Referencias RPS17 (Garcia-Esparcia et al., 2015); (Miyashita et al., 2014) NRXN1 (Wang et al., 2011a) MST1 (Ciccone et al., 2013); (Marquez et al., 2009)

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esquizofrenia

Tabla L.7.: Detalle de los elementos compartidos vinculados entre enfermedad de Alzheimer, enfermedad de Parkinson y esquizofrenia en interacci´onprote´ına-prote´ına. Elementos Referencias IGHM (Saia-Cereda et al., 2017); (Kedmi et al., 2011) RPS17 (Garcia-Esparcia et al., 2015); (Miyashita et al., 2014) NCK1 (Diao et al., 2012); (Jia and Zhao, 2011) BACE1 (Robert, 2004); (Lange et al., 2015); (Zhang et al., 2017) CTBP2 (Stankiewicz et al., 2013) NRXN1 (Lowther et al., 2016) L Elementos compartidos vinculados con una de las enfermedades asociadas por una 186 referencia en la literatura en ambas capas de abstracci´onmolecular

Enfermedad de Alzheimer vs esclerosis m´ultiplevs esquizofrenia

Tabla L.8.: Detalle de los elementos compartidos vinculados entre enfermedad de Alzheimer, esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına. Elementos Referencias RPS17 (Miyashita et al., 2014) NRXN1 (Wang et al., 2011a); (Lowther et al., 2016)

Enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia

Tabla L.9.: Detalle de los elementos compartidos vinculados entre enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en interacci´onprote´ına-prote´ına. Elementos Referencias UBB (Lee et al., 2011a) CCNA1 (Mycko et al., 2003) FCGR2A (Hu et al., 2017) CGA (van Luijn et al., 2015)

Enfermedad de Alzheimer vs enfermedad de Parkinson vs esclerosis m´ultiplevs esquizofrenia

Tabla L.10.: Detalle de los elementos compartidos vinculados entre enfermedad de Alzhei- mer, enfermedad de Parkinson, esclerosis m´ultipley esquizofrenia en interac- ci´onprote´ına-prote´ına. Elementos Referencias NRXN1 (Wang et al., 2011a); (Lowther et al., 2016) RPS17 (Garcia-Esparcia et al., 2015); (Miyashita et al., 2014) Bibliograf´ıa

Aberg, K. A., McClay, J. L., Nerella, S., Clark, S., Kumar, G., Chen, W., Khachane, A. N., Xie, L., Hudson, A., Gao, G., et al. (2014). Methylome-wide association study of schizoph- renia: identifying blood biomarker signatures of environmental insults. JAMA psychiatry, 71(3):255–264.

Acosta, J. P. and L´opez-Kleine, L. (2015). Identification of differentially expressed genes with artificial components–the acde package.

Aderem, A. (2005). Systems biology: its practice and challenges. Cell, 121(4):511–513.

Aguzzi, A. and O’connor, T. (2010). Protein aggregation diseases: pathogenicity and thera- peutic perspectives. Nature reviews Drug discovery, 9(3):237–248.

Ahmed, S. S., Santosh, W., Kumar, S., and Christlet, H. T. T. (2009). Metabolic profiling of parkinson’s disease: evidence of biomarker from gene expression analysis and rapid neural network detection. Journal of biomedical science, 16(1):63.

Allen-Perkins, A., Pastor, J. M., and Estrada, E. (2017). Two-walks degree assortativity in graphs and networks. Applied Mathematics and Computation, 311:262–271.

Alm, E. and Arkin, A. P. (2003). Biological networks. Current opinion in structural biology, 13(2):193–202.

Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., and Hamosh, A. (2014). Omim. org: Online mendelian inheritance in man (omim R ), an online catalog of human genes and genetic disorders. Nucleic acids research, 43(D1):D789–D798.

Andresen, C. A., Smedegaard, S., Sylvestersen, K. B., Svensson, C., Iglesias-Gato, D., Cazza- mali, G., Nielsen, T. K., Nielsen, M. L., and Flores-Morales, A. (2013). Protein interaction screening for the ankyrin repeats and socs box (asb) family identify asb11 as a novel er resident ubiquitin ligases. Journal of Biological Chemistry, pages jbc–M113.

Andresen, C. A., Smedegaard, S., Sylvestersen, K. B., Svensson, C., Iglesias-Gato, D., Cazza- mali, G., Nielsen, T. K., Nielsen, M. L., and Flores-Morales, A. (2014). Protein interaction screening for the ankyrin repeats and suppressor of cytokine signaling (socs) box (asb) fa- mily identify asb11 as a novel endoplasmic reticulum resident ubiquitin ligase. Journal of Biological Chemistry, 289(4):2043–2054. 188 Bibliograf´ıa

Annibali, V., Ristori, G., Angelini, D. F., Serafini, B., Mechelli, R., Cannoni, S., Romano, S., Paolillo, A., Abderrahim, H., Diamantini, A., et al. (2011). Cd161highcd8+ t cells bear pathogenetic potential in multiple sclerosis. Brain, 134(2):542–554.

Aoki, Y., Okamura, Y., Ohta, H., Kinoshita, K., and Obayashi, T. (2015). Alcodb: Gene coexpression database for microalgae. Plant and Cell Physiology, 57(1):e3–e3.

Arion, D., Horv´ath,S., Lewis, D. A., and Mirnics, K. (2010). Infragranular gene expres- sion disturbances in the prefrontal cortex in schizophrenia: Signature of altered neural development? Neurobiology of disease, 37(3):738–746.

AT Nijholt, D., De Kimpe, L., L Elfrink, H., JM Hoozemans, J., and Scheper, W. (2011). Re- moving protein aggregates: the role of proteolysis in neurodegeneration. Current medicinal chemistry, 18(16):2459–2476.

Aung, L. L., Brooks, A., Greenberg, S. A., Rosenberg, M. L., Dhib-Jalbut, S., and Balashov, K. E. (2012). Multiple sclerosis-linked and interferon-beta-regulated gene expression in plasmacytoid dendritic cells. Journal of neuroimmunology, 250(1):99–105.

Avsar, T., Durası, I.˙ M., Uyguno˘glu,U., T¨ut¨unc¨u,M., Demirci, N. O., Saip, S., Sezerman, O. U., Siva, A., and Turanlı, E. T. (2015). Csf proteomics identifies specific and shared pathways for multiple sclerosis clinical subtypes. PloS one, 10(5):e0122045.

Ay, F., Dang, M., and Kahveci, T. (2012). Metabolic network alignment in large scale by network compression. BMC bioinformatics, 13(3):S2.

Bader, G. D., Betel, D., and Hogue, C. W. (2003). Bind: the biomolecular interaction network database. Nucleic acids research, 31(1):248–250.

Bader, G. D. and Hogue, C. W. (2003). An automated method for finding molecular com- plexes in large protein interaction networks. BMC bioinformatics, 4(1):2.

Baker, E., Culpepper, C., Philips, C., Bubier, J., Langston, M., and Chesler, E. J. (2014). Identifying common components across biological network graphs using a bipartite data model. In BMC proceedings, volume 8, page S4. BioMed Central.

Ballouz, S., Verleyen, W., and Gillis, J. (2015). Guidance for rna-seq co-expression network construction and analysis: safety in numbers. Bioinformatics, 31(13):2123–2130.

Barab´asi,A.-L., Gulbahce, N., and Loscalzo, J. (2010). Network medicine: a network-based approach to human disease. Nature reviews genetics, 12(1):nrg2918.

Barabasi, A.-L. and Oltvai, Z. N. (2004). Network biology: understanding the cell’s functional organization. Nature reviews genetics, 5(2):101–113. Bibliograf´ıa 189

Baranzini, S. E. (2009). The genetics of autoimmune diseases: a networked perspective. Current opinion in immunology, 21(6):596–605.

Baranzini, S. E., Galwey, N. W., Wang, J., Khankhanian, P., Lindberg, R., Pelletier, D., Wu, W., Uitdehaag, B. M., Kappos, L., Consortium, G., et al. (2009). Pathway and network- based analysis of genome-wide association studies in multiple sclerosis. Human molecular genetics, 18(11):2078–2090.

Barnes, M. R., Huxley-Jones, J., Maycox, P. R., Lennon, M., Thornber, A., Kelly, F., Bates, S., Taylor, A., Reid, J., Jones, N., et al. (2011). Transcription and pathway analysis of the superior temporal cortex and anterior prefrontal cortex in schizophrenia. Journal of neuroscience research, 89(8):1218–1227.

Barr, A. J., Ugochukwu, E., Lee, W. H., King, O. N., Filippakopoulos, P., Alfano, I., Savitsky, P., Burgess-Brown, N. A., M¨uller,S., and Knapp, S. (2009). Large-scale structural analysis of the classical human protein tyrosine phosphatome. Cell, 136(2):352–363.

Barrett, T., Wilhite, S. E., Ledoux, P., Evangelista, C., Kim, I. F., Tomashevsky, M., Mars- hall, K. A., Phillippy, K. H., Sherman, P. M., Holko, M., et al. (2012). Ncbi geo: archive for functional genomics data sets—update. Nucleic acids research, 41(D1):D991–D995.

Barrios-Rodiles, M., Brown, K. R., Ozdamar, B., Bose, R., Liu, Z., Donovan, R. S., Shinjo, F., Liu, Y., Dembowy, J., Taylor, I. W., et al. (2005). High-throughput mapping of a dynamic signaling network in mammalian cells. Science, 307(5715):1621–1625.

Bassett, A. S. (2011). Parental origin, dna structure, and the schizophrenia spectrum.

Behrends, C., Sowa, M. E., Gygi, S. P., and Harper, J. W. (2010). Network organization of the human autophagy system. Nature, 466(7302):68–76.

Belluzzi, E., Greggio, E., and Piccoli, G. (2012). Presynaptic dysfunction in parkinson’s disease: a focus on lrrk2.

Ben-Hur, A. and Noble, W. S. (2005). Kernel methods for predicting protein–protein inter- actions. Bioinformatics, 21(suppl 1):i38–i46.

Ben-Menahem, D., Hyde, R., Pixley, M., Berger, P., and Boime, I. (1999). Synthesis of multi-subunit domain gonadotropin complexes: A model for α/β heterodimer formation. Biochemistry, 38(46):15070–15077.

Benkert, T. F., Dietz, L., Hartmann, E. M., Leich, E., Rosenwald, A., Serfling, E., Buttmann, M., and Berberich-Siebelt, F. (2012). Natalizumab exerts direct signaling capacity and supports a pro-inflammatory phenotype in some patients with multiple sclerosis. PLoS One, 7(12):e52208. 190 Bibliograf´ıa

Bennett, J. and Keeney, P. (2017). Micro rna’s (mirna’s) may help explain expression of mul- tiple genes in alzheimer’s frontal cortex. Journal of Systems and Integrative Neuroscience, 3(5).

Berchtold, N. C., Coleman, P. D., Cribbs, D. H., Rogers, J., Gillen, D. L., and Cotman, C. W. (2013). Synaptic genes are extensively downregulated across multiple brain regions in normal human aging and alzheimer’s disease. Neurobiology of aging, 34(6):1653–1661.

Bhat, K. P., Yan, S., Wang, C.-E., Li, S., and Li, X.-J. (2014). Differential ubiquitina- tion and degradation of huntingtin fragments modulated by ubiquitin-protein ligase e3a. Proceedings of the National Academy of Sciences, 111(15):5706–5711.

Blalock, E. M., Buechel, H. M., Popovic, J., Geddes, J. W., and Landfield, P. W. (2011). Microarray analyses of laser-captured hippocampus reveal distinct gray and white matter signatures associated with incipient alzheimer’s disease. Journal of chemical neuroana- tomy, 42(2):118–126.

Boccaletti, S., Bianconi, G., Criado, R., Del Genio, C. I., G´omez-Gardenes,J., Romance, M., Sendina-Nadal, I., Wang, Z., and Zanin, M. (2014). The structure and dynamics of multilayer networks. Physics Reports, 544(1):1–122.

Bolstad, B. M., Irizarry, R. A., Astrand,˚ M., and Speed, T. P. (2003). A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics, 19(2):185–193.

Bose, B. (2013). Systems biology: A biologist’s viewpoint. Progress in biophysics and mole- cular biology, 113(3):358–368.

Bousquet-Dubouch, M.-P., Baudelet, E., Gu´erin,F., Matondo, M., Uttenweiler-Joseph, S., Burlet-Schiltz, O., and Monsarrat, B. (2009). Affinity purification strategy to capture human endogenous proteasome complexes diversity and to identify proteasome-interacting proteins. Molecular & Cellular Proteomics, 8(5):1150–1164.

Bouter, Y., Kacprowski, T., Weissmann, R., Dietrich, K., Borgers, H., Brauß, A., Sperling, C., Wirths, O., Albrecht, M., Jensen, L. R., et al. (2014). Deciphering the molecular profile of plaques, memory decline and neuron loss in two mouse models for alzheimer’s disease by deep sequencing. Frontiers in aging neuroscience, 6.

Bouwmeester, T., Bauch, A., Ruffner, H., Angrand, P.-O., Bergamini, G., Croughton, K., Cruciat, C., Eberhard, D., Gagneur, J., Ghidelli, S., et al. (2004). A physical and functional map of the human tnf-α/nf-κb signal transduction pathway. Nature cell biology, 6(2):97– 105. Bibliograf´ıa 191

Brandon, S. D. and Masaracchia, R. (1991). Multisite phosphorylation of a synthetic peptide derived from the carboxyl terminus of the ribosomal protein s6. Journal of Biological Chemistry, 266(1):380–385.

Broido, A. D. and Clauset, A. (2018). Scale-free networks are rare. arXiv preprint ar- Xiv:1801.03400.

Br¨uckner, A., Polge, C., Lentze, N., Auerbach, D., and Schlattner, U. (2009). Yeast two- hybrid, a powerful tool for systems biology. International journal of molecular sciences, 10(6):2763–2788.

Bruckner, S., H¨uffner,F., Karp, R. M., Shamir, R., and Sharan, R. (2010). Topology-free querying of protein interaction networks. Journal of computational biology, 17(3):237–252.

Bunke, H. (2000). Graph matching: Theoretical foundations, algorithms, and applications. In Proc. Vision Interface, volume 2000, pages 82–88.

Buschman, M. D., Xing, M., and Field, S. J. (2015). The golph3 pathway regulates golgi shape and function and is activated by dna damage. Frontiers in neuroscience, 9.

Cacabelos, R. and Torrellas, C. (2015). Epigenetics of aging and alzheimer’s disease: Im- plications for pharmacogenomics and drug response. International journal of molecular sciences, 16(12):30483–30543.

Cameron, B. and Landreth, G. E. (2010). Inflammation, microglia, and alzheimer’s disease. Neurobiology of disease, 37(3):503–509.

Cami˜na-Tato, M., Morcillo-Su´arez,C., Bustamante, M. F., Ortega, I., Navarro, A., Mun- tasell, A., L´opez-Botet, M., S´anchez, A., Carmona, P., Juli`a,E., et al. (2010). Gender- associated differences of perforin polymorphisms in the susceptibility to multiple sclerosis. The Journal of Immunology, page 1000102.

Cao, Q., Wang, X., Zhao, M., Yang, R., Malik, R., Qiao, Y., Poliakov, A., Cao, X., Harris, C., Feng, F. Y., et al. (2014). The central role of eed in the orchestration of polycomb group complexes. Nature Communications, 3127(5).

Capurro, A., Bodea, L.-G., Schaefer, P., Luthi-Carter, R., and Perreau, V. M. (2015). Compu- tational deconvolution of genome wide expression data from parkinson’s and huntington’s disease brain tissues using population-specific expression analysis. Frontiers in neuros- cience, 8:441.

Cha, M.-Y., Kim, D. K., and Mook-Jung, I. (2015). The role of mitochondrial dna mutation on neurodegenerative diseases. Experimental & molecular medicine, 47(3):e150. 192 Bibliograf´ıa

Chai, L. E., Loh, S. K., Low, S. T., Mohamad, M. S., Deris, S., and Zakaria, Z. (2014). A review on the computational approaches for gene regulatory network construction. Com- puters in biology and medicine, 48:55–65.

Chalmers, D. J. (2006). Strong and weak emergence. The reemergence of emergence, pages 244–256.

Chan, J. Y.-H., Hsieh, T.-Y., Liu, S.-T., Chou, W.-Y., Chung, M.-H., and Huang, S.-M. (2009). Physical and functional interactions between hnrnp k and prmt family proteins. FEBS letters, 583(2):281–286.

Chandrasekaran, S. and Bonchev, D. (2013). A network view on parkinson’s disease. Compu- tational and structural biotechnology journal, 7(8):1–18.

Chandrasekaran, S. and Bonchev, D. (2016). Network topology analysis of post-mortem brain microarrays identifies more alzheimer’s related genes and micrornas and points to novel routes for fighting with the disease. PloS one, 11(1):e0144052.

Chen, B., Li, M., Wang, J., Shang, X., and Wu, F.-X. (2015). A fast and high performance multiple data integration algorithm for identifying human disease genes. BMC medical genomics, 8(3):S2.

Chen, C., Grennan, K., Badner, J., Zhang, D., Gershon, E., Jin, L., and Liu, C. (2011). Removing batch effects in analysis of expression microarray data: an evaluation of six batch adjustment methods. PloS one, 6(2):e17238.

Chen, X., Khambu, B., Zhang, H., Gao, W., Li, M., Chen, X., Yoshimori, T., and Yin, X.-M. (2014). Autophagy induced by calcium phosphate precipitates targets damaged endosomes. Journal of Biological Chemistry, 289(16):11162–11174.

Chitnis, T. and Weiner, H. L. (2017). Cns inflammation and neurodegeneration. The Journal of Clinical Investigation, 127(10):3577–3587.

Chuang, H.-Y., Hofree, M., and Ideker, T. (2010). A decade of systems biology. Annual review of cell and developmental biology, 26:721–744.

Chubukova, O., Mustafina, O., Chemeris, A., Tuktarova, I., Bakhtiiarova, K., Magzhanov, R., and Nikonorov, I. (2009). Polymorphism of the prion protein prnp gene and risk of multiple sclerosis development in ethnic russians from bashkortostan. Genetika, 45(5):691– 699.

Chung, S. J., Kim, M.-J., Kim, J., Ryu, H.-S., Kim, Y. J., Kim, S. Y., and Lee, J.-H. (2015). Association of type 2 diabetes gwas loci and the risk of parkinson’s and alzheimer’s diseases. Parkinsonism & related disorders, 21(12):1435–1440. Bibliograf´ıa 193

Ciccone, S., Maiani, E., Bellusci, G., Diederich, M., and Gonfloni, S. (2013). Parkinson’s disease: a complex interplay of mitochondrial dna alterations and oxidative stress. Inter- national journal of molecular sciences, 14(2):2388–2409.

Cimino, P. J., Sokal, I., Leverenz, J., Fukui, Y., and Montine, T. J. (2009). Dock2 is a microglial specific regulator of central nervous system innate immunity found in normal and alzheimer’s disease brain. The American journal of pathology, 175(4):1622–1630.

Close, P., East, P., Dirac-Svejstrup, A. B., Hartmann, H., Heron, M., Maslen, S., Chariot, A., S¨oding,J., Skehel, M., and Svejstrup, J. Q. (2012). Dbird complex integrates alternative mrna splicing with rna polymerase ii transcript elongation. Nature, 484(7394):386–389.

Conesa, A., Madrigal, P., Tarazona, S., Gomez-Cabrero, D., Cervera, A., McPherson, A., Szcze´sniak,M. W., Gaffney, D. J., Elo, L. L., Zhang, X., et al. (2016). A survey of best practices for rna-seq data analysis. Genome biology, 17(1):13.

Cornejo, V. H. and Hetz, C. (2013). The unfolded protein response in alzheimer’s disease. In Seminars in immunopathology, volume 35, pages 277–292. Springer.

Cortegano, I., Pozo, V. d., C´ardaba, B., Arrieta, I., Gallardo, S., Rojo, M., Aceituno, E., Takai, T., Verbeek, S., Palomino, P., et al. (2000). Interaction between galectin-3 and fcγrii induces down-regulation of il-5 gene: implication of the promoter sequence il-5reiii. Glycobiology, 10(3):237–242.

Corvol, J.-C., Pelletier, D., Henry, R. G., Caillier, S. J., Wang, J., Pappas, D., Casazza, S., Okuda, D. T., Hauser, S. L., Oksenberg, J. R., et al. (2008). Abrogation of t cell quiescence characterizes patients at high risk for multiple sclerosis after the initial neurological event. Proceedings of the National Academy of Sciences, 105(33):11839–11844.

Courchet, J., Buchet-Poyau, K., Potemski, A., Br`es,A., Jariel-Encontre, I., and Billaud, M. (2008). Interaction with 14-3-3 adaptors regulates the sorting of hmex-3b rna-binding protein to distinct classes of rna granules. Journal of Biological Chemistry, 283(46):32131– 32142.

Cowley, M. J., Pinese, M., Kassahn, K. S., Waddell, N., Pearson, J. V., Grimmond, S. M., Biankin, A. V., Hautaniemi, S., and Wu, J. (2011). Pina v2. 0: mining interactome mo- dules. Nucleic acids research, 40(D1):D862–D865.

Craig, R. A. and Liao, L. (2007). Phylogenetic tree information aids supervised learning for predicting protein-protein interaction based on distance matrices. Bmc Bioinformatics, 8(1):6.

Croft, D., O’Kelly, G., Wu, G., Haw, R., Gillespie, M., Matthews, L., Caudy, M., Garapati, P., Gopinath, G., Jassal, B., et al. (2010). Reactome: a database of reactions, pathways and biological processes. Nucleic acids research, 39(suppl 1):D691–D697. 194 Bibliograf´ıa

Csardi, G. and Nepusz, T. (2006). The igraph software package for complex network research. InterJournal, Complex Systems:1695.

Cunningham, F., Amode, M. R., Barrell, D., Beal, K., Billis, K., Brent, S., Carvalho-Silva, D., Clapham, P., Coates, G., Fitzgerald, S., et al. (2014). Ensembl 2015. Nucleic acids research, 43(D1):D662–D669.

Cunningham, S., Patterson, C., McDonnell, G., Hawkins, S., and Vandenbroeck, K. (2005). Haplotype analysis of the preprotachykinin-1 (tac1) gene in multiple sclerosis. Genes and immunity, 6(3):265–270.

Dai, Q., Choy, E., Chiu, V., Romano, J., Slivka, S. R., Steitz, S. A., Michaelis, S., and Philips, M. R. (1998). Mammalian prenylcysteine carboxyl methyltransferase is in the endoplasmic reticulum. Journal of Biological Chemistry, 273(24):15030–15034.

Darby, M., Yolken, R., and Sabunciyan, S. (2016). Consistently altered expression of gene sets in postmortem brains of individuals with major psychiatric disorders. Translational psychiatry, 6(9):e890.

Darrason, M. (2015). Mechanistic and topological explanations in medicine: the case of medical genetics and network medicine. Synthese, pages 1–27.

Dasdemir, S., Kucukali, C. I., Bireller, E. S., Tuzun, E., and Cakmakoglu, B. (2016). Che- mokine gene variants in schizophrenia. Nordic journal of psychiatry, 70(6):407–412.

De Lau, L. M. and Breteler, M. M. (2006). Epidemiology of parkinson’s disease. The Lancet Neurology, 5(6):525–535.

Dehmer, M. and Emmert-Streib, F. (2007). Structural similarity of directed universal hie- rarchical graphs: A low computational complexity approach. Applied Mathematics and Computation, 194(1):7–20.

Deng, W., Garrett, C., Dombert, B., Soura, V., Banks, G., Fisher, E. M., van der Brug, M. P., and Hafezparast, M. (2010). Neurodegenerative mutation in cytoplasmic dynein alters its organization and dynein-dynactin and dynein-kinesin interactions. Journal of Biological Chemistry, 285(51):39922–39934.

Dev, K. K. and Henley, J. M. (2006). The schizophrenic faces of pick1. Trends in pharma- cological sciences, 27(11):574–579.

Devine, M. J., Ryten, M., Vodicka, P., Thomson, A. J., Burdon, T., Houlden, H., Cavaleri, F., Nagano, M., Drummond, N. J., Taanman, J.-W., et al. (2011). Parkinson’s disease induced pluripotent stem cells with triplication of the α-synuclein locus. Nature communications, 2:440. Bibliograf´ıa 195

Di, Y., Li, J., Zhang, Y., He, X., Lu, H., Xu, D., Ling, J., Huo, K., Wan, D., Li, Y.-Y., et al. (2003). Hcc-associated protein hcap1, a variant of gemin4, interacts with zinc-finger proteins. The Journal of Biochemistry, 133(6):713–718.

Diao, H., Li, X., Hu, S., and Liu, Y. (2012). Gene expression profiling combined with bioinformatics analysis identify biomarkers for parkinson disease. PloS one, 7(12):e52319.

Diederichs, S., B¨aumer,N., Ji, P., Metzelder, S. K., Idos, G. E., Cauvet, T., Wang, W., M¨oller, M., Pierschalski, S., Gromoll, J., et al. (2004). Identification of interaction partners and substrates of the cyclin a1-cdk2 complex. Journal of Biological Chemistry, 279(32):33727– 33741.

Dijkstra, A. A., Ingrassia, A., de Menezes, R. X., van Kesteren, R. E., Rozemuller, A. J., Heutink, P., and van de Berg, W. D. (2015). Evidence for immune response, axonal dysfunction and reduced endocytosis in the substantia nigra in early stage parkinson’s disease. PloS one, 10(6):e0128651.

Dou, Y., Milne, T. A., Tackett, A. J., Smith, E. R., Fukuda, A., Wysocka, J., Allis, C. D., Chait, B. T., Hess, J. L., and Roeder, R. G. (2005). Physical association and coordinate function of the h3 k4 methyltransferase mll1 and the h4 k16 acetyltransferase mof. Cell, 121(6):873–885.

Douw, L., Schoonheim, M., Landi, D., Van der Meer, M., Geurts, J., Reijneveld, J., Klein, M., and Stam, C. (2011). Cognition is related to resting-state small-world network topology: an magnetoencephalographic study. Neuroscience, 175:169–177.

Dudoit, S., Yang, Y. H., Callow, M. J., and Speed, T. P. (2002). Statistical methods for iden- tifying differentially expressed genes in replicated cdna microarray experiments. Statistica sinica, pages 111–139.

Durmu¸s, S., C¸akır, T., Ozg¨ur,A.,¨ and Guthke, R. (2015). A review on computational systems biology of pathogen–host interactions. Frontiers in microbiology, 6.

Eddy, S. R. (2012). The c-value paradox, junk dna and encode. Current biology, 22(21):R898– R899.

Edwards, L. M. (2017). Metabolic systems biology: a brief primer. The Journal of physiology, 595(9):2849–2855.

El Hajj, N., Dittrich, M., and Haaf, T. (2017). Epigenetic dysregulation of protocadherins in human disease. In Seminars in cell & developmental biology.

Elo, L. L., J¨arvenp¨a¨a,H., Oreˇsiˇc,M., Lahesmaa, R., and Aittokallio, T. (2007). Systema- tic construction of gene coexpression networks with applications to human t helper cell differentiation process. Bioinformatics, 23(16):2096–2103. 196 Bibliograf´ıa

Eloundou-Mbebi, J. M., K¨uken, A., Omranian, N., Kleessen, S., Neigenfind, J., Basler, G., and Nikoloski, Z. (2016). A network property necessary for concentration robustness. Nature communications, 7.

Emmert-Streib, F. and Dehmer, M. (2015). Biological networks: the microscope of the twenty-first century? Frontiers in genetics, 6.

Engmann, O., Hortobagyi, T., Pidsley, R., Troakes, C., Bernstein, H.-G., Kreutz, M. R., Mill, J., Nikolic, M., and Giese, K. P. (2011). Schizophrenia is associated with dysregula- tion of a cdk5 activator that regulates synaptic protein expression and cognition. Brain, 134(8):2408–2421.

Erkkinen, M. G., Kim, M.-O., and Geschwind, M. D. (2017). Clinical neurology and epi- demiology of the major neurodegenerative diseases. Cold Spring Harbor Perspectives in Biology, page a033118.

Estrada, E. (2006). Network robustness to targeted attacks. the interplay of expansibility and degree distribution. The European Physical Journal B-Condensed Matter and Complex Systems, 52(4):563–574.

Expert, P., Evans, T. S., Blondel, V. D., and Lambiotte, R. (2011). Uncovering space- independent communities in spatial networks. Proceedings of the National Academy of Sciences, 108(19):7663–7668.

Fardin, P., Moretti, S., Biasotti, B., Ricciardi, A., Bonassi, S., and Varesio, L. (2007). Norma- lization of low-density microarray using external spike-in controls: analysis of macrophage cell lines expression profile. BMC genomics, 8(1):17.

Feng, X., Wu, C., Burton, F., Loh, H., and Wei, L. (2014). β-arrestin protects neurons by me- diating endogenous opioid arrest of inflammatory microglia. Cell Death & Differentiation, 21(3):397–406.

Fern´andez,J. M., Hoffmann, R., and Valencia, A. (2007). ihop web services. Nucleic acids research, 35(suppl 2):W21–W26.

Filatova, E., Shadrina, M., Alieva, A. K., Kolacheva, A., Slominsky, P., and Ugrumov, M. (2014). Expression analysis of genes of ubiquitin-proteasome protein degradation system in mptp-induced mice models of early stages of parkinson’s disease. In Doklady Biochemistry and Biophysics, volume 456, pages 116–118. Springer.

Fionda, V. (2011). Biological network analysis and comparison: mining new biological know- ledge. Central European Journal of Computer Science, 1(2):185–193.

Fionda, V. and Palopoli, L. (2011). Biological network querying techniques: analysis and comparison. Journal of Computational Biology, 18(4):595–625. Bibliograf´ıa 197

Fogeron, M.-L., M¨uller,H., Schade, S., Dreher, F., Lehmann, V., K¨uhnel,A., Scholz, A.-K., Kashofer, K., Zerck, A., Fauler, B., et al. (2013). Lgals3bp regulates centriole biogenesis and centrosome hypertrophy in cancer cells. Nature communications, 4:ncomms2517.

Fong, S. S. and Palsson, B. Ø. (2004). Metabolic gene–deletion strains of escherichia coli evolve to computationally predicted growth phenotypes. Nature genetics, 36(10):1056– 1058.

Freibaum, B. D., Chitta, R. K., High, A. A., and Taylor, J. P. (2010). Global analysis of tdp-43 interacting proteins reveals strong association with rna splicing and translation machinery. Journal of proteome research, 9(2):1104–1120.

Freiberg, C. (2001). Novel computational methods in anti-microbial target identification. Drug Discovery Today, 6:72–80.

Freiesleben, S., Hecker, M., Zettl, U. K., Fuellen, G., and Taher, L. (2016). Analysis of microrna and gene expression profiles in multiple sclerosis: Integrating interaction data to uncover regulatory mechanisms. Scientific reports, 6.

Fu, L. M. and Fu, K. A. (2015). Analysis of parkinson’s disease pathophysiology using an integrated genomics-bioinformatics approach. Pathophysiology, 22(1):15–29.

Fukuda, M. and Mikoshiba, K. (2001). Characterization of kiaa1427 protein as an atypical synaptotagmin (syt xiii). Biochemical Journal, 354(2):249–257.

Fuller, H. R., Man, N. T., Lam, L. T., Thanh, L. T., Keough, R. A., Asperger, A., Gonda, T. J., and Morris, G. E. (2009). The smn interactome includes myb-binding protein 1a. Journal of proteome research, 9(1):556–563.

Gaiteri, C., Ding, Y., French, B., Tseng, G. C., and Sibille, E. (2014). Beyond modules and hubs: the potential of gene coexpression networks for investigating molecular mechanisms of complex brain disorders. Genes, Brain and Behavior, 13(1):13–24.

Gan, Y., Zheng, S., Baak, J. P., Zhao, S., Zheng, Y., Luo, N., Liao, W., and Fu, C. (2015). Prediction of the anti-inflammatory mechanisms of curcumin by module-based protein interaction network analysis. Acta Pharmaceutica Sinica B, 5(6):590–595.

Gao, K., Song, Z., Liang, H., Zheng, W., Deng, X., Yuan, Y., Zhao, Y., and Deng, H. (2014). Genetic analysis of the atp1b4 gene in chinese han patients with parkinson’s disease. Molecular biology reports, 41(4):2307–2311.

Garcia-Esparcia, P., Hern´andez-Ortega, K., Koneti, A., Gil, L., Delgado-Morales, R., Cas- ta˜no,E., Carmona, M., and Ferrer, I. (2015). Altered machinery of protein synthesis is region-and stage-dependent and is associated with α-synuclein oligomers in parkinson’s disease. Acta neuropathologica communications, 3(1):76. 198 Bibliograf´ıa

Gaulton, A., Bellis, L. J., Bento, A. P., Chambers, J., Davies, M., Hersey, A., Light, Y., McGlinchey, S., Michalovich, D., Al-Lazikani, B., et al. (2011). Chembl: a large-scale bioactivity database for drug discovery. Nucleic acids research, 40(D1):D1100–D1107.

Gautier, L., Cope, L., Bolstad, B. M., and Irizarry, R. A. (2004). affy—analysis of affymetrix genechip data at the probe level. Bioinformatics, 20(3):307–315.

Gennet, N., Tamburini, C., Nan, X., and Li, M. (2016). Folr1: a novel cell surface marker for isolating midbrain dopamine neural progenitors and nascent dopamine neurons. Scientific reports, 6:32488.

Gentleman, R., Carey, V., Huber, W., Irizarry, R., and Dudoit, S. (2006). Bioinformatics and computational biology solutions using R and Bioconductor. Springer Science & Business Media.

Geser, F., Robinson, J. L., Malunda, J. A., Xie, S. X., Clark, C. M., Kwong, L. K., Moberg, P. J., Moore, E. M., Van Deerlin, V. M., Lee, V. M.-Y., et al. (2010). Pathological 43- kda transactivation response dna-binding protein in older adults with and without severe mental illness. Archives of neurology, 67(10):1238–1250.

Ghiassian, S. D., Menche, J., and Barab´asi,A.-L. (2015). A disease module detection (dia- mond) algorithm derived from a systematic analysis of connectivity patterns of disease proteins in the human interactome. PLoS computational biology, 11(4):e1004120.

Gilabert-Juan, J., S´aez,A. R., Lopez-Campos, G., Sebasti´a-Ortega,N., Gonz´alez-Mart´ınez, R., Costa, J., Haro, J. M., Callado, L. F., Meana, J. J., Nacher, J., et al. (2015). Semaphorin and plexin gene expression is altered in the prefrontal cortex of schizophrenia patients with and without auditory hallucinations. Psychiatry research, 229(3):850–857.

Gillis, J. and Pavlidis, P. (2012). “guilt by association” is the exception rather than the rule in gene networks. PLoS computational biology, 8(3):e1002444.

Giorgi, F. M., Bolger, A. M., Lohse, M., and Usadel, B. (2010). Algorithm-driven artifacts in median polish summarization of microarray data. BMC bioinformatics, 11(1):553.

Giorgi, F. M., Del Fabbro, C., and Licausi, F. (2013). Comparative study of rna-seq- and microarray-derived coexpression networks in arabidopsis thaliana. Bioinformatics, 29(6):717–724.

Goh, K.-I. and Choi, I.-G. (2012). Exploring the human diseasome: the human disease network. Briefings in functional genomics, 11(6):533–542.

Goh, K.-I., Cusick, M. E., Valle, D., Childs, B., Vidal, M., and Barab´asi,A.-L. (2007). The human disease network. Proceedings of the National Academy of Sciences, 104(21):8685– 8690. Bibliograf´ıa 199

Golsteyn, R. M., Mundt, K. E., Fry, A. M., and Nigg, E. A. (1995). Cell cycle regulation of the activity and subcellular localization of plk1, a human protein kinase implicated in mitotic spindle function. The Journal of cell biology, 129(6):1617–1628.

Gomez-Bernal, G. (2008). Hereditary multiple exostoses and schizophrenia. Indian journal of human genetics, 14(2):65.

Gonzalez-Mantilla, A. J., Moreno-De-Luca, A., Ledbetter, D. H., and Martin, C. L. (2016). A cross-disorder method to identify novel candidate genes for developmental brain disorders. JAMA psychiatry, 73(3):275–283.

Green, S., S¸erban, M., Scholl, R., Jones, N., Brigandt, I., and Bechtel, W. (2017). Network analyses in systems biology: new strategies for dealing with biological complexity. Synthese, pages 1–27.

Grigoriev, A. (2001). A relationship between gene expression and protein interactions on the proteome scale: analysis of the bacteriophage t7 and the yeast saccharomyces cerevisiae. Nucleic acids research, 29(17):3513–3519.

Grozeva, D., Kirov, G., Ivanov, D., Jones, I. R., Jones, L., Green, E. K., St Clair, D. M., Young, A. H., Ferrier, N., Farmer, A. E., et al. (2010). Rare copy number variants: a point of rarity in genetic risk for bipolar disorder and schizophrenia. Archives of general psychiatry, 67(4):318–327.

Gu, J., Zhang, H., Chen, L., Xu, S., Yuan, G., and Xu, X. (2011). Drug–target network and polypharmacology studies of a traditional chinese medicine for type ii diabetes mellitus. Computational biology and chemistry, 35(5):293–297.

Guerau-de Arellano, M., Smith, K. M., Godlewski, J., Liu, Y., Winger, R., Lawler, S. E., Whitacre, C. C., Racke, M. K., and Lovett-Racke, A. E. (2011). Micro-rna dysregula- tion in multiple sclerosis favours pro-inflammatory t-cell-mediated autoimmunity. Brain, 134(12):3578–3589.

Guillozet-Bongaarts, A., Hyde, T., Dalley, R., Hawrylycz, M., Henry, A., Hof, P., Hohmann, J., Jones, A., Kuan, C., Royall, J., et al. (2014). Altered gene expression in the dorsolateral prefrontal cortex of individuals with schizophrenia. Molecular psychiatry, 19(4):478–485.

Guipponi, M., Santoni, F. A., Setola, V., Gehrig, C., Rotharmel, M., Cuenca, M., Guillin, O., Dikeos, D., Georgantopoulos, G., Papadimitriou, G., et al. (2014). Exome sequencing in 53 sporadic cases of schizophrenia identifies 18 putative candidate genes. PloS one, 9(11):e112745.

H¨abig,K., Walter, M., Stappert, H., Riess, O., and Bonin, M. (2009). Microarray expression analysis of human dopaminergic neuroblastoma cells after rna interference of snca—a key player in the pathogenesis of parkinson’s disease. Brain research, 1256:19–33. 200 Bibliograf´ıa

Haines, J. D., Vidaurre, O. G., Zhang, F., Riffo-Campos, A.´ L., Castillo, J., Casanova, B., Casaccia, P., and Lopez-Rodas, G. (2015). Multiple sclerosis patient-derived csf induces transcriptional changes in proliferating oligodendrocyte progenitors. Multiple Sclerosis Journal, 21(13):1655–1669.

Hall, D. A., Ptacek, J., and Snyder, M. (2007). Protein microarray technology. Mechanisms of ageing and development, 128(1):161–167.

Han, Z., Conley, S. M., Makkia, R. S., Cooper, M. J., and Naash, M. I. (2012). Dna nanoparticle-mediated abca4 delivery rescues stargardt dystrophy in mice. The Journal of clinical investigation, 122(9):3221.

Hao, D. and Li, C. (2011). The dichotomy in degree correlation of biological networks. PloS one, 6(12):e28322.

Hauri, S., Wepf, A., van Drogen, A., Varjosalo, M., Tapon, N., Aebersold, R., and Gstaiger, M. (2013). Interaction proteome of human hippo signaling: modular control of the co- activator yap1. Molecular systems biology, 9(1):713.

Hauser, M. A., Li, Y.-J., Xu, H., Noureddine, M. A., Shao, Y. S., Gullans, S. R., Scherzer, C. R., Jensen, R. V., McLaurin, A. C., Gibson, J. R., et al. (2005). Expression profiling of substantia nigra in parkinson disease, progressive supranuclear palsy, and frontotemporal dementia with parkinsonism. Archives of neurology, 62(6):917–921.

Havugimana, P. C., Hart, G. T., Nepusz, T., Yang, H., Turinsky, A. L., Li, Z., Wang, P. I., Boutz, D. R., Fong, V., Phanse, S., et al. (2012). A census of human soluble protein complexes. Cell, 150(5):1068–1081.

Hawi, Z., Mynett-Johnson, L., Gill, M., Murphy, V., Straubl, R., Kendler, K., Walsh, D., Machen, F., Connell, H., McKeon, P., et al. (1999). Pseudoautosomal gene: possible association with bipolar males but not with schizophreia. Psychiatric genetics, 9(3):129– 134.

Hecker, M., Lambeck, S., Toepfer, S., Van Someren, E., and Guthke, R. (2009). Gene regulatory network inference: data integration in dynamic models—a review. Biosystems, 96(1):86–103.

Hein, M. Y., Hubner, N. C., Poser, I., Cox, J., Nagaraj, N., Toyoda, Y., Gak, I. A., Weisswan- ge, I., Mansfeld, J., Buchholz, F., et al. (2015). A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell, 163(3):712–723.

Henry, C. S., DeJongh, M., Best, A. A., Frybarger, P. M., Linsay, B., and Stevens, R. L. (2010). High-throughput generation, optimization and analysis of genome-scale metabolic models. Nature biotechnology, 28(9):977–982. Bibliograf´ıa 201

Hidalgo, C. A., Blumm, N., Barab´asi,A.-L., and Christakis, N. A. (2009). A dynamic network approach for the study of human phenotypes. PLoS computational biology, 5(4):e1000353.

Hill, J., Hashimoto, T., and Lewis, D. (2006). Molecular mechanisms contributing to den- dritic spine alterations in the prefrontal cortex of subjects with schizophrenia. Molecular psychiatry, 11(6):557–566.

Hill, M. J., Donocik, J. G., Nuamah, R. A., Mein, C. A., Sainz-Fuertes, R., and Bray, N. J. (2014). Transcriptional consequences of schizophrenia candidate mir-137 manipulation in human neural progenitor cells. Schizophrenia research, 153(1):225–230.

Hirakawa, T., Galet, C., Kishi, M., and Ascoli, M. (2003). Gipc binds to the human lutropin receptor (hlhr) through an unusual pdz domain binding motif, and it regulates the sorting of the internalized human choriogonadotropin and the density of cell surface hlhr. Journal of Biological Chemistry, 278(49):49348–49357.

Hock, B., B¨ohme,B., Karn, T., Yamamoto, T., Kaibuchi, K., Holtrich, U., Holland, S., Pawson, T., R¨ubsamen-Waigmann, H., and Strebhardt, K. (1998). Pdz-domain-mediated interaction of the eph-related receptor tyrosine kinase ephb3 and the ras-binding protein af6 depends on the kinase activity of the receptor. Proceedings of the National Academy of Sciences, 95(17):9779–9784.

H¨ock, J., Weinmann, L., Ender, C., R¨udel,S., Kremmer, E., Raabe, M., Urlaub, H., and Meister, G. (2007). Proteomic and functional analysis of argonaute-containing mrna– protein complexes in human cells. EMBO reports, 8(11):1052–1060.

Hong, S., Chen, X., Jin, L., and Xiong, M. (2013). Canonical correlation analysis for rna-seq co-expression networks. Nucleic acids research, 41(8):e95–e95.

Hong, X., Xu, L.-G., Li, X., Zhai, Z., and Shu, H.-B. (2001). Csn3 interacts with ikkγ and inhibits tnf-but not il-1-induced nf-κb activation. FEBS letters, 499(1-2):133–136.

Horiuchi, Y., Kondo, M., Okada, K., Takayanagi, Y., Tanaka, T., Ho, T., Varvaris, M., Tajin- da, K., Hiyama, H., Ni, K., et al. (2016). Molecular signatures associated with cognitive deficits in schizophrenia: a study of biopsied olfactory neural epithelium. Translational psychiatry, 6(10):e915.

Hu, L., Huang, T., Liu, X.-J., and Cai, Y.-D. (2011). Predicting protein phenotypes based on protein-protein interaction network. PloS one, 6(3):e17668.

Hu, Y.-S., Xin, J., Hu, Y., Zhang, L., and Wang, J. (2017). Analyzing the genes related to alzheimer’s disease via a network and pathway-based approach. Alzheimer’s research & therapy, 9(1):29. 202 Bibliograf´ıa

Huang, D. W., Sherman, B. T., and Lempicki, R. A. (2009). Systematic and integrative analysis of large gene lists using david bioinformatics resources. Nature protocols, 4(1):44– 57.

Huang, W.-X., Huang, P., and Hillert, J. (2004). Increased expression of caspase-1 and interleukin-18 in peripheral blood mononuclear cells in patients with multiple sclerosis. Multiple Sclerosis Journal, 10(5):482–487.

Huber, W., Von Heydebreck, A., S¨ultmann,H., Poustka, A., and Vingron, M. (2002). Va- riance stabilization applied to microarray data calibration and to the quantification of differential expression. Bioinformatics, 18(suppl 1):S96–S104.

Huber, W., von Heydebreck, A., S¨ultmann,H., Poustka, A., and Vingron, M. (2003). Parame- ter estimation for the calibration and variance stabilization of microarray data. Statistical applications in genetics and molecular biology, 2(1).

Huerta, C., Alvarez,´ V., Mata, I. F., Coto, E., Ribacoba, R., Mart´ınez,C., Bl´azquez,M., Guisasola, L. M., Salvador, C., Lahoz, C. H., et al. (2004). Chemokines (rantes and mcp-1) and chemokine-receptors (ccr2 and ccr5) gene polymorphisms in alzheimer’s and parkinson’s disease. Neuroscience Letters, 370(2):151–154.

Hundehege, P., Epping, L., and Meuth, S. (2017). Calcium homeostasis in multiple sclerosis. Neurology International Open, 1(03):E127–E135.

Huttlin, E. L., Ting, L., Bruckner, R. J., Gebreab, F., Gygi, M. P., Szpyt, J., Tam, S., Zarraga, G., Colby, G., Baltier, K., et al. (2015). The bioplex network: a systematic exploration of the human interactome. Cell, 162(2):425–440.

Iancu, O. D., Colville, A., Oberbeck, D., Darakjian, P., McWeeney, S. K., and Hitzemann, R. (2015). Cosplicing network analysis of mammalian brain rna-seq data utilizing wgcna and mantel correlations. Frontiers in genetics, 6.

Ideker, T., Galitski, T., and Hood, L. (2001). A new approach to decoding life: systems biology. Annual review of genomics and human genetics, 2(1):343–372.

Iossifov, I., Zheng, T., Baron, M., Gilliam, T. C., and Rzhetsky, A. (2008). Genetic-linkage mapping of complex hereditary disorders to a whole-genome molecular-interaction net- work. Genome research, 18(7):1150–1162.

Irizarry, R. A., Hobbs, B., Collin, F., Beazer-Barclay, Y. D., Antonellis, K. J., Scherf, U., and Speed, T. P. (2003). Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics, 4(2):249–264. Bibliograf´ıa 203

Iwata, K., Matsuzaki, H., Manabe, T., and Mori, N. (2011). Altering the expression balance of hnrnp c1 and c2 changes the expression of myelination-related genes. Psychiatry research, 190(2):364–366.

Iwazaki, T., Shibata, I., Niwa, S.-I., and Matsumoto, I. (2004). Selective reduction of chro- mogranin a-like immunoreactivities in the prefrontal cortex of schizophrenic subjects: a postmortem study. Neuroscience letters, 367(3):293–297.

Jarman, N., Steur, E., Trengove, C., Tyukin, I. Y., and Leeuwen, C. (2017). Self-organisation of small-world networks by adaptive rewiring in response to graph diffusion. Scientific Reports, 7(1):13158.

Jern˚as,M., Malmestr¨om,C., Axelsson, M., Nookaew, I., Wadenvik, H., Lycke, J., and Olsson, B. (2013). Microrna regulate immune pathways in t-cells in multiple sclerosis (ms). BMC immunology, 14(1):32.

Jeronimo, C., Forget, D., Bouchard, A., Li, Q., Chua, G., Poitras, C., Th´erien,C., Bergeron, D., Bourassa, S., Greenblatt, J., et al. (2007). Systematic analysis of the protein interaction network for the human transcription machinery reveals the identity of the 7sk capping enzyme. Molecular cell, 27(2):262–274.

Jia, P. and Zhao, Z. (2011). Network-assisted causal gene detection in genome-wide asso- ciation studies: an improved module search algorithm. In Genomic Signal Processing and Statistics (GENSIPS), 2011 IEEE International Workshop on, pages 131–134. IEEE.

Jiang, J., Sun, X., Wu, W., Li, L., Wu, H., Zhang, L., Yu, G., and Li, Y. (2016). Construc- tion and application of a co-expression network in mycobacterium tuberculosis. Scientific reports, 6.

Jimenez-Sanchez, G., Childs, B., and Valle, D. (2001). Human disease genes. Nature, 409(6822):853–855.

Joch, M., Ase, A. R., Chen, C. X.-Q., MacDonald, P. A., Kontogiannea, M., Corera, A. T., Brice, A., S´egu´ela,P., and Fon, E. A. (2007). Parkin-mediated monoubiquitination of the pdz protein pick1 regulates the activity of acid-sensing ion channels. Molecular biology of the cell, 18(8):3105–3118.

Jones, J. L., Phuah, C.-L., Cox, A. L., Thompson, S. A., Ban, M., Shawcross, J., Walton, A., Sawcer, S. J., Compston, A., and Coles, A. J. (2009). Il-21 drives secondary autoimmu- nity in patients with multiple sclerosis, following therapeutic lymphocyte depletion with alemtuzumab (campath-1h). The Journal of clinical investigation, 119(7):2052.

K¨ahler,A. K., Djurovic, S., Kulle, B., J¨onsson,E. G., Agartz, I., Hall, H., Opjordsmoen, S., Jakobsen, K. D., Hansen, T., Melle, I., et al. (2008). Association analysis of schizophrenia 204 Bibliograf´ıa

on 18 genes involved in neuronal migration: Mdga1 as a new susceptibility gene. American Journal of Medical Genetics Part B: Neuropsychiatric Genetics, 147(7):1089–1100.

Kalaev, M., Smoot, M., Ideker, T., and Sharan, R. (2008). Networkblast: comparative analy- sis of protein networks. Bioinformatics, 24(4):594–596.

Kanehisa, M. (2002). The kegg database. silico simulation of biological processes, 247:91–103.

Kantarci, K., Avula, R., Senjem, M., Samikoglu, A., Zhang, B., Weigand, S., Przybelski, S., Edmonson, H. A., Vemuri, P., Knopman, D. S., et al. (2010). Dementia with lewy bodies and alzheimer disease neurodegenerative patterns characterized by dti. Neurology, 74(22):1814–1821.

K¨arkk¨ainen,S., Hiipakka, M., Wang, J.-H., Kleino, I., V¨ah¨a-Jaakkola, M., Renkema, G. H., Liss, M., Wagner, R., and Saksela, K. (2006). Identification of preferred protein interactions by phage-display of the human src homology-3 proteome. EMBO reports, 7(2):186–191.

Kashima, H. and Inokuchi, A. (2002). Kernels for graph classification. In ICDM Workshop on Active Mining, volume 2002.

Kedmi, M., Bar-Shira, A., Gurevich, T., Giladi, N., and Orr-Urtreger, A. (2011). Decrea- sed expression of b cell related genes in leukocytes of women with parkinson’s disease. Molecular neurodegeneration, 6(1):66.

Kelley, B. P., Yuan, B., Lewitter, F., Sharan, R., Stockwell, B. R., and Ideker, T. (2004). Pathblast: a tool for alignment of protein interaction networks. Nucleic acids research, 32(suppl 2):W83–W88.

Kemppinen, A., Kaprio, J., Palotie, A., and Saarela, J. (2011a). Systematic review of genome- wide expression studies in multiple sclerosis. BMJ open, pages bmjopen–2011.

Kemppinen, A., Sawcer, S., and Compston, A. (2011b). Genome-wide association studies in multiple sclerosis: lessons and future prospects. Briefings in functional genomics, 10(2):61– 70.

Kim, J. Y., Lee, H., Woo, J., Yue, W., Kim, K., Choi, S., Jang, J.-J., Kim, Y., Park, I. A., Han, D., et al. (2017). Reconstruction of pathway modification induced by nicotinamide using multi-omic network analyses in triple negative breast cancer. Scientific Reports, 7(1):3466.

Kishi, T., Fukuo, Y., Okochi, T., Kawashima, K., Kitajima, T., Inada, T., Ozaki, N., Musso, G. M., Kane, J. M., Correll, C. U., et al. (2012). Serotonin 6 receptor gene and schizoph- renia: case-control study and meta-analysis. Human Psychopharmacology: Clinical and Experimental, 27(1):63–69. Bibliograf´ıa 205

Kitano, H. (2002). Systems biology: a brief overview. Science, 295(5560):1662–1664.

Kohl, P., Crampin, E. J., Quinn, T., and Noble, D. (2010). Systems biology: an approach. Clinical Pharmacology & Therapeutics, 88(1):25–33.

K¨ohler,S., Bauer, S., Horn, D., and Robinson, P. N. (2008). Walking the interactome for prioritization of candidate disease genes. The American Journal of Human Genetics, 82(4):949–958.

Kolitz, S., Hasson, T., Towfic, F., Funt, J. M., Bakshi, S., Fowler, K. D., Laifenfeld, D., Grinspan, A., Artyomov, M. N., Birnberg, T., et al. (2015). Gene expression studies of a human monocyte cell line identify dissimilarities between differently manufactured glatiramoids. Scientific reports, 5.

Kooi, E.-J., Prins, M., Bajic, N., Beli¨en,J. A., Gerritsen, W. H., van Horssen, J., Aronica, E., van Dam, A.-M., Hoozemans, J. J., Francis, P. T., et al. (2011). Cholinergic imbalance in the multiple sclerosis hippocampus. Acta neuropathologica, 122(3):313–322.

Kovacs, G. G. (2014). Current concepts of neurodegenerative diseases. EMJ Neurol, 1:78–86.

Kovacs, G. G., Botond, G., and Budka, H. (2010). Protein coding of neurodegenerative dementias: the neuropathological basis of biomarker diagnostics. Acta neuropathologica, 119(4):389–408.

Krick, R., Aschrafi, A., Hasg¨un,D., and Arnemann, J. (2006). Ck2-dependent c-terminal phosphorylation at t 300 directs the nuclear transport of tspy protein. Biochemical and biophysical research communications, 341(2):343–350.

Kristensen, A. R., Gsponer, J., and Foster, L. J. (2012). A high-throughput approach for measuring temporal changes in the interactome. Nature methods, 9(9):907–909.

Kuchaiev, O., Milenkovi´c,T., Memiˇsevi´c,V., Hayes, W., and Prˇzulj,N. (2010). Topologi- cal network alignment uncovers biological function and phylogeny. Journal of the Royal Society Interface, page rsif20100063.

Kuchaiev, O. and Prˇzulj,N. (2011). Integrative network alignment reveals large regions of global network similarity in yeast and human. Bioinformatics, 27(10):1390–1396.

Kugler, K. G., Mueller, L. A., Graber, A., and Dehmer, M. (2011). Integrative network biology: graph prototyping for co-expression cancer networks. PLoS One, 6(7):e22843.

Kuhn, M., Szklarczyk, D., Pletscher-Frankild, S., Blicher, T. H., Von Mering, C., Jensen, L. J., and Bork, P. (2013). Stitch 4: integration of protein–chemical interactions with user data. Nucleic acids research, 42(D1):D401–D407. 206 Bibliograf´ıa

Kuleshov, M. V., Jones, M. R., Rouillard, A. D., Fernandez, N. F., Duan, Q., Wang, Z., Koplev, S., Jenkins, S. L., Jagodnik, K. M., Lachmann, A., et al. (2016). Enrichr: a com- prehensive gene set enrichment analysis web server 2016 update. Nucleic acids research, 44(W1):W90–W97.

Labandeira-Garcia, J. L., Rodr´ıguez-Perez, A. I., Villar-Cheda, B., Borrajo, A., Dominguez- Meijide, A., and Guerra, M. J. (2015). Rho kinase and dopaminergic degeneration: a promising therapeutic target for parkinson’s disease. The Neuroscientist, 21(6):616–629.

Laezza, F., Wilding, T. J., Sequeira, S., Craig, A. M., and Huettner, J. E. (2008). The btb/kelch protein, krip6, modulates the interaction of pick1 with glur6 kainate receptors. Neuropharmacology, 55(7):1131–1139.

Lange, J., Lunde, K. A., Sletten, C., Møller, S. G., Tysnes, O.-B., Alves, G., Larsen, J. P., and Maple-Grødem, J. (2015). Association of a bace1 gene polymorphism with parkinson’s disease in a norwegian population. Parkinson’s Disease, 2015.

Langfelder, P. and Horvath, S. (2008). Wgcna: an r package for weighted correlation network analysis. BMC bioinformatics, 9(1):559.

Lanz, T. A., Joshi, J. J., Reinhart, V., Johnson, K., Grantham II, L. E., and Volfson, D. (2015). Step levels are unchanged in pre-frontal cortex and associative striatum in post- mortem human brain samples from subjects with schizophrenia, bipolar disorder and major depressive disorder. PloS one, 10(3):e0121744.

Lanzetti, L., Palamidessi, A., Areces, L., Scita, G., and Di Fiore, P. P. (2004). Rab5 is a signalling gtpase involved in actin remodelling by receptor tyrosine kinases. Nature, 429(6989):309–314.

Leal, L. G., L´opez, C., and L´opez-Kleine, L. (2014). Construction and comparison of gene co-expression networks shows complex plant immune responses. PeerJ, 2:e610.

Lee, D.-S., Burd, H., Liu, J., Almaas, E., Wiest, O., Barab´asi,A.-L., Oltvai, Z. N., and Kapatral, V. (2009). Comparative genome-scale metabolic reconstruction and flux balan- ce analysis of multiple staphylococcus aureus genomes identify novel antimicrobial drug targets. Journal of bacteriology, 191(12):4015–4024.

Lee, D.-S., Park, J., Kay, K., Christakis, N., Oltvai, Z., and Barab´asi,A.-L. (2008a). The implications of human metabolic network topology for disease comorbidity. Proceedings of the National Academy of Sciences, 105(29):9880–9885.

Lee, J.-Y., Ahn, J., Kim, T. W., and Jeon, B. S. (2014a). Optical coherence tomography in parkinson’s disease: is the retina a biomarker? Journal of Parkinson’s disease, 4(2):197– 204. Bibliograf´ıa 207

Lee, S.-A., Chan, C.-h., Tsai, C.-H., Lai, J.-M., Wang, F.-S., Kao, C.-Y., and Huang, C.- Y. F. (2008b). Ortholog-based protein-protein interaction prediction and its application to inter-species interactions. BMC bioinformatics, 9(12):S11.

Lee, S.-A., Tsao, T. T.-H., Yang, K.-C., Lin, H., Kuo, Y.-L., Hsu, C.-H., Lee, W.-K., Huang, K.-C., and Kao, C.-Y. (2011a). Construction and analysis of the protein-protein interaction networks for schizophrenia, bipolar disorder, and major depression. BMC bioinformatics, 12(13):S20.

Lee, S. E., Rabinovici, G. D., Mayo, M. C., Wilson, S. M., Seeley, W. W., DeArmond, S. J., Huang, E. J., Trojanowski, J. Q., Growdon, M. E., Jang, J. Y., et al. (2011b). Clinicopat- hological correlations in corticobasal degeneration. Annals of neurology, 70(2):327–340.

Lee, S. H., Stehlik, C., and Reed, J. C. (2001). Cop, a caspase recruitment domain-containing protein and inhibitor of caspase-1 activation processing. Journal of Biological Chemistry, 276(37):34495–34500.

Lee, Y., Kang, H. C., Lee, B. D., Lee, Y.-I., Kim, Y. P., and Shin, J.-H. (2014b). Poly (adp-ribose) in the pathogenesis of parkinson’s disease. BMB reports, 47(8):424.

Lesnick, T. G., Papapetropoulos, S., Mash, D. C., Ffrench-Mullen, J., Shehadeh, L., De An- drade, M., Henley, J. R., Rocca, W. A., Ahlskog, J. E., and Maraganore, D. M. (2007). A genomic pathway approach to a complex disease: axon guidance and parkinson disease. PLoS genetics, 3(6):e98.

Levchenko, A., Davtian, S., Freylichman, O., Zagrivnaya, M., Kostareva, A., and Malas- hichev, Y. (2015). Beta-catenin in schizophrenia: possibly deleterious novel mutation. Psychiatry research, 228(3):843–848.

Li, J. and Bushel, P. R. (2016). Epig-seq: extracting patterns and identifying co-expressed genes from rna-seq data. BMC genomics, 17(1):255.

Li, X., Wang, W., Wang, J., Malovannaya, A., Xi, Y., Li, W., Guerra, R., Hawke, D. H., Qin, J., and Chen, J. (2015a). Proteomic analyses reveal distinct chromatin-associated and soluble transcription factor complexes. Molecular systems biology, 11(1):775.

Li, Y., Camarillo, C., Xu, J., Arana, T. B., Xiao, Y., Zhao, Z., Chen, H., Ramirez, M., Zavala, J., Escamilla, M. A., et al. (2015b). Genome-wide methylome analyses reveal novel epigenetic regulation patterns in schizophrenia and bipolar disorder. BioMed research international, 2015.

Li, Z., Wang, R.-S., and Zhang, X.-S. (2011). Two-stage flux balance analysis of metabolic networks for drug target identification. BMC systems biology, 5(1):S11. 208 Bibliograf´ıa

Liang, M., Melchior, F., Feng, X.-H., and Lin, X. (2004). Regulation of smad4 sumoylation and transforming growth factor-β signaling by protein inhibitor of activated stat1. Journal of Biological Chemistry, 279(22):22857–22865.

Liang, W. S., Dunckley, T., Beach, T. G., Grover, A., Mastroeni, D., Ramsey, K., Caselli, R. J., Kukull, W. A., McKeel, D., Morris, J. C., et al. (2010). Neuronal gene expres- sion in non-demented individuals with intermediate alzheimer’s disease neuropathology. Neurobiology of aging, 31(4):549–566.

Liang, W. S., Reiman, E. M., Valla, J., Dunckley, T., Beach, T. G., Grover, A., Niedzielko, T. L., Schneider, L. E., Mastroeni, D., Caselli, R., et al. (2008). Alzheimer’s disease is associated with reduced expression of energy metabolism genes in posterior cingulate neurons. Proceedings of the National Academy of Sciences, 105(11):4441–4446.

Liao, C.-S., Lu, K., Baym, M., Singh, R., and Berger, B. (2009). Isorankn: spectral methods for global alignment of multiple protein networks. Bioinformatics, 25(12):i253–i258.

Libault, M., Brechenmacher, L., Cheng, J., Xu, D., and Stacey, G. (2010). Root hair systems biology. Trends in plant science, 15(11):641–650.

Licata, L., Briganti, L., Peluso, D., Perfetto, L., Iannuccelli, M., Galeota, E., Sacco, F., Palma, A., Nardozza, A. P., Santonico, E., et al. (2011). Mint, the molecular interaction database: 2012 update. Nucleic acids research, 40(D1):D857–D861.

Lidow, M. S. (2003). Calcium signaling dysfunction in schizophrenia: a unifying approach. Brain research reviews, 43(1):70–84.

Lieury, A., Chanal, M., Androdias, G., Reynolds, R., Cavagna, S., Giraudon, P., Confavreux, C., and Nataf, S. (2014). Tissue remodeling in periplaque regions of multiple sclerosis spinal cord lesions. Glia, 62(10):1645–1658.

Lin, H.-K., Bergmann, S., and Pandolfi, P. P. (2004). Cytoplasmic pml function in tgf-β signalling. Nature, 431(7005):205–211.

Lin, J.-S. and Lai, E.-M. (2017). Protein–protein interactions: Co-immunoprecipitation. In Bacterial Protein Secretion Systems, pages 211–219. Springer.

Lin, T.-W., Wu, J.-W., and Chang, D. T.-H. (2013). Combining phylogenetic profiling-based and machine learning-based techniques to predict functional related proteins. PloS one, 8(9):e75940.

Liu, J., Bang, A. G., Kintner, C., Orth, A. P., Chanda, S. K., Ding, S., and Schultz, P. G. (2005). Identification of the wnt signaling activator leucine-rich repeat in flightless interac- tion protein 2 by a genome-wide functional analysis. Proceedings of the National Academy of Sciences of the United States of America, 102(6):1927–1932. Bibliograf´ıa 209

Liu, Z.-P. (2016). Identifying network-based biomarkers of complex diseases from high- throughput data. Biomarkers, 10(6):633–650.

Looi, J. and Walterfang, M. (2013). Striatal morphology as a biomarker in neurodegenerative disease. Molecular psychiatry, 18(4):417–424.

L´opez Gonz´alez,I., Garcia-Esparcia, P., Llorens, F., and Ferrer, I. (2016). Genetic and trans- criptomic profiles of inflammation in neurodegenerative diseases: Alzheimer, parkinson, creutzfeldt-jakob and tauopathies. International journal of molecular sciences, 17(2):206.

L´opez-Kleine, L., Leal, L., and L´opez, C. (2013). Biostatistical approaches for the reconstruc- tion of gene co-expression networks based on transcriptomic data. Briefings in functional genomics, 12(5):457–467.

Lowther, C., Speevak, M., Armour, C. M., Goh, E. S., Graham, G. E., Li, C., Zeesman, S., Nowaczyk, M. J., Schultz, L.-A., Morra, A., et al. (2016). Molecular characterization of nrxn1 deletions from 19,263 clinical microarray cases identifies exons important for neurodevelopmental disease expression. Genetics in Medicine, 19(1):53–61.

Lu, C. (2004). Improving the scaling normalization for high-density oligonucleotide genechip expression microarrays. BMC bioinformatics, 5(1):103.

Lu, M., Zhang, Q., Deng, M., Miao, J., Guo, Y., Gao, W., and Cui, Q. (2008). An analysis of human microrna and disease associations. PloS one, 3(10):e3420.

Lu, T., Aron, L., Zullo, J., Pan, Y., Kim, H., Chen, Y., Yang, T.-H., Kim, H.-M., Drake, D., Liu, X. S., et al. (2014). Rest and stress resistance in ageing and alzheimer/’s disease. Nature, 507(7493):448–454.

Lunnon, K., Keohane, A., Pidsley, R., Newhouse, S., Riddoch-Contreras, J., Thubron, E. B., Devall, M., Soininen, H., K loszewska, I., Mecocci, P., et al. (2017). Mitochondrial genes are altered in blood early in alzheimer’s disease. Neurobiology of Aging, 53:36–47.

Luo, X., Li, M., Huang, L., Steinberg, S., Mattheisen, M., Liang, G., Donohoe, G., Shi, Y., Chen, C., Yue, W., et al. (2014). Convergent lines of evidence support camkk2 as a schizophrenia susceptibility gene. Molecular psychiatry, 19(7):774–783.

Main, B. S., Zhang, M., Brody, K. M., Ayton, S., Frugier, T., Steer, D., Finkelstein, D., Crack, P. J., and Taylor, J. M. (2016). Type-1 interferons contribute to the neuroinflammatory response and disease progression of the mptp mouse model of parkinson’s disease. Glia, 64(9):1590–1604.

Maj, C., Minelli, A., Giacopuzzi, E., Sacchetti, E., and Gennarelli, M. (2016). The role of metabotropic glutamate receptor genes in schizophrenia. Current neuropharmacology, 14(5):540–550. 210 Bibliograf´ıa

Marambaud, P., Dreses-Werringloer, U., and Vingtdeux, V. (2009). Calcium signaling in neurodegeneration. Molecular neurodegeneration, 4(1):20.

Marcello, A., Ferrari, A., Pellegrini, V., Pegoraro, G., Lusic, M., Beltram, F., and Giacca, M. (2003). Recruitment of human cyclin t1 to nuclear bodies through direct interaction with the pml protein. The EMBO journal, 22(9):2156–2166.

Markowitsch, H. J. and Staniloiu, A. (2012). Amnesic disorders. The Lancet, 380(9851):1429– 1440.

Marlin, J. W., Chang, Y.-W. E., and Jakobi, R. (2010). Caspase activation of p21-activated kinase 2 occurs during cisplatin-induced apoptosis of sh-sy5y neuroblastoma cells and in sh-sy5y cell culture models of alzheimer’s and parkinson’s disease. Journal of Cell Death, 3:23.

Marquez, A., Cenit, M., Nunez, C., Mendoza, J., Taxonera, C., Diaz-Rubio, M., Bartolom´e, M., Arroyo, R., Fern´andez-Arquero,M., De La Concha, E., et al. (2009). Effect of bsn- mst1 locus on inflammatory bowel disease and multiple sclerosis susceptibility. Genes and immunity, 10(7):631–635.

Martin, I., Kim, J. W., Lee, B. D., Kang, H. C., Xu, J.-C., Jia, H., Stankowski, J., Kim, M.- S., Zhong, J., Kumar, M., et al. (2014). Ribosomal protein s15 phosphorylation mediates lrrk2 neurodegeneration in parkinson’s disease. Cell, 157(2):472–485.

Mauney, S. A., Pietersen, C. Y., Sonntag, K.-C., and Woo, T.-U. W. (2015). Differentia- tion of oligodendrocyte precursors is impaired in the prefrontal cortex in schizophrenia. Schizophrenia research, 169(1):374–380.

Maycox, P. R., Kelly, F., Taylor, A., Bates, S., Reid, J., Logendra, R., Barnes, M. R., Larminie, C., Jones, N., Lennon, M., et al. (2009). Analysis of gene expression in two large schizophrenia cohorts identifies multiple changes associated with nerve terminal function. Molecular psychiatry, 14(12):1083–1094.

Mayeux, R. and Stern, Y. (2012). Epidemiology of alzheimer disease. Cold Spring Harbor perspectives in medicine, 2(8):a006239.

Mazzola, G., Mannone, M., and Pang, Y. (2016). Directed and undirected graphs. In Cool Math for Hot Music, pages 121–127. Springer.

McCloskey, D., Palsson, B. Ø., and Feist, A. M. (2013). Basic and applied uses of genome- scale metabolic network reconstructions of escherichia coli. Molecular systems biology, 9(1):661.

McGowan, J. C. (2008). Basic principles of magnetic resonance imaging. Neuroimaging Clinics of North America, 18(4):623–636. Bibliograf´ıa 211

McNamara, S., Wang, H., Hanna, N., and Miller, W. H. (2008). Topoisomerase iiβ negatively modulates retinoic acid receptor α function: a novel mechanism of retinoic acid resistance. Molecular and cellular biology, 28(6):2066–2077.

Mehla, J., Caufield, J. H., and Uetz, P. (2015). The yeast two-hybrid system: A tool for map- ping protein–protein interactions. Cold Spring Harbor Protocols, 2015(5):pdb–top083345.

Memiˇsevi´c,V., Wallqvist, A., and Reifman, J. (2013). Reconstituting protein interaction networks using parameter-dependent domain-domain interactions. BMC bioinformatics, 14(1):154.

Meng, L., Striegel, A., and Milenkovi´c,T. (2016). Local versus global biological network alignment. Bioinformatics, 32(20):3155–3164.

Milenkovi´c,T., Filippis, I., Lappe, M., and Prˇzulj,N. (2009). Optimized null model for protein structure networks. PLoS One, 4(6):e5967.

Mi˜nones-Moyano, E., Friedl¨ander,M. R., Pallares, J., Kagerbauer, B., Porta, S., Escaram´ıs, G., Ferrer, I., Estivill, X., and Mart´ı,E. (2013). Upregulation of a small vault rna (svtrna2- 1a) is an early event in parkinson disease and induces neuronal dysfunction. RNA biology, 10(7):1093–1106.

Misaghi, S., Galardy, P. J., Meester, W. J., Ovaa, H., Ploegh, H. L., and Gaudet, R. (2005). Structure of the ubiquitin hydrolase uch-l3 complexed with a suicide substrate. Journal of Biological Chemistry, 280(2):1512–1520.

Miwa, J. M., Stevens, T. R., King, S. L., Caldarone, B. J., Ibanez-Tallon, I., Xiao, C., Fitzsimonds, R. M., Pavlides, C., Lester, H. A., Picciotto, M. R., et al. (2006). The prototoxin lynx1 acts on nicotinic acetylcholine receptors to balance neuronal activity and survival in vivo. Neuron, 51(5):587–600.

Miyake, N., Thompson, J., Skinbjerg, M., and Abi-Dargham, A. (2011). Presynaptic dopa- mine in schizophrenia. CNS neuroscience & therapeutics, 17(2):104–109.

Miyashita, A., Hatsuta, H., Kikuchi, M., Nakaya, A., Saito, Y., Tsukie, T., Hara, N., Ogis- hima, S., Kitamura, N., Akazawa, K., et al. (2014). Genes associated with the progression of neurofibrillary tangles in alzheimer’s disease. Translational psychiatry, 4(6):e396.

Miyauchi, M., Kishida, I., Suda, A., Shiraishi, Y., Hattori, S., Fujibayashi, M., Taguri, M., Ishii, C., Ishii, N., Moritani, T., et al. (2016). Association of the cholinergic muscarinic m2 receptor with autonomic nervous system activity in patients with schizophrenia on high-dose antipsychotics. Neuropsychobiology, 74(1):60–67. 212 Bibliograf´ıa

Miyazaki, K., Fujita, T., Ozaki, T., Kato, C., Kurose, Y., Sakamoto, M., Kato, S., Goto, T., Itoyama, Y., Aoki, M., et al. (2004). Nedl1, a novel ubiquitin-protein isopeptide ligase for dishevelled-1, targets mutant superoxide dismutase-1. Journal of Biological Chemistry, 279(12):11327–11335.

Mizutani, S., Pauwels, E., Stoven, V., Goto, S., and Yamanishi, Y. (2012). Relating drug– protein interaction network with drug side effects. Bioinformatics, 28(18):i522–i528.

Mladinov, M., Sedmak, G., Fuller, H. R., Babi´cLeko, M., Mayer, D., Kirincich, J., Stajduhar,ˇ A., Boroveˇcki,F., Hof, P. R., and Simi´c,G.ˇ (2016). Gene expression profiling of the dorsolateral and medial orbitofrontal cortex in schizophrenia. Translational Neuroscience, 7(1):139–150.

Mohammadi, S. and Grama, A. (2012). Biological network alignment. In Functional Cohe- rence of Molecular Networks in Bioinformatics, pages 97–136. Springer.

Morris, J. H., Knudsen, G. M., Verschueren, E., Johnson, J. R., Cimermancic, P., Grenin- ger, A. L., and Pico, A. R. (2014). Affinity purification–mass spectrometry and network analysis to understand protein-protein interactions. Nature protocols, 9(11):2539–2554.

Motter, A. E. (2010). Improved network performance via antagonism: From synthetic rescues to multi-drug combinations. Bioessays, 32(3):236–245.

Mousavian, Z., D´ıaz, J., and Masoudi-Nejad, A. (2016). Information theory in systems biology. part ii: Protein–protein interaction and signaling networks. In Seminars in cell & developmental biology, volume 51, pages 14–23. Elsevier.

Mueller, L. A., Dehmer, M., and Emmert-Streib, F. (2013). Comparing biological networks: A survey on graph classifying techniques. In Systems Biology, pages 43–63. Springer.

Mukwembi, S. (2012). A note on diameter and the degree sequence of a graph. Applied Mathematics Letters, 25(2):175–178.

Murakami, M., Ishikura, S., Kominami, D., Shimokawa, T., and Murata, M. (2017). Ro- bustness and efficiency in interconnected networks with changes in network assortativity. Applied Network Science, 2(1):6.

Musmeci, N., Battiston, S., Caldarelli, G., Puliga, M., and Gabrielli, A. (2013). Bootstrap- ping topological properties and systemic risk of complex networks using the fitness model. Journal of Statistical Physics, 151(3-4):720–734.

Mycko, M. P., Papoian, R., Boschert, U., Raine, C. S., and Selmaj, K. W. (2003). cdna microarray analysis in multiple sclerosis lesions: detection of genes associated with disease activity. Brain, 126(5):1048–1057. Bibliograf´ıa 213

Nakatsuji, Y., Okuno, T., Moriya, M., Sugimoto, T., Kinoshita, M., Takamatsu, H., Nojima, S., Kimura, T., Kang, S., Ito, D., et al. (2012). Elevation of sema4a implicates th cell skewing and the efficacy of ifn-β therapy in multiple sclerosis. The Journal of Immunology, 188(10):4858–4865.

Narayan, S., Tang, B., Head, S. R., Gilmartin, T. J., Sutcliffe, J. G., Dean, B., and Thomas, E. A. (2008). Molecular profiles of schizophrenia in the cns at different stages of illness. Brain research, 1239:235–248.

Narayanan, B., Soh, P., Calhoun, V., Rua˜no,G., Kocherla, M., Windemuth, A., Clementz, B., Tamminga, C., Sweeney, J., Keshavan, M., et al. (2015). Multivariate genetic determinants of eeg oscillations in schizophrenia and psychotic bipolar disorder from the bsnip study. Translational psychiatry, 5(6):e588.

Negoro, H., Lutz, S. E., Liou, L. S., Kanematsu, A., Ogawa, O., Scemes, E., and Suadicani, S. O. (2013). Pannexin 1 involvement in bladder dysfunction in a multiple sclerosis model. Scientific reports, 3.

Nepusz, T., Yu, H., and Paccanaro, A. (2012). Detecting overlapping protein complexes in protein-protein interaction networks. Nature methods, 9(5):471–472.

Neumann, M., Bentmann, E., Dormann, D., Jawaid, A., DeJesus-Hernandez, M., Ansorge, O., Roeber, S., Kretzschmar, H. A., Munoz, D. G., Kusaka, H., et al. (2011). Fet pro- teins taf15 and ews are selective markers that distinguish ftld with fus pathology from amyotrophic lateral sclerosis with fus mutations. Brain, 134(9):2595–2609.

Neuner, S. M., Garfinkel, B. P., Wilmott, L. A., Ignatowska-Jankowska, B. M., Citri, A., Orly, J., Lu, L., Overall, R. W., Mulligan, M. K., Kempermann, G., et al. (2016). Systems genetics identifies hp1bp3 as a novel modulator of cognitive aging. Neurobiology of aging, 46:58–67.

Ninkovic, M., Mitkovski, M., Kohl, T., St¨uhmer, W., and Pardo, L. A. (2012). Physical and functional interaction of kv10. 1 with rabaptin-5 impacts ion channel trafficking. FEBS letters, 586(19):3077–3084.

Nishioka, M., Bundo, M., Kasai, K., and Iwamoto, K. (2012). Dna methylation in schizoph- renia: progress and challenges of epigenetic studies. Genome medicine, 4(12):96.

Numata, S., Ueno, S.-i., Iga, J.-i., Yamauchi, K., Hongwei, S., Hashimoto, R., Takeda, M., Kunugi, H., Itakura, M., and Ohmori, T. (2008). Tgfbr2 gene expression and genetic association with schizophrenia. Journal of psychiatric research, 42(6):425–432.

Nunez-Iglesias, J., Liu, C.-C., Morgan, T. E., Finch, C. E., and Zhou, X. J. (2010). Joint genome-wide profiling of mirna and mrna expression in alzheimer’s disease cortex reveals altered mirna regulation. PloS one, 5(2):e8898. 214 Bibliograf´ıa

Obayashi, T., Hayashi, S., Saeki, M., Ohta, H., and Kinoshita, K. (2008). Atted-ii provides coexpressed gene networks for arabidopsis. Nucleic acids research, 37(suppl 1):D987–D991.

Obayashi, T. and Kinoshita, K. (2009). Rank of correlation coefficient as a comparable measure for biological significance of gene coexpression. DNA research, 16(5):249–260.

Offermanns, S. and Simon, M. I. (1995). Gα15 and gα16 couple a wide variety of receptors to phospholipase c. Journal of Biological Chemistry, 270(25):15175–15180.

Oh, W. J., Wu, C.-c., Kim, S. J., Facchinetti, V., Julien, L.-A., Finlan, M., Roux, P. P., Su, B., and Jacinto, E. (2010). mtorc2 can associate with ribosomes to promote cotrans- lational phosphorylation and stability of nascent akt polypeptide. The EMBO journal, 29(23):3939–3951.

Ohtsubo, T., Kamada, S., Mikami, T., Murakami, H., and Tsujimoto, Y. (1999). Identifi- cation of nrf2, a member of the nf-e2 family of transcription factors, as a substrate for caspase-3 (-like) proteases. Cell Death & Differentiation, 6(9).

Onyike, C. U. and Diehl-Schmid, J. (2013). The epidemiology of frontotemporal dementia. International Review of Psychiatry, 25(2):130–137.

Otaegui, D., Mostafavi, S., Bernard, C. C., de Munain, A. L., Mousavi, P., Oksenberg, J. R., and Baranzini, S. E. (2007). Increased transcriptional activity of milk-related genes following the active phase of experimental autoimmune encephalomyelitis and multiple sclerosis. The Journal of Immunology, 179(6):4074–4082.

Oti, M., Snel, B., Huynen, M. A., and Brunner, H. G. (2006). Predicting disease genes using protein–protein interactions. Journal of medical genetics, 43(8):691–698.

Paap, B., Hecker, M., Koczan, D., and Zettl, U. (2013). Molecular biomarkers in multiple sclerosis. J. Clin. Cell. Immunol. S, 10.

Parikshak, N. N., Gandal, M. J., and Geschwind, D. H. (2015). Systems biology and gene net- works in neurodevelopmental and neurodegenerative disorders. Nature Reviews Genetics, 16(8):441–458.

Park, B.-H., Dam, P., Pan, C., Xu, Y., Heffelfinger, G., and Samatova, N. F. (2006). In silico recognition of protein-protein interaction: Theory and applications. In Advanced Data Mining Technologies in Bioinformatics, pages 248–268. IGI Global.

Parnell, G. P., Gatt, P. N., McKay, F. C., Schibeci, S., Krupa, M., Powell, J. E., Visscher, P. M., Montgomery, G. W., Lechner-Scott, J., Broadley, S., et al. (2014). Ribosomal protein s6 mrna is a biomarker upregulated in multiple sclerosis, downregulated by interferon treatment, and affected by season. Multiple Sclerosis Journal, 20(6):675–685. Bibliograf´ıa 215

Patejdl, R., Penner, I. K., Noack, T. K., and Zettl, U. K. (2016). Multiple sclerosis and fatigue: a review on the contribution of inflammation and immune-mediated neurodege- neration. Autoimmunity reviews, 15(3):210–220.

Pazos, F. and Valencia, A. (2002). In silico two-hybrid system for the selection of physically interacting protein pairs. Proteins: Structure, Function, and Bioinformatics, 47(2):219– 227.

Pedersen, T. L. (2017). ggraph: An Implementation of Grammar of Graphics for Graphs and Networks. R package version 1.0.0.

Petereit, J., Smith, S., Harris, F. C., and Schlauch, K. A. (2016). petal: Co-expression network modelling in r. BMC systems biology, 10(2):51.

Petricoin, E. F., Ito, S., Williams, B. L., Audet, S., Stancato, L. F., Gamero, A., Clouse, K., Grimley, P., Weiss, A., Beeler, J., et al. (1997). Antiproliferative action of interferon-α requires components of t-cell-receptor signalling. Nature, 390(6660):629–632.

Piazzon, N., Schlotter, F., Lefebvre, S., Dodre, M., M´ereau,A., Soret, J., Besse, A., Barkats, M., Bordonn´e,R., Branlant, C., et al. (2012). Implication of the smn complex in the biogenesis and steady state level of the signal recognition particle. Nucleic acids research, 41(2):1255–1272.

Pichlmair, A., Lassnig, C., Eberle, C.-A., G´orna,M. W., Baumann, C. L., Burkard, T. R., B¨urckst¨ummer, T., Stefanovic, A., Krieger, S., Bennett, K. L., et al. (2011). Ifit1 is an an- tiviral protein that recognizes 5 [prime]-triphosphate rna. Nature immunology, 12(7):624– 630.

Pinacho, R., Vila, E., Prades, R., Tarrag´o,T., Castro, E., Ferrer, I., and Ramos, B. (2016). The glial phosphorylase of glycogen isoform is reduced in the dorsolateral prefrontal cortex in chronic schizophrenia. Schizophrenia research, 177(1):37–43.

Piraveenan, M., Prokopenko, M., and Zomaya, A. Y. (2009). Local assortativity and growth of internet. The European Physical Journal B-Condensed Matter and Complex Systems, 70(2):275–285.

Pollard, K. S., Dudoit, S., and van der Laan, M. J. (2005). Multiple testing procedures: the multtest package and applications to genomics. In Bioinformatics and computational biology solutions using R and bioconductor, pages 249–271. Springer.

Prieto, C. and De Las Rivas, J. (2006). Apid: agile protein interaction dataanalyzer. Nucleic acids research, 34(suppl 2):W298–W302. 216 Bibliograf´ıa

Pungaliya, P., Kulkarni, D., Park, H.-J., Marshall, H., Zheng, H., Lackland, H., Saleem, A., and Rubin, E. H. (2007). Topors functions as a sumo-1 e3 ligase for chromatin-modifying proteins. Journal of proteome research, 6(10):3918–3923.

Putnam, D. K., Sun, J., and Zhao, Z. (2011). Exploring schizophrenia drug-gene interac- tions through molecular network and pathway modeling. In AMIA Annual Symposium Proceedings, volume 2011, page 1127. American Medical Informatics Association.

Quackenbush, J. (2002). Microarray data normalization and transformation. Nature genetics, 32:496–501.

Rabellino, A., Carter, B., Konstantinidou, G., Wu, S.-Y., Rimessi, A., Byers, L. A., Heymach, J. V., Girard, L., Chiang, C.-M., Teruya-Feldstein, J., et al. (2012). The sumo e3-ligase pias1 regulates the tumor suppressor pml and its oncogenic counterpart pml-rara. Cancer research, 72(9):2275–2284.

Ramanathan, M., Weinstock-Guttman, B., Nguyen, L. T., Badgett, D., Miller, C., Patrick, K., Brownscheidle, C., and Jacobs, L. (2001). In vivo gene expression revealed by cdna arrays: the pattern in relapsing–remitting multiple sclerosis patients compared with normal subjects. Journal of neuroimmunology, 116(2):213–219.

Rao, V. S., Srinivas, K., Sujini, G., and Kumar, G. (2014). Protein-protein interaction detection: methods and analysis. International journal of proteomics, 2014.

Rascovsky, K., Hodges, J. R., Knopman, D., Mendez, M. F., Kramer, J. H., Neuhaus, J., Van Swieten, J. C., Seelaar, H., Dopper, E. G., Onyike, C. U., et al. (2011). Sensitivity of revised diagnostic criteria for the behavioural variant of frontotemporal dementia. Brain, 134(9):2456–2477.

Rayaprolu, S., Fujioka, S., Traynor, S., Soto-Ortolaza, A. I., Petrucelli, L., Dickson, D. W., Rademakers, R., Boylan, K. B., Graff-Radford, N. R., Uitti, R. J., et al. (2013). Tardbp mutations in parkinson’s disease. Parkinsonism & related disorders, 19(3):312–315.

Reiner, A., Yekutieli, D., and Benjamini, Y. (2003). Identifying differentially expressed genes using false discovery rate controlling procedures. Bioinformatics, 19(3):368–375.

Reissner, C., Klose, M., Fairless, R., and Missler, M. (2008). Mutational analysis of the neurexin/neuroligin complex reveals essential and regulatory components. Proceedings of the National Academy of Sciences, 105(39):15124–15129.

Renner, F., Moreno, R., and Schmitz, M. L. (2010). Sumoylation-dependent localization of ikk in pml nuclear bodies is essential for protection against dna-damage-triggered cell death. Molecular cell, 37(4):503–515. Bibliograf´ıa 217

Rhee, I., Zhong, M.-C., Reizis, B., Cheong, C., and Veillette, A. (2014). Control of dendritic cell migration, t cell-dependent immunity, and autoimmunity by protein tyrosine phosp- hatase ptpn12 expressed in dendritic cells. Molecular and cellular biology, 34(5):888–899.

Rhodes, S. L. and Ritz, B. (2008). Genetics of iron regulation and the possible role of iron in parkinson’s disease. Neurobiology of disease, 32(2):183–195.

Ritter, B. P., Angelo, G. W., Durner, M., Rossy-Fullana, E., Carrion-Baralt, J., Silverman, J. M., and Bespalova, I. N. (2012). Mutation screening of pdzd2, golph3, and mtmr12 genes in patients with schizophrenia. Psychiatric genetics, 22(1):51–52.

Robert, V. (2004). Bace1: The beta-secretase enzyme in alzheimer’s disease. Journal of Molecular Neuroscience, 23(1-2):1–2.

Rolland, T., Ta¸san,M., Charloteaux, B., Pevzner, S. J., Zhong, Q., Sahni, N., Yi, S., Lem- mens, I., Fontanillo, C., Mosca, R., et al. (2014). A proteome-scale map of the human interactome network. Cell, 159(5):1212–1226.

Rosen, H. J., Gorno-Tempini, M. L., Goldman, W., Perry, R., Schuff, N., Weiner, M., Feiwell, R., Kramer, J., and Miller, B. L. (2002). Patterns of brain atrophy in frontotemporal dementia and semantic dementia. Neurology, 58(2):198–208.

Rosenthal, S. L., Barmada, M. M., Wang, X., Demirci, F. Y., and Kamboh, M. I. (2014). Connecting the dots: potential of data integration to identify regulatory snps in late-onset alzheimer’s disease gwas findings. PloS one, 9(4):e95152.

Ross, C. A. and Poirier, M. A. (2004). Protein aggregation and neurodegenerative disease.

Rowlands, D. S., Page, R. A., Sukala, W. R., Giri, M., Ghimbovschi, S. D., Hayat, I., Cheema, B. S., Lys, I., Leikis, M., Sheard, P. W., et al. (2014). Multi-omic integrated networks connect dna methylation and mirna with skeletal muscle plasticity to chronic exercise in type 2 diabetic obesity. Physiological genomics, 46(20):747–765.

Rual, J.-F., Venkatesan, K., Hao, T., Hirozane-Kishikawa, T., Dricot, A., Li, N., Berriz, G. F., Gibbons, F. D., Dreze, M., Ayivi-Guedehoussou, N., et al. (2005). Towards a proteome- scale map of the human protein–protein interaction network. Nature, 437(7062):1173–1178.

Rubinov, M. and Sporns, O. (2010). Complex network measures of brain connectivity: uses and interpretations. Neuroimage, 52(3):1059–1069.

Rubio, M. D., Wood, K., Haroutunian, V., and Meador-Woodruff, J. H. (2013). Dysfunction of the ubiquitin proteasome and ubiquitin-like systems in schizophrenia. Neuropsychop- harmacology, 38(10):1910–1920. 218 Bibliograf´ıa

Rushworth, J. V. and Hooper, N. M. (2011). Lipid rafts: linking alzheimer’s amyloid-β production, aggregation, and toxicity at neuronal membranes. International journal of Alzheimer’s disease, 2011.

Saia-Cereda, V. M., Cassoli, J. S., Schmitt, A., Falkai, P., and Martins-de Souza, D. (2016). Differential proteome and phosphoproteome may impact cell signaling in the corpus callo- sum of schizophrenia patients. Schizophrenia research, 177(1):70–77.

Saia-Cereda, V. M., Santana, A. G., Schmitt, A., Falkai, P., and Martins-de Souza, D. (2017). The nuclear proteome of white and gray matter from schizophrenia postmortem brains. Molecular Neuropsychiatry, 3(1):37–52.

Saiga, T., Fukuda, T., Matsumoto, M., Tada, H., Okano, H. J., Okano, H., and Nakayama, K. I. (2009). Fbxo45 forms a novel ubiquitin ligase complex and is required for neuronal development. Molecular and cellular biology, 29(13):3529–3543.

Sampath, P., Mazumder, B., Seshadri, V., Gerber, C. A., Chavatte, L., Kinter, M., Ting, S. M., Dignam, J. D., Kim, S., Driscoll, D. M., et al. (2004). Noncanonical function of glutamyl-prolyl-trna synthetase: gene-specific silencing of translation. Cell, 119(2):195– 208.

Sancho, R. M., Law, B. M., and Harvey, K. (2009). Mutations in the lrrk2 roc-cor tandem domain link parkinson’s disease to wnt signalling pathways. Human molecular genetics, 18(20):3955–3968.

Santini, E., Valjent, E., and Fisone, G. (2010). mtorc1 signaling in parkinson disease and l-dopa-induced dyskinesia: a sensitized matter. Cell Cycle, 9(14):2785–2790.

S¨arkij¨arvi,S., Kuusisto, H., Paalavuo, R., Levula, M., Airla, N., Lehtim¨aki, T., Kaprio, J., Koskenvuo, M., and Elovaara, I. (2006). Gene expression profiles in finnish twins with multiple sclerosis. BMC medical genetics, 7(1):11.

Sarter, M., Lustig, C., and Taylor, S. F. (2012). Cholinergic contributions to the cognitive symptoms of schizophrenia and the viability of cholinergic treatments. Neuropharmacology, 62(3):1544–1553.

Schaefer, C. F., Anthony, K., Krupa, S., Buchoff, J., Day, M., Hannay, T., and Buetow, K. H. (2008). Pid: the pathway interaction database. Nucleic acids research, 37(suppl 1):D674– D679.

Scott, K. L. and Plon, S. E. (2005). Ches1/foxn3 interacts with ski-interacting protein and acts as a transcriptional repressor. Gene, 359:119–126. Bibliograf´ıa 219

Serana, F., Sottini, A., Ghidini, C., Zanotti, C., Capra, R., Cordioli, C., Caimi, L., and Imberti, L. (2008). Modulation of ifnar1 mrna expression in multiple sclerosis patients. Journal of neuroimmunology, 197(1):54–62.

Shao, L. and Vawter, M. P. (2008). Shared gene expression alterations in schizophrenia and bipolar disorder. Biological psychiatry, 64(2):89–97.

Shima, Y., Shima, T., Chiba, T., Irimura, T., Pandolfi, P. P., and Kitabayashi, I. (2008). Pml activates transcription by protecting hipk2 and p300 from scffbx3-mediated degradation. Molecular and cellular biology, 28(23):7126–7138.

Shinbo, Y., Taira, T., Niki, T., Iguchi-Ariga, S. M., and Ariga, H. (2005). Dj-1 restores p53 transcription activity inhibited by topors/p53bp3. International journal of oncology, 26(3):641–648.

Shirts, B. H., Kim, J. J., Reich, S., Dickerson, F. B., Yolken, R. H., Devlin, B., and Nim- gaonkar, V. L. (2007). Polymorphisms in micb are associated with human herpes virus seropositivity and schizophrenia risk. Schizophrenia research, 94(1):342–353.

Shore, J. and Lubin, B. (2015). Spectral goodness of fit for network models. Social Networks, 43:16–27.

Simpson, J. E., Ince, P. G., Minett, T., Matthews, F. E., Heath, P. R., Shaw, P. J., Goodall, E., Garwood, C. J., Ratcliffe, L. E., Brayne, C., et al. (2016). Neuronal dna damage response-associated dysregulation of signalling pathways and cholesterol metabolism at the earliest stages of alzheimer-type pathology. Neuropathology and applied neurobiology, 42(2):167–179.

Simpson, J. E., Ince, P. G., Shaw, P. J., Heath, P. R., Raman, R., Garwood, C. J., Gelsthorpe, C., Baxter, L., Forster, G., Matthews, F. E., et al. (2011). Microarray analysis of the astrocyte transcriptome in the aging brain: relationship to alzheimer’s pathology and apoe genotype. Neurobiology of aging, 32(10):1795–1807.

Singh, G., Kucukural, A., Cenik, C., Leszyk, J. D., Shaffer, S. A., Weng, Z., and Moore, M. J. (2012). The cellular ejc interactome reveals higher-order mrnp structure and an ejc-sr protein nexus. Cell, 151(4):750–764.

Slonim, D. K. and Yanai, I. (2009). Getting started in gene expression microarray analysis. PLoS computational biology, 5(10):e1000543.

Smoot, M. E., Ono, K., Ruscheinski, J., Wang, P.-L., and Ideker, T. (2010). Cytoscape 2.8: new features for data integration and network visualization. Bioinformatics, 27(3):431– 432. 220 Bibliograf´ıa

Smyth, G. K. (2005). Limma: linear models for microarray data. In Bioinformatics and computational biology solutions using R and Bioconductor, pages 397–420. Springer.

So, J., Pasculescu, A., Dai, A. Y., Williton, K., James, A., Nguyen, V., Creixell, P., Schoof, E. M., Sinclair, J., Barrios-Rodiles, M., et al. (2015). Integrative analysis of kinase networks in trail-induced apoptosis provides a source of potential targets for combination therapy. Sci Signal, 8:371.

Soldner, F., Hockemeyer, D., Beard, C., Gao, Q., Bell, G. W., Cook, E. G., Hargus, G., Blak, A., Cooper, O., Mitalipova, M., et al. (2009). Parkinson’s disease patient-derived induced pluripotent stem cells free of viral reprogramming factors. Cell, 136(5):964–977.

Song, L., Langfelder, P., and Horvath, S. (2012). Comparison of co-expression measures: mutual information, correlation, and model based indices. BMC bioinformatics, 13(1):328.

Sonntag, K.-C., Simantov, R., Bj¨orklund, L., Cooper, O., Pruszak, J., Kowalke, F., Gil- martin, J., Ding, J., Hu, Y.-P., Shen, M. M., et al. (2005). Context-dependent neuronal differentiation and germ layer induction of smad4-/- and cripto-/- embryonic stem cells. Molecular and Cellular Neuroscience, 28(3):417–429.

Sosa-Ortiz, A. L., Acosta-Castillo, I., and Prince, M. J. (2012). Epidemiology of dementias and alzheimer’s disease. Archives of medical research, 43(8):600–608.

Srinivasan, S., Severa, M., Rizzo, F., Menon, R., Brini, E., Mechelli, R., Martinelli, V., Her- tzog, P., Salvetti, M., Furlan, R., et al. (2017). Transcriptional dysregulation of interferome in experimental and human multiple sclerosis. Scientific Reports, 7(1):8981.

Stahl, B., Diehlmann, A., and S¨udhof,T. C. (1999). Direct interaction of alzheimer’s disease-related presenilin 1 with armadillo protein p0071. Journal of Biological Chemistry, 274(14):9141–9148.

Stanelle, J. and P¨utzer,B. M. (2006). E2f1-induced apoptosis: turning killers into therapeu- tics. Trends in molecular medicine, 12(4):177–185.

Stankiewicz, T. R., Schroeder, E. K., Kelsey, N. A., Bouchard, R. J., and Linseman, D. A. (2013). C-terminal binding proteins are essential pro-survival factors that undergo caspase- dependent downregulation during neuronal apoptosis. Molecular and Cellular Neuroscien- ce, 56:322–332.

Stehling, O., Mascarenhas, J., Vashisht, A. A., Sheftel, A. D., Niggemeyer, B., R¨osser,R., Pierik, A. J., Wohlschlegel, J. A., and Lill, R. (2013). Human cia2a-fam96a and cia2b- fam96b integrate iron homeostasis and maturation of different subsets of cytosolic-nuclear iron-sulfur proteins. Cell metabolism, 18(2):187–198. Bibliograf´ıa 221

Stehmeier, P. and Muller, S. (2009). Phospho-regulated sumo interaction modules connect the sumo system to ck2 signaling. Molecular cell, 33(3):400–409.

Stepanov, V., Bocharova, A., Saduakassova, K., Marusin, A., Koneva, L., Vagaitseva, K., and Svyatova, G. (2015). Replicative study of susceptibility to childhood-onset schizophrenia in kazakhs. Russian Journal of Genetics, 51(2):185–192.

Steuer, R., Kurths, J., Daub, C. O., Weise, J., and Selbig, J. (2002). The mutual in- formation: detecting and evaluating dependencies between variables. Bioinformatics, 18(suppl 2):S231–S240.

Stumpf, M. P., Thorne, T., de Silva, E., Stewart, R., An, H. J., Lappe, M., and Wiuf, C. (2008). Estimating the size of the human interactome. Proceedings of the National Academy of Sciences, 105(19):6959–6964.

Sulaimanov, N. and Koeppl, H. (2016). Graph reconstruction using covariance-based met- hods. EURASIP Journal on Bioinformatics and Systems Biology, 2016(1):19.

Surmeier, D. J., Schumacker, P. T., Guzman, J. D., Ilijic, E., Yang, B., and Zampese, E. (2017). Calcium and parkinson’s disease. Biochemical and biophysical research communi- cations, 483(4):1013–1019.

Swiss, V. A. and Casaccia, P. (2010). Cell-context specific role of the e2f/rb pathway in development and disease. Glia, 58(4):377–390.

Szklarczyk, D., Franceschini, A., Wyder, S., Forslund, K., Heller, D., Huerta-Cepas, J., Si- monovic, M., Roth, A., Santos, A., Tsafou, K. P., et al. (2014). String v10: protein–protein interaction networks, integrated over the tree of life. Nucleic acids research, 43(D1):D447– D452.

Tamayo, P., Steinhardt, G., Liberzon, A., and Mesirov, J. P. (2016). The limitations of simple gene set enrichment analysis assuming gene independence. Statistical methods in medical research, 25(1):472–487.

Tao, Y., Zhang, X., Chopra, M., Kim, M.-J., Buch, K. R., Kong, D., Jin, J., Tang, Y., Zhu, H., Jewells, V., et al. (2014). The role of endogenous ifn-β in the regulation of th17 responses in patients with relapsing-remitting multiple sclerosis. The Journal of Immunology, 192(12):5610–5617.

Templin, M. F., Stoll, D., Schrenk, M., Traub, P. C., V¨ohringer, C. F., and Joos, T. O. (2002). Protein microarray technology. Drug discovery today, 7(15):815–822.

Thenganatt, M. A. and Jankovic, J. (2014). Parkinson disease subtypes. JAMA neurology, 71(4):499–504. 222 Bibliograf´ıa

Thomas, J., Seo, D., and Sael, L. (2016). Review on graph clustering and subgraph simila- rity based analysis of neurological disorders. International journal of molecular sciences, 17(6):862.

Thompson, E. and Varela, F. J. (2001). Radical embodiment: neural dynamics and cons- ciousness. Trends in cognitive sciences, 5(10):418–425.

Tomfohr, J., Lu, J., and Kepler, T. B. (2005). Pathway level analysis of gene expression using singular value decomposition. BMC bioinformatics, 6(1):225.

Topcu, Z., Mack, D. L., Hromas, R. A., and Borden, K. L. (1999). The promyelocytic leukemia protein pml interacts with the proline-rich homeodomain protein prh: a ring may link hematopoiesis and growth control. Oncogene, 18(50).

Topol, A., English, J., Flaherty, E., Rajarajan, P., Hartley, B., Gupta, S., Desland, F., Zhu, S., Goff, T., Friedman, L., et al. (2015). Increased abundance of translation machinery in stem cell–derived neural progenitor cells from four schizophrenia patients. Translational psychiatry, 5(10):e662.

Toyofuku, T., Zhang, H., Kumanogoh, A., Takegahara, N., Suto, F., Kamei, J., Aoki, K., Yabuki, M., Hori, M., Fujisawa, H., et al. (2004). Dual roles of sema6d in cardiac morp- hogenesis through region-specific association of its receptor, plexin-a1, with off-track and vascular endothelial growth factor receptor type 2. Genes & development, 18(4):435–447.

Trinh, B. Q., Barengo, N., and Naora, H. (2011). Homeodomain protein dlx4 counteracts key transcriptional control mechanisms of the tgf-β cytostatic program and blocks the antiproliferative effect of tgf-β. Oncogene, 30(24):2718–2729.

Trupp, M., Altman, T., Fulcher, C. A., Caspi, R., Krummenacker, M., Paley, S., and Karp, P. D. (2010). Beyond the genome (btg) is a (pgdb) pathway genome database: Humancyc. Genome biology, 11(S1):O12.

Tseveleki, V., Rubio, R., Vamvakas, S.-S., White, J., Taoufik, E., Petit, E., Quackenbush, J., and Probert, L. (2010). Comparative gene expression analysis in mouse models for multiple sclerosis, alzheimer’s disease and stroke for identifying commonly regulated and disease-specific gene changes. Genomics, 96(2):82–91.

Tusher, V. G., Tibshirani, R., and Chu, G. (2001). Significance analysis of microarrays ap- plied to the ionizing radiation response. Proceedings of the National Academy of Sciences, 98(9):5116–5121.

Tzekov, R., Stein, L., and Kaushal, S. (2011). Protein misfolding and retinal degeneration. Cold Spring Harbor perspectives in biology, 3(11):a007492. Bibliograf´ıa 223

Vachev, T. I., Popov, N. T., Marchev, D., Ivanov, H., and Stoyanova, V. K. (2016). Cha- racterization of micro rna signature in peripheral blood of schizophrenia patients using µparaflo tm mirna microarray assay. Int. J. Curr. Microbiol. App. Sci, 5(7):503–512. van Dam, S., V˜osa,U., van der Graaf, A., Franke, L., and de Magalh˜aes,J. P. (2017). Gene co-expression analysis for functional classification and gene–disease predictions. Briefings in bioinformatics, page bbw139.

Van Driel, M. A., Bruggeman, J., Vriend, G., Brunner, H. G., and Leunissen, J. A. (2006). A text-mining analysis of the human phenome. European journal of human genetics, 14(5):535–542. van Luijn, M. M., van Meurs, M., Stoop, M. P., Verbraak, E., Wierenga-Wolf, A. F., Melief, M.-J., Kreft, K. L., Verdijk, R. M., ’t Hart, B. A., Luider, T. M., et al. (2015). Eleva- ted expression of the cerebrospinal fluid disease markers chromogranin a and clusterin in astrocytes of multiple sclerosis white matter lesions. Journal of Neuropathology & Expe- rimental Neurology, 75(1):86–98.

Vandamme, J., V¨olkel, P., Rosnoblet, C., Le Faou, P., and Angrand, P.-O. (2011). Interaction proteomics analysis of polycomb proteins defines distinct prc1 complexes in mammalian cells. Molecular & cellular proteomics, 10(4):M110–002642.

Vanunu, O., Magger, O., Ruppin, E., Shlomi, T., and Sharan, R. (2010). Associating genes and protein complexes with disease via network propagation. PLoS computational biology, 6(1):e1000641.

Viana, J., Hannon, E., Dempster, E., Pidsley, R., Macdonald, R., Knox, O., Spiers, H., Troakes, C., Al-Saraj, S., Turecki, G., et al. (2016). Schizophrenia-associated methylomic variation: molecular signatures of disease and polygenic risk burden across multiple brain regions. Human molecular genetics, 26(1):210–225.

Vidal, M., Cusick, M. E., and Barab´asi,A.-L. (2011). Interactome networks and human disease. Cell, 144(6):986–998. von Otter, M., Bergstr¨om,P., Quattrone, A., De Marco, E. V., Annesi, G., S¨oderkvist, P., Wettinger, S. B., Drozdzik, M., Bialecka, M., Nissbrandt, H., et al. (2014). Genetic associations of nrf2-encoding nfe2l2 variants with parkinson’s disease–a multicenter study. BMC medical genetics, 15(1):131.

Voss, P. G., Gray, R. M., Dickey, S. W., Wang, W., Park, J. W., Kasai, K.-i., Hirabayashi, J., Patterson, R. J., and Wang, J. L. (2008). Dissociation of the carbohydrate-binding and splicing activities of galectin-1. Archives of biochemistry and biophysics, 478(1):18–25. 224 Bibliograf´ıa

Walker, A. K., Soo, K. Y., Levina, V., Talbo, G. H., and Atkin, J. D. (2013). N–linked glycosylation modulates dimerization of protein disulfide isomerase family a member 2 (pdia2). The FEBS journal, 280(1):233–243.

Wan, P., Wang, T., Davis, R. A., and Resnick, S. I. (2017). Fitting the linear preferential attachment model. arXiv preprint arXiv:1703.03095.

Wang, J., Huo, K., Ma, L., Tang, L., Li, D., Huang, X., Yuan, Y., Li, C., Wang, W., Guan, W., et al. (2011a). Toward an understanding of the protein interaction network of the human liver. Molecular systems biology, 7(1):536.

Wang, J. H., Pappas, D., De Jager, P. L., Pelletier, D., de Bakker, P. I., Kappos, L., Polman, C. H., Chibnik, L. B., Hafler, D. A., Matthews, P. M., et al. (2011b). Modeling the cumulative genetic risk for multiple sclerosis from genome-wide association data. Genome medicine, 3(1):3.

Wang, L., Mo, Q., and Wang, J. (2015). Mirexpress: a database for gene coexpression correlation in immune cells based on mutual information and pearson correlation. Journal of immunology research, 2015.

Wang, W., Nguyen, L. T., Burlak, C., Chegini, F., Guo, F., Chataway, T., Ju, S., Fisher, O. S., Miller, D. W., Datta, D., et al. (2016). Caspase-1 causes truncation and aggregation of the parkinson’s disease-associated protein α-synuclein. Proceedings of the National Academy of Sciences, 113(34):9587–9592.

Werner, A., Iwasaki, S., McGourty, C. A., Medina-Ruiz, S., Teerikorpi, N., Fedrigo, I., Ingolia, N. T., and Rape, M. (2015). Cell-fate determination by ubiquitin-dependent regulation of translation. Nature, 525(7570):523–527.

Westerlind, H., Imrell, K., Ramanujam, R., Myhr, K.-M., Celius, E. G., Harbo, H. F., Oturai, A. B., Hamsten, A., Alfredsson, L., Olsson, T., et al. (2015). Identity-by-descent map- ping in a scandinavian multiple sclerosis cohort. European Journal of Human Genetics, 23(5):688–692.

Whitwell, J. L., Dickson, D. W., Murray, M. E., Weigand, S. D., Tosakulwong, N., Senjem, M. L., Knopman, D. S., Boeve, B. F., Parisi, J. E., Petersen, R. C., et al. (2012). Neuro- imaging correlates of pathologically defined subtypes of alzheimer’s disease: a case-control study. The Lancet Neurology, 11(10):868–877.

Wickham, L., Benjannet, S., Marcinkiewicz, E., Chretien, M., and Seidah, N. G. (2005). β-amyloid protein converting enzyme 1 and brain-specific type ii membrane protein bri3: binding partners processed by furin. Journal of neurochemistry, 92(1):93–102. Bibliograf´ıa 225

Wiesner, S., Ogunjimi, A. A., Wang, H.-R., Rotin, D., Sicheri, F., Wrana, J. L., and Forman- Kay, J. D. (2007). Autoinhibition of the hect-type ubiquitin ligase smurf2 through its c2 domain. Cell, 130(4):651–662.

Wilson, H. C., Scolding, N. J., and Raine, C. S. (2006). Co-expression of pdgf α receptor and ng2 by oligodendrocyte precursors in human cns and multiple sclerosis lesions. Journal of neuroimmunology, 176(1):162–173.

Wisecaver, J. H., Borowsky, A. T., Tzin, V., Jander, G., Kliebenstein, D. J., and Rokas, A. (2017). A global co-expression network approach for connecting genes to specialized metabolic pathways in plants. The Plant Cell Online, pages tpc–00009.

Woolston, A. L., Hsiao, P.-C., Kuo, P.-H., Wang, S.-H., Lien, Y.-J., Liu, C.-M., Hwu, H.-G., Lu, T.-P., Chuang, E. Y., Chang, L.-C., et al. (2017). Genetic loci associated with an earlier age at onset in multiplex schizophrenia. Scientific reports, 7(1):6486.

Wu, L., Chen, F., Wei, J., Shen, Y., and Xu, Q. (2016). Study of the tetraspanin 18 asso- ciation with schizophrenia in a han chinese population. Psychiatry research, 241:263–266.

Wyss-Coray, T. (2016). Ageing, neurodegeneration and brain rejuvenation. Nature, 539(7628):180–186.

Xenarios, I., Salwinski, L., Duan, X. J., Higney, P., Kim, S.-M., and Eisenberg, D. (2002). Dip, the database of interacting proteins: a research tool for studying cellular networks of protein interactions. Nucleic acids research, 30(1):303–305.

Yagi, T., Ito, D., Okada, Y., Akamatsu, W., Nihei, Y., Yoshizaki, T., Yamanaka, S., Okano, H., and Suzuki, N. (2011). Modeling familial alzheimer’s disease with induced pluripotent stem cells. Human molecular genetics, 20(23):4530–4539.

Yamada, M., Kabir, M. S., and Tsunedomi, R. (2003). Divergent promoter organization may be a preferred structure for gene control in escherichia coli. Journal of molecular microbiology and biotechnology, 6(3-4):206–210.

Yamanishi, Y., Kotera, M., Moriya, Y., Sawada, R., Kanehisa, M., and Goto, S. (2014). Dinies: drug–target interaction network inference engine based on supervised analysis. Nucleic acids research, 42(W1):W39–W45.

Yang, K., Bai, H., Ouyang, Q., Lai, L., and Tang, C. (2008). Finding multiple target optimal intervention in disease-related molecular network. Molecular systems biology, 4(1):228.

Yeger-Lotem, E., Riva, L., Su, L. J., Gitler, A. D., Cashikar, A. G., King, O. D., Auluck, P. K., Geddie, M. L., Valastyan, J. S., Karger, D. R., et al. (2009). Bridging high-throughput ge- netic and transcriptional data reveals cellular responses to alpha-synuclein toxicity. Nature genetics, 41(3):316–323. 226 Bibliograf´ıa

Yeger-Lotem, E., Sattath, S., Kashtan, N., Itzkovitz, S., Milo, R., Pinter, R. Y., Alon, U., and Margalit, H. (2004). Network motifs in integrated cellular networks of transcription– regulation and protein–protein interaction. Proceedings of the National Academy of Scien- ces of the United States of America, 101(16):5934–5939.

Yu, H., Yan, H., Li, J., Li, Z., Zhang, X., Ma, Y., Mei, L., Liu, C., Cai, L., Wang, Q., et al. (2016a). Common variants on 2p16. 1, 6p22. 1 and 10q24. 32 are associated with schizophrenia in han chinese population. Molecular psychiatry.

Yu, N., Signorile, L., Basu, S., Ottema, S., Lebbink, J. H., Leslie, K., Smal, I., Dekkers, D., Demmers, J., and Galjart, N. (2016b). Isolation of functional tubulin dimers and of tubulin-associated proteins from mammalian cells. Current Biology, 26(13):1728–1736.

Yugi, K., Kubota, H., Hatano, A., and Kuroda, S. (2016). Trans-omics: how to reconstruct biochemical networks across multiple ‘omic’layers. Trends in biotechnology, 34(4):276–290.

Zahiri, J., Hannon Bozorgmehr, J., and Masoudi-Nejad, A. (2013). Computational predic- tion of protein–protein interaction networks: algorithms and resources. Current genomics, 14(6):397–414.

Zanzoni, A., Montecchi-Palazzi, L., Quondam, M., Ausiello, G., Helmer-Citterich, M., and Cesareni, G. (2002). Mint: a molecular interaction database. FEBS letters, 513(1):135–140.

Zaslavskiy, M., Bach, F., and Vert, J.-P. (2009). Global alignment of protein–protein inter- action networks by graph matching methods. Bioinformatics, 25(12):i259–1267.

Zea, A. A. and Rueda-Toicen, A. (2016). Characterizing the structure of protein-protein interaction networks. arXiv preprint arXiv:1609.00441.

Zhang, J., Wang, Y., Liu, B., Li, X., Zhao, Q., Chen, S., Ji, J., Yang, F., Wan, C., Gao, L., et al. (2011a). No association between the kcnh1, kcnj10 and kcnn3 genes and schizophrenia in the han chinese population. Neuroscience letters, 487(1):61–65.

Zhang, L. and Tu, W. (2009). Six degrees of separation in online society.

Zhang, L. V., King, O. D., Wong, S. L., Goldberg, D. S., Tong, A. H., Lesage, G., Andrews, B., Bussey, H., Boone, C., and Roth, F. P. (2005). Motifs, themes and thematic maps of an integrated saccharomyces cerevisiae interaction network. Journal of biology, 4(2):6.

Zhang, M., Han, G., Wang, C., Cheng, K., Li, R., Liu, H., Wei, X., Ye, M., and Zou, H. (2011b). A bead-based approach for large-scale identification of in vitro kinase substrates. Proteomics, 11(24):4632–4637. Bibliograf´ıa 227

Zhang, Q. C., Petrey, D., Deng, L., Qiang, L., Shi, Y., Thu, C. A., Bisikirska, B., Lefebvre, C., Accili, D., Hunter, T., et al. (2012). Structure-based prediction of protein-protein interactions on a genome-wide scale. Nature, 490(7421):556–560.

Zhang, X., Jin, J., Tang, Y., Speer, D., Sujkowska, D., and Markovic-Plese, S. (2009). Ifn- β1a inhibits the secretion of th17-polarizing cytokines in human dendritic cells via tlr7 up-regulation. The Journal of Immunology, 182(6):3928–3936.

Zhang, X., Tao, Y., Chopra, M., Dujmovic-Basuroski, I., Jin, J., Tang, Y., Drulovic, J., and Markovic-Plese, S. (2015a). Il-11 induces th17 cell responses in patients with early relapsing-remitting multiple sclerosis. The Journal of Immunology, 194(11):5139–5149.

Zhang, X., Zhang, Y., Yu, Y., Liu, J., Yuan, Y., Zhao, Y., Li, H., Wang, J., and Wang, Z. (2015b). Convergence and divergence of genetic and modular networks between diabetes and breast cancer. Journal of cellular and molecular medicine, 19(5):1094–1102.

Zhang, Y., Feng, X.-H., Wu, R.-Y., and Derynck, R. (1996). Receptor-associated mad ho- mologues synergize as effectors of the tgf-β response. Nature, 383(6596):168–172.

Zhang, Z., Huang, J., Shen, Y., and Li, R. (2017). Bace1-dependent neuregulin-1 signaling: An implication for schizophrenia. Frontiers in Molecular Neuroscience, 10:302.

Zhao, Y., Li, H., Fang, S., Kang, Y., Hao, Y., Li, Z., Bu, D., Sun, N., Zhang, M. Q., Chen, R., et al. (2016). Noncode 2016: an informative and valuable data source of long non-coding rnas. Nucleic acids research, 44(D1):D203–D208.

Zheng, B., Liao, Z., Locascio, J. J., Lesniak, K. A., Roderick, S. S., Watt, M. L., Eklund, A. C., Zhang-James, Y., Kim, P. D., Hauser, M. A., et al. (2010). Pgc-1α, a poten- tial therapeutic target for early intervention in parkinson’s disease. Science translational medicine, 2(52):52ra73–52ra73.

Zhu, X., Gerstein, M., and Snyder, M. (2007). Getting connected: analysis and principles of biological networks. Genes & development, 21(9):1010–1024.

Zyprych-Walczak, J., Szabelska, A., Handschuh, L., G´orczak,K., Klamecka, K., Figlerowicz, M., and Siatkowski, I. (2015). The impact of normalization methods on rna-seq data analysis. BioMed research international, 2015.