Tesislzingaretti13junio2016 (1).Pdf (10.14Mb)
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDAD NACIONAL DE CORDOBA´ MAESTR´IA EN ESTAD´ISTICA APLICADA INTEGRACION´ DE DATOS DE EXPRESION´ GENICA´ ASOCIADOS A L´INEAS CELULARES DE CANCERES:´ UN ENFOQUE UTILIZANDO LA METODOLOG´IA STATIS-ACT, METODOS´ BIPLOT Y MINER´IA DE TEXTO Prof. Mar´ıaLaura Zingaretti Junio-2016 Director: Prof. Dr. Jhonny Rafael Demey Co-Director: Prof. Dr. Julio Alejandro Di Rienzo INTEGRACiON DE DATOS DE EXPRESION GENICA ASOCIADOS A LINEAS CELULARES DE CANCERES: UN ENFOQUE UTILIZANDO LA METODOLOGIA STATIS-ACT, METODOS BIPLOT Y MINERIA DE TEXTO por Zingaretti, María Laura se distribuye bajo una Licencia Creative Commons Atribución – No Comercial – Sin Obra Derivada 4.0 Internacional. Agradecimientos Al director de este trabajo, el Prof. Dr. Jhonny Demey por su confianza y gu´ıaconstantes, por su paciencia y su infinita generosidad para ense~narme y especialmente, por transmitirme la pasi´onpor esta disciplina. Al Dr. Julio Di Rienzo por su confianza y por sus orientaciones, tanto en la realizaci´onde este trabajo como en los cursos de la maestr´ıa. Al Dr. Crist´obalFresno porque siempre ha estado para ayudarme. A todo el cuerpo de profesores y trabajadores no docentes de la Maestr´ıaen Estad´ısticaAplicada por su dedicaci´onconstante. A la Universidad Nacional de Villa Mar´ıa,por haber financiado parte de mis estudios y por la formaci´onque he recibido durante a~nosen esta instituci´on, tanto como estudiante como en mi tarea docente. A las amigas que encontr´een la maestr´ıa:Jime, Vale y Belu. Sin duda, ha sido una de las cosas m´aslindas de este camino. A todos mis amigos, <gracias por estar siempre a mi lado! y por todo lo compartido, pues \>de qu´eme sirve a mi la virtud, si no tengo un canto hermoso?" I Resumen Los datos ´omicos,donde se analiza la expresi´onde miles de genes, prote´ınas, metabolitos en distintas muestras biol´ogicas,comprenden una gran cantidad de ´areasde aplicaci´ony su estudio ha crecido de manera exponencial en los ´ultimosa~nos.La integraci´onde datos es uno de los principales objetivos actuales en bio-ciencias, dado que es com´unmedir expresi´onsimult´anea de genes, prote´ınasy metabolitos o bien tener mediciones de la expresi´on gen´eticade las mismas muestras en diferentes plataformas de an´alisis,gene- rando, por lo tanto, distintas fuentes de informaci´on.La integraci´onimplica el meta-an´alisisde sus resultados o el an´alisissimult´aneosde los datos ori- ginales. En el marco de este trabajo, se realiza una propuesta metodol´ogicapara abordar el problema de estudio y comparaci´onde datos gen´eticosprove- nientes de distintas plataformas de microarreglos y el problema de selecci´on de genes basada en los m´etodos estad´ısticosde k-tablas y Biplot. Se realiza una aplicaci´onde la metodolog´ıapropuesta a datos de expresi´ongen´etica de 60 l´ıneascelulares de 9 tipos diferentes de c´ancerprovenientes de cuatro plataformas de an´alisisdel panel NCI-60. Palabras clave Biplot; Datos ´omicos;Microarreglos, k-tablas, STATIS; STATIS-Dual. II ´Indice general AgradecimientosI Resumen II Lista de figuras VIII Lista de tablasIX Introducci´on1 Objetivo general............................3 Objetivos espec´ıficos..........................3 1. Marco Te´orico5 1.1 Nuevas perspectivas en la investigaci´onsobre c´ancer......5 1.2 An´alisisde datos ´omicos...................... 12 1.2.1 Normalizaci´onde datos.................. 23 1.3 Ontolog´ıade genes......................... 27 1.4 Los m´etodos de k-tablas...................... 32 1.4.1 STATIS........................... 33 1.4.1.1 Interestructura.................. 33 1.4.1.2 Compromiso................... 36 1.4.1.3 Intraestructura.................. 39 1.4.2 STATIS-Dual........................ 40 III ´INDICE GENERAL IV 1.4.2.1 Interestructura.................. 41 1.4.2.2 Compromiso................... 42 1.4.2.3 Intraestructura.................. 43 1.4.3 An´alisisParcial Tri´adico.................. 43 1.5 Medidas de calidad de representaci´on.............. 45 1.5.1 Calidad de representaci´onde las tablas.......... 45 1.5.2 Calidad de representaci´onde los individuos....... 45 1.5.3 Calidad de representaci´onde las variables........ 46 1.6 Variabilidad muestral....................... 47 1.7 Representaci´onBiplot para medir interacci´onentre individuos y variables............................. 52 1.7.1 Formulaci´on......................... 52 1.8 Redes y Grafos........................... 57 2. Ilustraci´onde la metodolog´ıade an´alisis: integraci´onde datos ´omicosprovenientes de l´ıneascelulares de c´ancerdel panel NCI60 59 2.1 Conjunto de Datos NCI60..................... 59 2.2 Procesamiento de Datos...................... 61 2.2.1 An´alisisde ontolog´ıas:integraci´onde datos en una red. 63 2.3 Resultados............................. 64 2.3.1 Interestructura....................... 64 2.3.2 Configuraci´onCompromiso................ 65 2.3.3 Proyecci´onde genes usando Biplot............ 66 2.3.4 Selecci´onde genes comunes a todas las tablas usando Biplot........................... 67 2.4 An´alisisde ontolog´ıas: red de relaciones de genes seleccionados y genes activados ante la presencia de distintos tejidos.... 79 2.5 Discusi´on.............................. 95 Conclusiones 97 Bibliograf´ıa 110 Anexo 111 ´Indice de figuras 1 Evoluci´onde la cantidad de trabajos publicados sobre: expre- si´ongen´eticaen c´ancera lo largo de los ´ultimos36 a~nos.... 10 2 Evoluci´ontemporal de los trabajos publicados sobre integra- ci´onde conjuntos de datos ´omicos................ 12 3 Evoluci´ontemporal de los trabajos publicados sobre integra- ci´onde datos ´omicosen c´ancer.................. 13 4 Estructura de doble h´elicedel ADN............... 14 5 Esquema de un experimento de dos tintes............ 15 6 Esquema del conjunto de datos obtenidos a partir de varios experimentos de microarreglos. Se mide variabilidad gen´etica sobre las mismas muestras.................... 19 7 Esquema del conjunto de la matriz de datos generada a partir de varios experimentos de microarreglos realizados sobre las mismas muestras.......................... 21 8 Esquema para obtener t´erminosy genes asociados al c´ancer.. 29 9 Proyecci´onde la configuraci´oneucl´ıdeade las tablas originales 0 Wks................................. 36 10 Esquema de remuestreo sobre la matriz compromiso...... 50 11 Flujo de trabajo pre-procesamiento de datos.......... 61 12 Diagrama de Venn que muestra las intersecciones de los genes entre las distintas tablas..................... 62 VI ´INDICE DE FIGURAS VII 13 Proyecci´onde la configuraci´oneucl´ıdeade las tablas. Las pla- taformas Affymetrix HGU133 y HGU95 tienen la misma es- tructura y son similares a la plataforma Agilent........ 69 14 Proyecci´onde las observaciones medias (l´ıneascelulares) en el compromiso........................... 70 15 Proyecci´onde las observaciones medias (l´ıneascelulares) en el compromiso. En cada uno de los gr´aficos,se destaca la proyecci´onde un tejido...................... 71 16 Elipses de confianza para las l´ıneas celulares.......... 72 17 Razones bootstrap para la primer dimensi´ondel compromiso. 73 18 Razones bootstrap para la segunda dimensi´ondel compromiso. 74 19 Proyecci´onde los genes de todas las tablas sobre el compro- miso usando Biplot........................ 75 20 Proyecci´onde los genes de todas las tablas sobre el compro- miso usando Biplot........................ 76 21 Mapa de calor de los genes seleccionados y tejidos tumorales. 79 22 Proyecci´onde los tejidos tumorales en el compromiso, usando s´ololos genes seleccionados.................... 80 23 Genes relacionados a la presencia de carcinoma de mama... 82 24 Genes relacionados a la presencia de carcinoma de colon.... 83 25 Genes relacionados a la presencia de leucemia.......... 84 26 Genes relacionados a la presencia de carcinoma de pulm´on.. 85 27 Genes relacionados a la presencia de melanoma......... 86 28 Genes relacionados a la presencia de carcinoma de ovarios... 87 29 Genes relacionados a la presencia de c´ancerde pr´ostata.... 88 30 Genes relacionados a la presencia de c´ancerrenal........ 89 31 Genes relacionados a la presencia de c´ancerde SNC...... 90 32 Red funcional: lista de genes seleccionados........... 92 33 T´erminosenriquecidos presentes en varios grupos....... 94 34 Lista de genes relacionados con carcinoma por la literatura.. 113 35 Lista de genes relacionados con Genetical Disorden en la li- teratura............................... 114 36 Lista de genes relacionados con hiperplasia por la literatura.. 115 37 Lista de genes relacionados con neoplasma por la literatura.. 115 38 Lista de genes relacionados con NonNeoplastic por la literatura.116 39 Lista de genes relacionados con polipos por la literatura.... 116 40 Distancia entre los grupos derivados del an´alisisde ontolog´ıas. 117 ´Indice de cuadros 1 Dimensiones de las tablas de datos............... 62 2 Lista de genes seleccionados comunes a todas las tablas.... 67 3 Relaciones entre genes seleccionados y tejidos tumorales.... 77 4 Comparaci´onentre los enfoques cl´asicoy propuesto...... 96 5 Funciones y genes dentro de los grupos............. 112 Introducci´on Los m´etodos estad´ısticoscl´asicospermiten estudiar problemas en dos modos: individuos y variables. No obstante, numerosos problemas de diversas ´areas de conocimiento poseen una naturaleza m´ascompleja y requieren del estudio simult´aneode tres modos (individuos, variables y diferentes condiciones ex- perimentales o temporales). Para su abordaje, se han desarrollado distintas propuestas metodol´ogicas,entre ellas, las comprendidas bajo el nombre de \M´etodos