Heidi Mara Do Rosário Sousa Estudo De Modelos De Classificação
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDADE ESTADUAL DE CAMPINAS Instituto de Matemática, Estatística e Computação Científica HEIDI MARA DO ROSÁRIO SOUSA ESTUDO DE MODELOS DE CLASSIFICAÇÃO COM APLICAÇÃO A DADOS GENÔMICOS Campinas 2019 HEIDI MARA DO ROSÁRIO SOUSA ESTUDO DE MODELOS DE CLASSIFICAÇÃO COM APLICAÇÃO A DADOS GENÔMICOS Dissertação apresentada ao Instituto de Matemática, Estatística e Computação Científica da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do título de Mestra em Estatística. Orientador: Benilton de Sá Carvalho ESTE EXEMPLAR CORRESPONDE À VERSÃO FINAL DA DISSERTAÇÃO DEFENDIDA PELA ALUNA HEIDI MARA DO ROSÁRIO SOUSAE ORIENTADA PELO PROF.DR. BENILTON DE SÁ CARVALHO. CAMPINAS 2019 Ficha catalográfica Universidade Estadual de Campinas Biblioteca do Instituto de Matemática, Estatística e Computação Científica Ana Regina Machado - CRB 8/5467 Sousa, Heidi Mara do Rosário, 1991- So85e SouEstudo de modelos de classificação com aplicação a dados genômicos / Heidi Mara do Rosário Sousa. – Campinas, SP : [s.n.], 2019. SouOrientador: Benilton de Sá Carvalho. SouDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica. Sou1. Microarranjos de DNA. 2. Genotipagem. 3. Genética - Métodos estatísticos. 4. Algoritmos. 5. Redes neurais (Computação). I. Carvalho, Benilton de Sá, 1979-. II. Universidade Estadual de Campinas. Instituto de Matemática, Estatística e Computação Científica. III. Título. Informações para Biblioteca Digital Título em outro idioma: Study of classification models with application to genomic data Palavras-chave em inglês: DNA microarrays Genotyping Genetics - Statistical methods Algorithms Neural networks (Computer science) Área de concentração: Estatística Titulação: Mestra em Estatística Banca examinadora: Benilton de Sá Carvalho [Orientador] Júlia Maria Pavan Soler Samara Flamini Kiihl Data de defesa: 31-05-2019 Programa de Pós-Graduação: Estatística Identificação e informações acadêmicas do(a) aluno(a) - ORCID do autor: https://orcid.org/0000-0002-8630-780 - Currículo Lattes do autor: http://lattes.cnpq.br/3075263212674826 Powered by TCPDF (www.tcpdf.org) Dissertação de Mestrado defendida em 31 de maio de 2019 e aprovada pela banca examinadora composta pelos Profs. Drs. Prof(a). Dr(a). BENILTON DE SÁ CARVALHO Prof(a). Dr(a). JÚLIA MARIA PAVAN SOLER Prof(a). Dr(a). SAMARA FLAMINI KIIHL A Ata da Defesa, assinada pelos membros da Comissão Examinadora, consta no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria de Pós-Graduação do Instituto de Matemática, Estatística e Computação Científica. I dedicate my master dissertation to Nossa Senhora Aparecida, my family and my friends. Especially my parents Elsa and Américo and my love Luís with all my love and admiration. Agradecimentos A Nossa Senhora Aparecida que me acolheu e sempre está ao meu lado me protegendo, me ouvindo e cuidando de mim. Ela me da força e não permite que eu desista nos momentos difíceis. À minha família, pelo amor, cuidado, apoio e compreensão. Aos meus pais, Elsa do Rosário e Américo Sousa, por serem meus pilares, meu porto seguro e minha maior inspiração. À Luís Rocha, por todo carinho, companheirismo, incentivo, paciência e apoio. À Val, Janice, Cátia e toda família P5, pela amizade preciosa, pelo carinho e apoio nos momentos de fraqueza. Ao meu Orientador, professor Benilton de Sá Carvalho, pela confiança, paciência, disposição de ajudar e principalmente por todo o ensinamento inestimável. Aos professores do Departamento de Estatística da Universidade Estadual de Campinas, pela contribuição à minha formação profissional. À Elainy e Joubert, pela parceria incrível nos estudos. A todos que de alguma forma contribuíram para realização desse trabalho. O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001. Resumo A tecnologia de microarranjos ou chip de DNA é amplamente utilizada na ciência biomédica. Tem como objetivo realizar triagem de milhões de Polimorfismo de nucleotídeo único (SNP) em todo o genoma, possibilitando a identificação de variantes na sequência de DNA que estejam associadas com fenótipos de interesse. Essa tecnologia revolucionou estudos de associação, genome-wide association studies (GWAS), exatamente por permitir a análise simultânea de vários marcadores [14]. O ponto de partida para determinar a associação entre fenótipos e doenças, é fazer chamadas de genótipos (AA, AB ou BB) para cada SNP. Portanto, vários procedimentos estatísticos sofisticados são necessários, culminando na aplicação de um método de classificação. O objetivo desta dissertação é estudar técnicas de pré-processamento de dados de microarranjos; compreender a metodologia do Modelo Linear Robusto Corrigido com a distância de Mahalanobis (CRLMM) e propor um novo método de genotipagem utilizando modelos de classificação por Redes Neurais Artificiais (RNA), utilizando medidas quantitativas obtidas por meio de microarranjos. Utilizou-se métricas que associem acurácia e qualidade de agrupamento para a avaliação dos métodos de classificação. O maior ganho na aplicação de redes neurais tem sido observado na habilidade de identificar mais apropriadamente observações heterozigotas, quando comparado ao CRLMM, ao mesmo tempo que a precisão de chamadas de homozigotos permanece praticamente estável. Além disso, as redes neurais permitem uma classificação mais concordante com os processos biológicos nas caudas da distribuição da log-razão M. Palavras-chave: Genotipagem, SNP, algoritmos de aprendizado supervisionados. Abstract Microarray technology or DNA chip is widely used in biomedical science. It aims to screen millions of single nucleotide polymorphisms (SNPs) throughout the genome, enabling the identification of variants in the DNA sequence that are associated with phenotypes of interest. This technology revolutionized association studies, genome-wide association studies (GWAS), precisely by allowing the simultaneous analysis of multiple markers. The starting point for determining the association between phenotypes and diseases is to make genotype calls (AA, AB or BB) for each SNP. Therefore, several sophisticated statistical procedures are necessary, culminating in the application of a classification method. The objective of this thesis is to study microarray data preprocessing techniques; to understand the methodology of the Corrected Robust Linear Model with Mahalanobis Distance (CRLMM) and propose a new method of genotyping using Artificial Neural Network (ANN) classification models using quantitative measurements obtained through microarray. Were used metrics that associate accuracy and clustering quality for the evaluation of classification methods. The greatest gain in the application of neural networks has been observed in the ability to more correctly identify heterozygous observations when compared to CRLMM, while the accuracy of homozygous calls remains practically stable. In addition, the neural networks allow a more concordant classification, with the biological processes, in the tail of the distribution of the log M ratio. Keywords: Microarray, Artificial Neural Network (ANN), Corrected Robust Linear Model with Mahalanobis distance (CRLMM). Lista de Figuras 1.1 Distribuição do DNA entre o núcleo e mitocôndria em uma célula humana . 14 1.2 Representação das moléculas de DNA e RNA . 15 1.3 Dogma Central da Biologia Molecular . 15 1.4 O microarranjo de oligonucleotídeos . 18 2.1 Efeito da correção de fundo em dados de microarranjo de SNP . 30 2.2 Efeito da normalização quantílica em microarranjos de SNP . 32 2.3 A utilização de modelos de regressão combinada com o algoritmo EM . 41 3.1 A utilização das estatísticas M e S . 44 3.2 A representação de um neurônio humano . 51 3.3 Uma rede neural feed-forward de única saída . 53 3.4 Uma rede neural feed-forward com múltiplos níveis de saída . 53 3.5 Utilização de Bayes Empírico na predição da localização de classes . 62 5.1 Topologia de rede neural selecionada para genotipagem . 70 5.2 Estatísticas M e S com genótipos dados pelo projeto HapMap . 74 5.3 Estatísticas M e S com genótipos dados pelo algoritmo CRLMM . 74 5.4 Estatísticas M e S com genótipos dados pela predição via Redes Neurais . 75 5.5 Desempenho dos algoritmos CRLMM e RN para SNP com boa separação . 76 Lista de Tabelas 2.1 Exemplo para polimento de mediana . 34 2.2 Exemplo de quarteto de sondas . 35 2.3 Exemplo numérico de polimento de mediana . 35 3.1 Correspondência entre terminologias de redes neurais biológicas e artificiais. 52 4.1 Classificação com dados desbalanceados . 64 4.2 Matriz de confusão binária . 64 4.3 Adaptação de matriz de confusão binária para dados não-binários . 65 5.1 Acurácia média para diferentes topologias de redes . 70 5.2 Matriz de confusão - RNA . 71 5.3 Matriz de confusão - CRLMM . 71 5.4 Matriz de confusão para RN no genótipo AA . 71 5.5 Matriz de confusão para CRLMM no genótipo AA . 71 5.6 Matriz de confusão para RN no genótipo AG . 71 5.7 Matriz de confusão para CRLMM no genótipo AG . 71 5.8 Matriz de confusão para RN no genótipo GG . 72 5.9 Matriz de confusão para CRLMM no genótipo GG . 72 5.10 Desempenho dos algoritmos de RN e CRLMM para SNP_A-1807747 .... 73 5.11 Silhueta média por combinação de método e SNP . 77 5.12 CSM por combinação de algoritmo e SNP . 77 Conteúdo 1 Introdução 13 1.1 Biologia Molecular . 13 1.2 Consórcio HapMap . 16 1.3 Microarranjos de SNP . 16 1.4 Técnicas de Aprendizado de Máquina . 18 1.5 Objetivo . 19 2 Pré-Processamento de Microarranjos de SNP 21 2.1 Correção de Intensidade de Sequência Bruta por Conteúdo de Sequência e Comprimento de Fragmento . 22 2.2 Correção do Ruído de Fundo . 23 2.2.1 Método MAS 5.0 . 23 2.2.2 Método RMA . 24 2.3 Normalização . 29 2.3.1 Normalização Quantílica . 29 2.3.2 Loess Cíclico . 31 2.3.3 Contraste . 31 2.3.4 Normalização de Estabilização de Variância (VSN) . 32 2.4 Sumarização . 33 2.4.1 Polimento de Mediana . 33 2.5 Ajuste de Log-Razão vs Log-Intensidade . 35 2.5.1 Definição de Modelo de Mistura Finita . 37 2.5.2 Estimação dos Parâmetros via Algoritmo EM .