UNIVERSIDADE ESTADUAL DE CAMPINAS

Instituto de Matemática, Estatística e Computação Científica

HEIDI MARADO ROSÁRIO SOUSA

ESTUDO DE MODELOS DE CLASSIFICAÇÃO COM APLICAÇÃOADADOSGENÔMICOS

Campinas 2019 HEIDI MARADO ROSÁRIO SOUSA

ESTUDO DE MODELOS DE CLASSIFICAÇÃO COM APLICAÇÃOADADOSGENÔMICOS

Dissertação apresentada ao Instituto de Matemática, Estatística e Computação Científica da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do título de Mestra em Estatística.

Orientador: Benilton de Sá Carvalho

ESTE EXEMPLAR CORRESPONDE À VERSÃO FINAL DA

DISSERTAÇÃO DEFENDIDA PELA ALUNA HEIDI MARA

DO ROSÁRIO SOUSAE ORIENTADA PELO PROF.DR.

BENILTON DE SÁ CARVALHO.

CAMPINAS 2019 Ficha catalográfica Universidade Estadual de Campinas Biblioteca do Instituto de Matemática, Estatística e Computação Científica Ana Regina Machado - CRB 8/5467

Sousa, Heidi Mara do Rosário, 1991- So85e SouEstudo de modelos de classificação com aplicação a dados genômicos / Heidi Mara do Rosário Sousa. – Campinas, SP : [s.n.], 2019.

SouOrientador: Benilton de Sá Carvalho. SouDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica.

Sou1. Microarranjos de DNA. 2. Genotipagem. 3. Genética - Métodos estatísticos. 4. Algoritmos. 5. Redes neurais (Computação). I. Carvalho, Benilton de Sá, 1979-. II. Universidade Estadual de Campinas. Instituto de Matemática, Estatística e Computação Científica. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Study of classification models with application to genomic data Palavras-chave em inglês: DNA microarrays Genotyping Genetics - Statistical methods Algorithms Neural networks (Computer science) Área de concentração: Estatística Titulação: Mestra em Estatística Banca examinadora: Benilton de Sá Carvalho [Orientador] Júlia Maria Pavan Soler Samara Flamini Kiihl Data de defesa: 31-05-2019 Programa de Pós-Graduação: Estatística

Identificação e informações acadêmicas do(a) aluno(a) - ORCID do autor: https://orcid.org/0000-0002-8630-780 - Currículo Lattes do autor: http://lattes.cnpq.br/3075263212674826

Powered by TCPDF (www.tcpdf.org) Dissertação de Mestrado defendida em 31 de maio de 2019 e aprovada

pela banca examinadora composta pelos Profs. Drs.

Prof(a). Dr(a). BENILTON DE SÁ CARVALHO

Prof(a). Dr(a). JÚLIA MARIA PAVAN SOLER

Prof(a). Dr(a). SAMARA FLAMINI KIIHL

A Ata da Defesa, assinada pelos membros da Comissão Examinadora, consta no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria de Pós-Graduação do Instituto de Matemática, Estatística e Computação Científica. I dedicate my master dissertation to Nossa Senhora Aparecida, my family and my friends. Especially my parents Elsa and Américo and my love Luís with all my love and admiration. Agradecimentos

A Nossa Senhora Aparecida que me acolheu e sempre está ao meu lado me protegendo, me ouvindo e cuidando de mim. Ela me da força e não permite que eu desista nos momentos difíceis. À minha família, pelo amor, cuidado, apoio e compreensão. Aos meus pais, Elsa do Rosário e Américo Sousa, por serem meus pilares, meu porto seguro e minha maior inspiração. À Luís Rocha, por todo carinho, companheirismo, incentivo, paciência e apoio. À Val, Janice, Cátia e toda família P5, pela amizade preciosa, pelo carinho e apoio nos momentos de fraqueza. Ao meu Orientador, professor Benilton de Sá Carvalho, pela confiança, paciência, disposição de ajudar e principalmente por todo o ensinamento inestimável. Aos professores do Departamento de Estatística da Universidade Estadual de Campinas, pela contribuição à minha formação profissional. À Elainy e Joubert, pela parceria incrível nos estudos. A todos que de alguma forma contribuíram para realização desse trabalho. O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001. Resumo

A tecnologia de microarranjos ou chip de DNA é amplamente utilizada na ciência biomédica. Tem como objetivo realizar triagem de milhões de Polimorfismo de nucleotídeo único (SNP) em todo o genoma, possibilitando a identificação de variantes na sequência de DNA que estejam associadas com fenótipos de interesse. Essa tecnologia revolucionou estudos de associação, genome-wide association studies (GWAS), exatamente por permitir a análise simultânea de vários marcadores [14]. O ponto de partida para determinar a associação entre fenótipos e doenças, é fazer chamadas de genótipos (AA, AB ou BB) para cada SNP. Portanto, vários procedimentos estatísticos sofisticados são necessários, culminando na aplicação de um método de classificação. O objetivo desta dissertação é estudar técnicas de pré-processamento de dados de microarranjos; compreender a metodologia do Modelo Linear Robusto Corrigido com a distância de Mahalanobis (CRLMM) e propor um novo método de genotipagem utilizando modelos de classificação por Redes Neurais Artificiais (RNA), utilizando medidas quantitativas obtidas por meio de microarranjos. Utilizou-se métricas que associem acurácia e qualidade de agrupamento para a avaliação dos métodos de classificação. O maior ganho na aplicação de redes neurais tem sido observado na habilidade de identificar mais apropriadamente observações heterozigotas, quando comparado ao CRLMM, ao mesmo tempo que a precisão de chamadas de homozigotos permanece praticamente estável. Além disso, as redes neurais permitem uma classificação mais concordante com os processos biológicos nas caudas da distribuição da log-razão M.

Palavras-chave: Genotipagem, SNP, algoritmos de aprendizado supervisionados. Abstract

Microarray technology or DNA chip is widely used in biomedical science. It aims to screen millions of single nucleotide polymorphisms (SNPs) throughout the genome, enabling the identification of variants in the DNA sequence that are associated with phenotypes of interest. This technology revolutionized association studies, genome-wide association studies (GWAS), precisely by allowing the simultaneous analysis of multiple markers. The starting point for determining the association between phenotypes and diseases is to make genotype calls (AA, AB or BB) for each SNP. Therefore, several sophisticated statistical procedures are necessary, culminating in the application of a classification method. The objective of this thesis is to study microarray data preprocessing techniques; to understand the methodology of the Corrected Robust Linear Model with Mahalanobis Distance (CRLMM) and propose a new method of genotyping using Artificial Neural Network (ANN) classification models using quantitative measurements obtained through microarray. Were used metrics that associate accuracy and clustering quality for the evaluation of classification methods. The greatest gain in the application of neural networks has been observed in the ability to more correctly identify heterozygous observations when compared to CRLMM, while the accuracy of homozygous calls remains practically stable. In addition, the neural networks allow a more concordant classification, with the biological processes, in the tail of the distribution of the log M ratio.

Keywords: Microarray, Artificial Neural Network (ANN), Corrected Robust Linear Model with Mahalanobis distance (CRLMM). Lista de Figuras

1.1 Distribuição do DNA entre o núcleo e mitocôndria em uma célula humana . . . 14 1.2 Representação das moléculas de DNA e RNA ...... 15 1.3 Dogma Central da Biologia Molecular ...... 15 1.4 O microarranjo de oligonucleotídeos ...... 18

2.1 Efeito da correção de fundo em dados de microarranjo de SNP ...... 30 2.2 Efeito da normalização quantílica em microarranjos de SNP ...... 32 2.3 A utilização de modelos de regressão combinada com o algoritmo EM . . . . . 41

3.1 A utilização das estatísticas M e S ...... 44 3.2 A representação de um neurônio humano ...... 51 3.3 Uma rede neural feed-forward de única saída ...... 53 3.4 Uma rede neural feed-forward com múltiplos níveis de saída ...... 53 3.5 Utilização de Bayes Empírico na predição da localização de classes ...... 62

5.1 Topologia de rede neural selecionada para genotipagem ...... 70 5.2 Estatísticas M e S com genótipos dados pelo projeto HapMap ...... 74 5.3 Estatísticas M e S com genótipos dados pelo algoritmo CRLMM ...... 74 5.4 Estatísticas M e S com genótipos dados pela predição via Redes Neurais . . . . 75 5.5 Desempenho dos algoritmos CRLMM e RN para SNP com boa separação . . . 76 Lista de Tabelas

2.1 Exemplo para polimento de mediana ...... 34 2.2 Exemplo de quarteto de sondas ...... 35 2.3 Exemplo numérico de polimento de mediana ...... 35

3.1 Correspondência entre terminologias de redes neurais biológicas e artificiais. . 52

4.1 Classificação com dados desbalanceados ...... 64 4.2 Matriz de confusão binária ...... 64 4.3 Adaptação de matriz de confusão binária para dados não-binários ...... 65

5.1 Acurácia média para diferentes topologias de redes ...... 70 5.2 Matriz de confusão - RNA ...... 71 5.3 Matriz de confusão - CRLMM ...... 71 5.4 Matriz de confusão para RN no genótipo AA ...... 71 5.5 Matriz de confusão para CRLMM no genótipo AA ...... 71 5.6 Matriz de confusão para RN no genótipo AG ...... 71 5.7 Matriz de confusão para CRLMM no genótipo AG ...... 71 5.8 Matriz de confusão para RN no genótipo GG ...... 72 5.9 Matriz de confusão para CRLMM no genótipo GG ...... 72 5.10 Desempenho dos algoritmos de RN e CRLMM para SNP_A-1807747 .... 73 5.11 Silhueta média por combinação de método e SNP ...... 77 5.12 CSM por combinação de algoritmo e SNP ...... 77 Conteúdo

1 Introdução 13 1.1 Biologia Molecular ...... 13 1.2 Consórcio HapMap ...... 16 1.3 Microarranjos de SNP ...... 16 1.4 Técnicas de Aprendizado de Máquina ...... 18 1.5 Objetivo ...... 19

2 Pré-Processamento de Microarranjos de SNP 21 2.1 Correção de Intensidade de Sequência Bruta por Conteúdo de Sequência e Comprimento de Fragmento ...... 22 2.2 Correção do Ruído de Fundo ...... 23 2.2.1 Método MAS 5.0 ...... 23 2.2.2 Método RMA ...... 24 2.3 Normalização ...... 29 2.3.1 Normalização Quantílica ...... 29 2.3.2 Loess Cíclico ...... 31 2.3.3 Contraste ...... 31 2.3.4 Normalização de Estabilização de Variância (VSN) ...... 32 2.4 Sumarização ...... 33 2.4.1 Polimento de Mediana ...... 33 2.5 Ajuste de Log-Razão vs Log-Intensidade ...... 35 2.5.1 Definição de Modelo de Mistura Finita ...... 37 2.5.2 Estimação dos Parâmetros via Algoritmo EM ...... 38 2.5.3 Aplicação do Algoritmo EM em Dados de SNP ...... 41 3 Modelagem Estatística para Genotipagem 42 3.1 Histórico ...... 42 3.2 CRLMM ...... 43 3.3 Redes Neurais ...... 51 3.4 Predição de Locação/Escala para Genótipos Faltantes ...... 56 3.4.1 Distribuição Normal Multivariada ...... 56 3.4.2 Aplicação da Distribuição Condicional na Estimação de Parâmetros . . 58 3.4.3 Provas ...... 59 3.5 Bayes Empírico ...... 60

4 Métricas de Qualidade 63 4.1 Matriz de Confusão ...... 63 4.2 Métrica para Avaliação de Agrupamento ...... 66

5 Aplicação com os Dados HapMap 69

6 Conclusão 78

Bibliografia 81 13

Capítulo 1

Introdução

1.1 Biologia Molecular

Os seres vivos estão em eterna evolução e adaptação. No processo da vida, eles nascem, crescem, reproduzem e morrem. Durante a reprodução ocorre a transmissão de informações genéticas aos seus descendentes. Em 1865, o segredo da hereditariedade foi desvendado por Gregor Mendel, com o experimento de cruzamento de ervilhas [10]. Dessa forma, surgiu uma nova ciência: a genética. Assim, foi possível ter um melhor entendimento da hereditariedade que constitui um componente importante do diagnóstico e tratamento de muitas doenças [32]. O Projeto Genoma Humano (PGH) foi um empreendimento internacional que tinha como objetivo identificar a sequência correta de todos os 3 bilhões de nucleotídeos do genoma humano [42]. Com isso, no início do século XXI, foi apresentado um rascunho do genoma humano [32]. Com o avanço da tecnologia, houve uma melhoria na aquisição de dados genômicos, chegando, assim, mais perto de uma versão final do genoma humano. Este projeto habilita a prática da medicina de precisão, na qual informações genéticas de um indivíduo podem ser utilizadas para a melhor adequação de tratamentos médicos para esta pessoa. A medicina de precisão, assim como outras aplicações que dependam de informações genéticas em seus níveis primários, utiliza o ácido desoxirribonucleico (DNA) como ponto inicial de informações. O DNA é uma macromolécula polimérica, na qual cada unidade é composta por três elementos:

• Uma base nitrogenada: Adenina (A), Timina (T), Citosina (C) ou Guanina (G);

• Uma molécula de açúcar com cinco carbonos (desoxirribose);

• Um grupo de fosfato. 14

Essa unidade chama-se nucleotídeo [35]. A estrutura original do DNA é uma hélice dupla que assemelha-se a uma escadaria em espiral, na qual os "corrimões"são formados por fosfato e açúcar e os "degraus"são os pares de bases nitrogenada, na qual A de uma cadeia liga com T da outra e G com C [32]. Segmentos de DNA se denominam de cromossomos e estão contidos no núcleo das células dos organismos humanos [35]. O DNA carrega a informação genética de características transmitidas de maneira hereditária. O organismo humano é eucarioto e, por isso, suas células possuem um núcleo que contém o genoma e é separado do citoplasma [32]. A maior parte da informação genética está no DNA, dentro do núcleo celular. Além do DNA nuclear, uma parte do DNA também é encontrada nas mitocôndrias.

Figura 1.1: Distribuição do DNA entre o núcleo e mitocôndria em uma célula humana. Fonte: http://www.grupoescolar.com/pesquisa/celulas-procariotas-e-eucariotas.html

O elo molecular existente entre o código de DNA dos genes e o código de aminoácidos das proteínas é o ácido ribonucleico (RNA). A estrutura química do RNA difere do DNA porque cada nucleotídeo no RNA possui um componente açúcar ribose no lugar da desoxirribose e a uracila (U) substitui a timina (T). Além disso, o RNA é uma molécula de filamento único, enquanto que a estrutura do DNA é em dupla-fita [32]. A síntese proteica, processo pelo qual a informação genética é utilizada para especificar funções celulares, ocorre no citoplasma [32]. No DNA, os segmentos de genes codificados em proteínas são denominados exons e são alternados por íntrons. As relações de informação entre o DNA, o RNA e a proteína são descritas no Dogma Central da Biologia Molecular: a informação genética contida no DNA é replicada internamente no núcleo e, também, transcrita em uma molécula intermediária, o RNA; o RNA transporta essa informação para o citoplasma, onde é traduzida em uma sequência de aminoácidos, dando origem à proteína, conforme apresenta a Figura 1.3. De maneira simplificada, as proteínas são sequências lineares de aminoácidos. Os aminoácidos, por sua vez, são conjuntos de três nucleotídeos. Desta maneira, podemos 15

Figura 1.2: Representação das moléculas de DNA e RNA. Fonte: http://www.djalmasantos.files.wordpress.com/2017/02/0116.png?w=500h=507

Figura 1.3: Dogma Central da Biologia Molecular. Fonte: http://dicionariosaude.com enumerar 43 = 64 possíveis aminoácidos, dos quais apenas 20 não são redundantes [35]. Sequências destes aminoácidos originam em proteína, e proteínas distintas podem ter funções celulares distintas. Desta maneira, a alteração de um único nucleotídeo pode modificar completamente o comportamento esperado de uma proteína. As consequências desta mudança de comportamento incluem o desenvolvimento de doenças crônicas ou, por exemplo, a forma com que um indivíduo responde a uma certa droga. Assim, é de extrema importância a habilidade de determinar-se com precisão o genótipo de um indivíduo. 16 1.2 Consórcio HapMap

O Consórcio Internacional HapMap foi resultado da colaboração de pesquisadores do Canadá, China, Japão, Nigéria, Reino Unido e Estados Unidos. Seu objetivo foi produzir um mapa da variação observada no genoma humano [28]. O primeiro grande marco do projeto foi a genotipagem de 1,1 milhão de marcadores do tipo SNP em 270 indivíduos de quatro populações mundiais. Outros 4,6 milhões de SNPs foram genotipados na segunda fase do projeto, concluída em 2005. Os dados do projeto estão publicamente disponíveis (http://www.hapmap.org). Esta iniciativa é vital para o entendimento da variabilidade genética em humanos. Ela fundamenta a existência de diferenças de padrões genéticos entre indivíduos de diversas etnias/populações. Desta maneira, caracteriza-se como um recurso essencial para a compreensão da base genética de doenças comuns [15]. Deve-se ressaltar que os genótipos produzidos pelo projeto HapMap são considerados "padrão ouro", pois foram obtidos pelo consenso de resultados de diferentes laboratórios [13]. Desta maneira, trata-se de uma base de dados amplamente utilizada para a construção de algoritmos estatísticos para a genotipagem de indivíduos que usem, como tecnologia de aquisição, os microarranjos.

1.3 Microarranjos de SNP

O microarranjo de SNP é uma superfície acrílica, de aproximadamente 1,2푐푚2, disposto de maneira matricial e amplamente utilizado em biomédicas para determinação de genótipos em milhares sítios genômicos simultaneamente. Em cada célula dessa matriz, há milhões de moléculas sintéticas idênticas, denominadas sondas. Para produtos do fabricante Affymetrix, elas são constituídas por 25 bases [13]. Nesta célula, cada sonda possui como alvo a mesma unidade genômica possível de variação, a quem denominados de SNP. Um certo SNP é coberto por um conjunto de sondas, composto por 4 a 20 sondas, como no produto de expressão gênica da mesma empresa [25]. Dependendo do fabricante da plataforma de SNP, estas sondas (chamadas de perfect match – PM, por possuírem correspondência perfeita) podem ser acompanhadas de um igual número de sondas, ditas mismatch – MM. As sondas do tipo MM tinham como objetivo a quantificação de ruídos, mas deixaram de ser empregadas, por conta do aumento de variância observado nos resultados finais. As variações supracitadas, SNPs, ocorrem naturalmente entre indivíduos de uma mesma espécie e, no caso da espécie humana, são responsáveis por cerca de 90% de toda a variabilidade 17 biológica observada. Os SNPs investigados pelo microarranjo aqui estudado, Affymetrix Genomewide SNP 6.0, são majoritariamente bialélicos. O alelo de menor frequência em um SNP é observado em, pelo menos, 1% da população [11]. Genericamente, os dois alelos de um SNP são chamados de alelos A e B [13]. No produto em questão, Affymetrix Genomewide SNP 6.0, em média, cada SNP é investigado por um quarteto de sondas por alelo. Carvalho e outros [13], juntamente com [22], descrevem o experimento de microarranjo da seguinte maneira:

• O DNA é fragmentado por enzimas de restrição;

• Os fragmentos são amplificados reação em cadeia da polimerase (PCR);

• A amostra é rotulada e hibridizada no microarranjo;

• Um scanner especializado quantifica a intensidade de luz refletida pela amostra hibridizada.

Esta referida intensidade de luz é proporcional à abundância da molécula-alvo da sonda mensurada. Desta maneira, é possível aplicar modelos estatísticos nestes dados brutos, afim de se obter estatísticas relevantes para o objetivo em questão. A Figura 1.4 ilustra, de modo simplificado, o funcionamento da tecnologia do microarranjo. A amostra em questão tem seu material genético (DNA/RNA) fragmentado por enzimas de restrição e amplificado por reação em cadeia de polimerase (PCR). Após estes passos, os fragmentos são rotulados com material fluorescente e hibridizados ao microarranjo. Neste passo, os fragmentos da amostra ligam-se a sondas de sequência complementar na superfície do microarranjo. Um scanner especializado faz a captura da imagem da superfície do microarranjo e porções do material genético com maior abundância são identificados, na imagem, como regiões de maior brilho. O produto Affymetrix Genoma-Wide Human SNP Array 6.0 é uma plataforma de microarranjo avançada, com mais de 1,8 milhões de marcadores, incluindo 946.000 sondas para a detecção de números de cópias e classificação de 906.600 SNPs em uma única matriz [3]. A distância mediana entre os 1,8 milhões de sonda é inferior a 700 bases [2]. O produto permite que pesquisadores projetem estudos de associação com maior poder estatístico [3]. Essa tecnologia revolucionou estudos de associação, genome-wide association studies (GWAS), exatamente por permitir a análise simultânea de tantos marcadores [14]. O ponto de partida para estudos do tipo GWAS é a obtenção de genótipos para um grande número de sítios. Em 18

A)

B)

C) Figura 1.4: O microarranjo de oligonucleotídeos. Fonte: http://www.affymetrix.com

seguida, utilizam-se tais genótipos como preditores em modelos estatísticos dos fenótipos de interesse.

1.4 Técnicas de Aprendizado de Máquina

Atualmente, imensas quantidades de dados são gerados e armazenados todos os dias em empresas, supermercados, nas engenharias, na biologia, na medicina, entre outros. Desse modo, é necessário técnicas com maior capacidade de armazenamento, menor custo, maior velocidade e eficiência para transformar esses dados em conhecimento para entender necessidades e prever interesses. Segundo Alpaydin,[4], aprendizado de máquina ou em inglês não é simplesmente um método de análise de dados, é também uma parte de inteligencia artificial 19 porque são técnicas que podem aprender e adaptar a mudanças, sem precisar prever e fornecer soluções para todas as situações possíveis. Um dos principais objetivos das técnicas de aprendizado de máquina é inferir a partir de uma amostra, usando teoria estatística na construção de modelos matemáticos . Em outras palavras, técnicas de aprendizado de máquina programam computadores para otimizar um critério de desempenho, e para aprender determinado comportamento ou padrão automaticamente a partir de exemplos ou observações [4]. As principais categorias de aprendizado de máquina são supervisionado, não supervisionado e semi supervisionado. No aprendizado não supervisionado, o objetivo é encontrar padrões nos dados sem supervisão, ou seja, sem classe pré-definida. Aprendizado supervisionada, tem como objetivo aprender um mapeamento da entrada para uma saída cujos valores corretos são fornecidos por um supervisor, ou seja, utiliza uma série de exemplos já classificados, para induzir um modelo que seja capaz de classificar novas instâncias de forma precisa. Objetos novos são classificadas com base no aprendizado obtido com os dados de treinamento que contém os rótulos indicando a classe a que elas pertencem [4]. O aprendizado semi supervisionado é parecido com o aprendizado supervisionado, o que os diferenciam é o fato da base de treinamento conter rótulos com classes conhecidas e desconhecidas. Segundo Cássio C. e Silva J., [12], uma das tarefas mais comum do aprendizado supervisionado é a classificação, que visa identificar a qual classe um determinado registro pertence. A classificação é uma tarefa preditiva, de aprendizado de máquina, que define o valor de uma variável desconhecida a partir de variáveis conhecidas. Essa técnica tem como intuito encontrar um modelo que analisa o conjunto de registros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a fim de "aprender"como classificar um novo registro [4].

1.5 Objetivo

O objetivo deste trabalho é compreender as técnicas de preprocessamento de microarranjos de DNA, culminando no estudo da estratégia de classificação supervisionada empregada no método CRLMM e explorar a viabilidade de implementação de outras metodologias. Os objetivos específicos são:

• Estudar técnicas de pré-processamento de dados de microarranjos: correção de fundo, normalização e sumarização; 20

• Compreender detalhes da metodologia CRLMM para genotipagem utilizando microarranjos de alto-rendimento;

• Empregar uma outra estratégia de classificação por algoritmo supervisionado para a obtenção de genótipos para dados de microarranjos;

• Comparar resultados do CRLMM aos obtidos por meio da nova estratégia por meio de métricas que associem acurácia e qualidade de agrupamentos. 21

Capítulo 2

Pré-Processamento de Dados de Microarranjos de SNP

Microarranjos de SNP permitem o estudo de milhões de polimorfismos de nucleotídeo único (SNP) simultaneamente, podendo cobrir todo o genoma. Analisar este tipo de dados, sem nenhum tratamento inicial, exige trafegar entre técnicas estatísticas e computacionais para realizar inferências de interesse. A este primeiro tratamento dos dados, nomeado de pré-processamento, que parte das imagens capturadas pelo microarranjo e retornam ao analista estatística no qual é capaz de aplicar técnicas de classificação para a obtenção de genótipos. De maneira simplificada, o pré-processamento busca a minimização de impacto de variáveis de natureza técnica, permitindo que análises posteriores sejam realizadas sem maiores interferências [29]. Para dados de SNP, o pré-processamento tem como objetivo normalizar e sumarizar as intensidades observadas em quantidades específicas de cada alelo para futura discriminação de classes de genótipos. A variabilidade na qualidade de saída dos microarranjos em diferentes SNPs e lotes de amostras têm influência substancial na precisão das chamadas de genótipos feitas pelos algoritmos existentes [14]. O pré-processamento é, então, um conjunto de procedimentos estatísticos que busca atenuar muitos destes efeitos negativos e consiste de diferentes etapas, que podem incluir: correção de intensidade bruta por conteúdo de sequência e comprimento de fragmento, correção de ruído de fundo, normalização e sumarização. 22 2.1 Correção de Intensidade de Sequência Bruta por Conteúdo de Sequência e Comprimento de Fragmento

Anteriormente, descreveu-se que a geração de dados por microarranjos envolve um passo em que o material genético (neste caso, DNA) é fracionado por enzimas de restrição. A forma com que tais enzimas funcionam é tal que os fragmentos resultantes não possuem exatamente o mesmo tamanho. Este comprimento do fragmento apresenta um forte efeito negativo na intensidade observada da sonda, com fragmentos maiores resultando em valores de intensidade mais baixos. Desta forma, é possível observar um comportamento sistemático de aumento das intensidades à medida que o fragmento reduz em tamanho [14]. De maneira análoga, sondas que são ricas em conteúdo GC apresentam brilho sistematicamente elevado, por conta da dupla ponte de hidrogênio necessária para a estabilidade química. Pode-se, então, utilizar a presença/ausência de cada nucleotídeo ao longo do oligonucleotídeo que representa a sonda, combinada com, por exemplo, splines, para modelar o efeito da sequência de DNA da sonda no brilho observado. Estes dois fatos podem ser facilmente ajustados por meio de um modelo de regressão, conforme apresentado na Equação 2.1.1:

25 ∑︁ ∑︁ log2 (푃 푀) = 휇 + 푔(퐿) + ℎ푏(푡)퐼(푏푡 = 푏) + 휖, (2.1.1) 푏∈퐴,퐶,퐺,푇 푡=1 na qual 푃 푀 é a intensidade de sonda que possuí correspondência perfeita; 휇 é a média geral de intensidade para sonda do tipo PM; 푔(퐿) é o incremento de intensidade derivada (por meio de uma função suave 푔) do comprimento de fragmento 퐿;

ℎ푏(푡) é a função de suavização na localização para um nucleotídeo [40]; ⎧ ⎨⎪1, quando a base na posição 푡 é 푏; 퐼(푏푡 = 푏) = ⎩⎪0, caso contrario.

푏푡 ∈ 퐴, 퐶, 푇, 퐺 representa a base na posição 푡; 휖 é o erro aleatório de média 0, para o qual assume-se distribuição normal

Os coeficientes para todas estas quantidades podem ser estimados por meio de mínimos quadrados. As intensidades PM corrigidas são obtidas subtraindo-se os efeitos estimados de 23 sequência e do comprimento do fragmento.

2.2 Correção do Ruído de Fundo

Um problema comum ao medir sinais ópticos é que as intensidades de luz obtidas são afetadas por fatores como luz difusa e condições ambientais. Por exemplo, se em uma região do microarranjo não acontece hibridização, então, idealmente, a luminosidade observada deve ser nula. Entretanto, a interferência causada pela fluorescência de regiões vizinhas adiciona um ruído positivo e indeterminado, que causa a observação de sinal na região onde esperava-se intensidade nula. Desta forma, é de interesse procurar identificar estas regiões falsamente identificadas como portadoras de sinal e minimizar as quantias ali identificadas. Para isso, diferentes métodos de ajuste podem ser realizados.

2.2.1 Método MAS 5.0

O ajuste de ruído de fundo padrão, disponibilizado pela Affymetrix, é o algoritmo MAS 5.0. Ele é baseado na diferença entre intensidades de sondas de correspondência perfeita e incompatível, 푃 푀 − 푀푀 *. 푀푀 * é uma versão “ajustada” do MM, segundo Wu et. al. [40] é chamada de MM-ideal, usada para evitar valores ajustados menores ou iguais a 0. Esse método de ajuste de fundo, segundo Gentleman e outros [22], funciona da seguinte forma: O chip é dividido em uma grade de 퐾 regiões retangulares igualmente dimensionadas,

푍푘, 푘 = 1, ..., 퐾, na qual o padrão é 퐾 = 16. Para cada região, 푍푘, 2% das intensidades da sonda mais baixas são usados para calcular um valor do ruído de fundo, 푏, para essa grade, 푏푍푘. Em seguida, cada intensidade de sonda é ajustada com base em uma média ponderada de cada valor do ruído de fundo. Os pesos dependem da distância entre a sonda e o centroide da grade. E os pesos são calculados da seguinte forma:

1 푤푘(푥, 푦) = 2 (2.2.1) 푑푘(푥, 푦) + 푠0

2 na qual, 푑푘(푥, 푦) é a distância Euclidiana da locação (푥, 푦) ao centro da região 푘. (푥, 푦) denotam a localização geométrica da sonda no chip. O valor padrão do coeficiente de suavização, 푠0, é 100 [22]. Irizarry et. al. [26] constataram que a transformação de 푃 푀 − 푀푀 * resulta em estimativas de intensidade com variância exagerada. Essa abordagem sacrifica a acurácia para grandes ganhos em precisão. 24

2.2.2 Método RMA

Irizarry e outros [26] desenvolveram a convolução RMA, como alternativa robusta de correção do ruído de fundo. O procedimento utiliza somente sondas de correspondência perfeita, PM, pois notaram um problema principal com o uso de sondas incompatíveis, MM: a subtração 푃 푀 − 푀푀 amplifica a variabilidade da variável resposta. Bolstad et. al. [9] apresentam um modelo geral para o valor da intensidade, 푇 :

푇 = 푋 + 푌, (2.2.2) na qual, 푌 é uma quantidade aleatória devido ao ruído de fundo, geralmente composto de efeitos ópticos e de hibridação não específica; 푋 é uma variável aleatória representando o sinal verdadeiro (medido sem erro). Neste procedimento, os valores de PM são corrigidos utilizando o modelo global, Equação 2.2.2, para a distribuição de intensidades de sondas. Nesse método, as sondas PM observadas são modeladas por uma soma de uma Gaussiana (média 휇 e variância 휎) e uma Exponencial (média 훼), ou seja:

푌 ∼ 푁표푟푚푎푙(휇, 휎) e 푋 ∼ 퐸푥푝표푛푒푛푐푖푎푙(훼).

Nesta proposta, 푌 representa o ruído e 푋 o sinal. Assume-se, também, que estas duas variáveis aleatórias sejam independentes. A distribuição normal é truncada em zero para evitar a possibilidade de valores de expressão negativos. Dado que temos a intensidade observada, 푇 , modelada pela Equação 2.2.2, a correção de fundo destas intensidades de sonda dada por E(푋|푇 = 푡), conforme demonstrado a seguir. Seja 푍 uma variável aleatória com distribuição normal padrão, 푍 ∼ 푁(0, 1), contém as seguintes funções de densidade e distribuição:

∫︁ 푧 1 (︂ 1 )︂ Φ(푍) = 푃 (푍 ≤ 푧) = √ 푒푥푝 − 푤2 푑푤 −∞ 2휋 2

1 (︂ 1 )︂ 휑(푧) = √ 푒푥푝 − 푤2 푑푤 2휋 2 Note que, 휑 e Φ são, respetivamente, as funções de densidade e distribuição da normal padrão. Como já vimos, 푋 e 푌 são independentes. Portanto, a distribuição da densidade conjunta de 푋 e 푌 é dada por: 25

푓푋,푌 (푥, 푦) = 푓푋 (푥)푓푌 (푦) (2.2.3) 1 {︃ 1 (︂푦 − 휇)︂2}︃ = 훼 exp(−훼푥) × √ exp − 휎 2휋 2 휎 1 (︂푦 − 휇)︂ = 훼푒푥푝(−훼푥) 휑 , 휎 휎 onde 푦 ∈ [0, ∞) e 푥 ∈ (0, ∞). Então, a densidade da distribuição conjunta de 푋 e 푇 é:

푓푋,푇 (푥, 푡) = 푓푋,푌 (푥, 푡 − 푥)|퐽| sendo que, |퐽| é o jacobiano da transformação:

⃒ ⃒ ⃒ 휕푓푋 휕푓푋 ⃒ ⃒ ⃒ |퐽|= ⃒ 휕푥 휕푡 ⃒ = 1, ⃒ 휕푓푌 휕푓푌 ⃒ ⃒ 휕푥 휕푡 ⃒

Como, |퐽|= 1, então a distribuição conjunta de 푋 e 푇 é:

1 (︂푡 − 푥 − 휇)︂ 1 (︂푥 − 푡 + 휇)︂ 푓 (푥, 푡) = 훼푒푥푝(−훼푥) 휑 = 훼푒푥푝(−훼푥) 휑 푋,푇 휎 휎 휎 휎

Assim, a função densidade de probabilidade (fdp) marginal de 푇 é dado por:

∫︁ 푡 1 (︂푥 − 푡 + 휇)︂ 푓푇 (푡) = 훼 exp(−) 휑 푑푥 (2.2.4) 0 휎 휎 ∫︁ 푡 1 1 {︃ 1 (︂푥 − 푡 + 휇)︂2}︃ = 훼 exp(−훼푥) √ exp − 푑푥. 0 휎 2휋 2 휎

Utilizando o método de substituição:

푥 − 푡 + 휇 푤 = ⇒ 푤휎 = 푥 − 푡 + 휇 (2.2.5) 휎 휕(푤휎) 휕(푥 − 푡 + 휇) = ⇒ 휎푑푤 = 푑푥 휕푤 휕푥 푥 = 휎푤 + 푡 − 휇. 26

Assim, pelo método de substituição, reescrevemos a integral da seguinte forma:

∫︁ 휇 푓 (푡) = 휎 훼 exp {−훼(휎푤 + 푡 − 휇)} 휑(푤)푑푤 푇 −푡+휇 휎 휇 ∫︁ 휎 1 {︂ 1 = (−훼(푡 − 휇)) exp {−훼(휎푤)} √ exp − (푤)2 푑푤 −푡+휇 휎 2휋 2 휇 (2.2.6) ∫︁ 휎 1 {︂ 1 (︁ )︁}︂ = (−훼(푡 − 휇)) √ exp − 푤2 + 2훼휎푤 푑푤 −푡+휇 휎 2휋 2 ⏟ ⏞ (퐼)

Para resolver a integral (퐼), completamos o quadrado, temos que:

휇 (︂1 )︂ ∫︁ 휎 1 (︂ 1 (︁ )︁)︂ (퐼) = 푒푥푝 훼2휎2 √ 푒푥푝 − 푤2 + 2훼휎푤 + 훼2휎2 푑푤 −푡+휇 2 휎 2휋 2 휇 (︂1 )︂ ∫︁ 휎 1 (︂ 1 )︂ (2.2.7) = 푒푥푝 훼2휎2 √ 푒푥푝 − (푤 + 훼휎)2 푑푤 −푡+휇 2 휎 2휋 2 ⏟ ⏞ (퐼퐼)

Assim, para resolvermos a integral (퐼퐼) utilizamos o método de substituição, na qual 푍 = 푤 + 훼휎, e reescrevemos da seguinte forma:

휇 +휎훼 휇 +휎훼 ∫︁ 휎 1 (︂ 1 )︂ ∫︁ 휎 (퐼퐼) = √ 푒푥푝 − 푧2 푑푧 = 휑(푧)푑푧 휇−푡 휇−푡 휎 +휎훼 2휋 2 휎 +휎훼 (︂−푡 + 휇 휇 )︂ = + 휎훼 < 푍 < + 휎훼 P 휎 휎 (︂ 휇 )︂ (︂ −푡 + 휇 )︂ = 푍 < + 휎훼 − 푍 < + 휎훼 P 휎 P 휎 (2.2.8) (︃ 휇 + 훼휎2 )︃ (︃ 휇 + 훼휎2 − 푡)︃ = 푍 < − 푍 < P 휎 P 휎 (︃휇 + 훼휎2 )︃ (︃ 푡 − 휇 − 훼휎2 )︃ = 휑 − −푍 > 휎 P 휎 27

Como, 푍 ∼ 푁(0, 1), então, se 퐻 = −푍 ⇒ 퐻 ∼ 푁(0, 1). Assim, temos que:

(︃휇 + 훼휎2 )︃ (︃ 푡 − 휇 − 훼휎2 )︃ (퐼퐼) = 휑 − 퐻 > 휎 P 휎 (︃휇 + 훼휎2 )︃ (︃ (︃푡 − 휇 − 훼휎2 )︃)︃ = 휑 − 1 − 휑 (2.2.9) 휎 휎 (︃휇 + 훼휎2 )︃ (︃푡 − 휇 − 훼휎2 )︃ = 휑 + 휑 − 1 휎 휎

(︂1 )︂ (︃ (︃휇 + 훼휎2 )︃ (︃푡 − 휇 − 훼휎2 )︃ )︃ 푓 (푡) = 훼푒푥푝 훼2휎2 − 훼(푡 − 휇) 휑 + 휑 − 1 ∴ 푇 2 휎 휎

Assim, a função de densidade de probabilidade condicional de 푋 dado 푇 é:

푓푋,푇 (푥, 푡) 푓푋|푇 (푥|푡) = 푓푇 (푡) 훼푒푥푝(−훼푥) 1 휑( 푥−푡+휇 ) = 휎 휎 (︁ 1 2 2 )︁ (︁ (︁ 휇+훼휎2 )︁ (︁ 푡−휇−훼휎2 )︁ )︁ 훼푒푥푝 2 훼 휎 − 훼(푡 − 휇) 휑 휎 + 휑 휎 − 1 (︁ )︁ (︁ )︁ 푒푥푝 −훼푥 + 훼(푠 − 휇) − 1 훼2휎2 √ 1 푒푥푝 − 1 (푥 − 푡 + 휇)2 2 2 2휎2 = 2휋휎 (︁ (︁ 휇+훼휎2 )︁ (︁ 푠−휇−훼휎2 )︁ )︁ 휑 휎 + 휑 휎 − 1 (︁ )︁ √ 1 푒푥푝 − 1 [푥2 − 2푥(푡 − 휇) + (푡 − 휇)2 + 2휎2훼푥 − 2휎2훼(푡 − 휇) + 훼2휎4] 2 2휎2 = 2휋휎 (︁ (︁ 휇+훼휎2 )︁ (︁ 푡−휇−훼휎2 )︁ )︁ 휑 휎 + 휑 휎 − 1 (︁ )︁ √ 1 푒푥푝 − 1 [푥2 − 2푥(푡 − 휇 − 휎2훼) + (푡 − 휇)2 − 2(푡 − 휇)휎2훼 + 훼2휎4] 2 2휎2 = 2휋휎 (︁ (︁ 휇+훼휎2 )︁ (︁ 푡−휇−훼휎2 )︁ )︁ 휑 휎 + 휑 휎 − 1 (︁ )︁ √ 1 푒푥푝 − 1 [푥 − (푡 − 휇 − 훼휎2)]2 2 2휎2 = 2휋휎 , (︁ (︁ 휇+훼휎2 )︁ (︁ 푡−휇−훼휎2 )︁ )︁ 휑 휎 + 휑 휎 − 1 (2.2.10)

Considerando, 푎 = 푡 − 휇 − 훼휎2 e 푏 = 휎, podemos reescrever 2.2.10 da seguinte forma:

(︁ )︁ 1 휑 푥−푎 푓 (푥|푡) = 푏 푏 ∴ 푋|푇 (︁ (︁ 푎 )︁ (︁ 푡−푎 )︁ )︁ 휑 푏 + 휑 푏 − 1

Como temos a intensidade observada, 푆, modelada pela Equação 2.2.2, a correção de fundo 28 dessas intensidades de sonda é dada por:

∫︁ 푡 E(푋|푇 = 푡) = 푥푓푋|푇 (푥|푡)푑푥 0 ∫︁ 푡 푓 (푥, 푡) = 푥 푋,푇 푑푥 0 푓푇 (푡) 1 ∫︁ 푡 푥 (︂푥 − 푎)︂ = (︁ (︁ )︁ (︁ )︁ )︁ 휑 푑푥. (2.2.11) 푎 푡−푎 0 푏 푏 휑 푏 + 휑 푏 − 1

Para resolver a esperança condicional, Equação 2.2.11, foi utilizado o método de substituição, na qual, é feito as seguintes substituições:

푥 − 푎 푧 = ⇒ 푥 = 푧푏 + 푎 푏

Em seguida é calculada a derivada,

휕푥 = 푏 ⇒ 푑푥 = 푏 푑푧 휕푧

Como a esperança condicional é uma integral definida é necessário determinar os limites de ⎧ ⎪푔(0) = − 푎 , se 푥 = 0; 푥−푎 ⎨ 푏 integração. Assim, como já foi visto, 푥 ∈ (0, 푡) ⇒ 푔(푥) = 푏 ⎪ 푡−푎 ⎩푔(푠) = 푏 , se 푥 = 푡 Assim resolvemos a esperança condicional da seguinte forma:

푡−푎 1 ∫︁ 푏 E(푋|푇 = 푡) = (︁ (︁ )︁ (︁ )︁ )︁ (푧푏 + 푎)휑(푧)푑푧 푎 푡−푎 − 푎 휑 푏 + 휑 푏 − 1 푏 [︃ 푡−푎 푡−푎 ]︃ 1 ∫︁ 푏 ∫︁ 푏 = (︁ (︁ )︁ (︁ )︁ )︁ 푎 휑(푧)푑푧 + 푏 푧휑(푧)푑푧 푎 푡−푎 − 푎 − 푎 휑 푏 + 휑 푏 − 1 푏 푏 1 [︂ (︂ (︂푡 − 푎)︂ (︂푎)︂ )︂ (︂ (︂푎)︂ (︂푡 − 푎)︂)︂]︂ = 푎 휑 + 휑 − 1 + 푏 휑 − 휑 (︁ (︁ 푎 )︁ (︁ 푡−푎 )︁ )︁ 푏 푏 푏 푏 휑 푏 + 휑 푏 − 1 (︁ (︁ )︁ (︁ )︁ )︁ (︁ (︁ )︁ (︁ )︁)︁ 푎 휑 푡−푎 + 휑 푎 − 1 푏 휑 푎 − 휑 푡−푎 = 푏 푏 + 푏 푏 (︁ (︁ 푎 )︁ (︁ 푡−푎 )︁ )︁ (︁ (︁ 푎 )︁ (︁ 푡−푎 )︁ )︁ 휑 푏 + 휑 푏 − 1 휑 푏 + 휑 푏 − 1 (2.2.12)

Portanto,

푎 푦−푎 휑( 푏 ) − 휑( 푏 ) ∴ 퐸(푋|푇 = 푡) = 푎 + 푏 푎 푦−푎 , (2.2.13) Φ( 푏 ) + Φ( 푏 ) − 1 29 na qual, 푎 = 푡 − 휇 − 휎2훼 e 푏 = 휎. A convolução RMA é melhor comparada ao método MAS 5.0 nos seguintes pontos: tem melhor desempenho; precisão, em particular, para valores de intensidades mais baixos [25]. Além disso, possui menor variância quando comparado ao MAS 5.0. A correção de fundo das intensidade de sonda é dado pela Equação 2.2.13. A correção de fundo é realizada nas intensidades de sonda para cada individuo da população em estudo. A Figura 2.1 apresenta as intensidades observadas para um indivíduo. Nos eixos Y e X representam as intensidades observadas para o alelo A e alelo B, respetivamente, de todos os 906.600 marcadores. O gráfico A apresenta os dados sem a correção de fundo, enquanto que, o gráfico B, representa as intensidades corrigidas pelo método RMA. Portanto, ao comparar os gráficos da Figura 2.1, observa-se como resultado da correção de fundo a mudança da origem dos dados.

2.3 Normalização

O objetivo da normalização é minimizar ou, idealmente, remover os efeitos causados pelas variações técnicas, permitindo que os dados sejam comparáveis para identificar as alterações biológicas. A normalização entre os indivíduos é necessária porque as distribuições de intensidade dos indivíduos são diferentes [13]. Entre os diferentes métodos de normalização disponíveis, destacam-se, Loess cíclico, Contraste e normalização Quantílica [19].

2.3.1 Normalização Quantílica

De maneira simplificada, o objetivo da normalização quantílica é fazer com que todos os indivíduos da população em estudo apresentem mesma distribuição empírica dos valores de intensidades. O método é motivado pela ideia de que dois vetores de dados possuem a mesma distribuição se o gráfico quantil-quantil apresenta uma linha diagonal reta, com inclinação 1 e intercepto 0 [8]. Ampliando este conceito para 푛 dimensões, se todos os 푛 vetores de dados tiverem a mesma distribuição, o gráfico quantil-quantil fornece uma linha reta ao longo da linha (︂ )︂ dada pelo vetor unitário √1 , √1 ,..., √1 . 푛 푛 푛 Seja 푋 uma matriz de intensidades observadas, com sondas e amostras dispostas, respectivamente, nas linhas e colunas. Assim, o algoritmo de normalização quantílica segue o fluxo abaixo:

1. Ordene cada coluna de 푋 de maneira crescente. Guarde a nova matriz, com colunas 30

A)

B) Figura 2.1: Efeito da correção de fundo em dados de microarranjo de SNP.

ordenadas, em 푋푆;

2. Calcule as médias de cada linha de 푋푆 e armazene-as no vetor 푉 ;

3. Na matriz original 푋, em uma coluna por vez, substitua a i-ésima estatística de ordem da coluna pela i-ésima estatística de ordem do vetor 푉 . A matriz resultante será a matriz normalizada.

′ −1 A normalização quantílica é um caso especifico de uma transformação 푥푖 = 퐹 [퐺(푥푖)], 31 na qual 퐺 é estimada pela distribuição empírica de cada arranjo e 퐹 é pela distribuição empírica dos quantis médios das amostras [22]. A normalização quantílica opera nos dados de intensidade bruta e sua importância está na habilidade de reduzir o impacto de efeitos técnicos nas intensidades observadas. Trata-se de um método caracterizado como padrão-ouro, na bioinformática, para normalização de dados, mas requer que as amostras sejam razoavelmente homogêneas [3, 8]. Os efeitos da normalização podem ser vistos na Figura 2.2. Nesta Figura, dados provenientes da plataforma SNP 6.0 da Affymetrix foram normalizados. No Painel A), é possível verificar a existência de diferentes distribuições (cada linha é uma amostra diferente). No Painel B), após a normalização, as distribuições são idênticas.

2.3.2 Loess Cíclico

Esse método normaliza intensidades para um conjunto de indivíduos, trabalhando com pares deles [22]. Em outras palavras, o método normaliza dois indivíduos de cada vez aplicando um fator de correção obtido de uma curva loess ajustada através do gráfico M versus S dos arranjos (︁ )︁ (︂√︁ )︂ 퐼퐴 [6], na qual 푀 ≡ log e 푆 ≡ log 퐼퐴 * 퐼퐵 . Segundo Ballam e outros [6] um gráfico 2 퐼퐵 2 푀 versus 푆 para dados normalizados deve mostrar uma nuvem de pontos dispersa sobre o eixo 푀 = 0. Para lidar com mais de dois arranjos, o método é estendido para examinar todas as combinações de pares diferentes. Uma desvantagem do método é o tempo necessário para normalizar um conjunto de dados, que cresce exponencialmente à medida que o número de arranjos aumenta. Normalmente, duas ou três passagens pelo ciclo completo são necessárias para a convergência. No entanto, a economia de tempo não seria considerável, porque um loess suave ainda seria necessária para um número relativamente grande de pares de arranjos [6].

2.3.3 Contraste

A normalização pelo método baseado em contraste é outra extensão do método gráfico 푀 versus 푆. Este método foi proposto por Astrand [5]. Mas a normalização é feita transformando os dados em um conjunto de contrastes. Esta normalização é realizada colocando-se os dados em uma escala logarítmica e transformando a base [8]. Na base transformada, uma série de 푛 − 1 curvas de normalização são ajustadas de maneira semelhante à abordagem 푀 versus 푆 do método de loess cíclico. Os dados são então ajustados usando uma transformação suave que ajusta a curva de normalização de modo que ela fique na horizontal. Os dados no estado 32

A)

B) Figura 2.2: Efeito da normalização quantílica em microarranjos de SNP

normalizado são obtidos pela transformação de volta para a base original e exponencial. O método baseado em contraste é mais rápido que o método cíclico.

2.3.4 Normalização de Estabilização de Variância (VSN)

O método de estabilização de variância e normalização de dados [24] combina correção de fundo e normalização, enquanto que os outros métodos separam esses dois processos. Uma vantagem dessa combinação é que as informações de todo o arranjo podem ser utilizadas conjuntamente para a estimação de parâmetros que seriam estimados separadamente por outros 33 métodos. Deve-se ressaltar que, na estimação de ruídos de fundo, a estimação aconteceria em uma amostra por vez. O modelo utilizado no método VSN é o apresentado na equação 2.3.1:

(︂푥푘푖 − 푎푖 )︂ 푥푘푖 ↦ −→ ℎ푖(푥푘푖) = 푔푙표푔 , (2.3.1) 푏푖 na qual, 푥푘푖 representa a intensidade da 푘-ésima sonda para o 푖-ésima indivíduo, 푏푖 é o parâmetro de escala para o indivíduo 푖, 푎푖 é o parâmetro de locação do ruído de fundo. Na expressão acima, 푔푙표푔 é o logaritmo generalizado. Uma de suas propriedades é que, com os valores apropriados de 푎 e 푏, os dados dos diferentes arranjos não são apenas ajustados entre si, mas também as variações entre as réplicas são aproximadamente independentes da média.

2.4 Sumarização

Cada alvo no genoma ou transcriptoma representado em um microarranjo possui várias moléculas sintéticas presentes na superfício do microarranjo para quantificá-lo. Por exemplo, em microarranjos de expressão Affymetrix, cada gene é representado por um número de sondas que varia entre 11 e 20. Nos microarranjos de SNP do mesmo fabricante, cada par SNP-Alelo é representado por um número de sondas que varia entre 4 e 20 sondas. Para análises no nível do alvo de interesse (seja gene ou par SNP-Alelo), é preciso realizar a sumarização destes dados de sondas para quantificações da abundância do referido alvo. As estratégias utilizadas baseiam-se essencialmente no ajuste de modelos relacionado com a ANOVA, como o PLIER e polimento de mediana. Neste trabalho, entretanto, daremos foco ao polimento de mediana, por se tratar de um mecanismo analítico que não depende da existência das sondas do tipo MM, que não estão presentes no microarranjo SNP 6.0 da Affymetrix.

2.4.1 Polimento de Mediana

O polimento de mediana é um método iterativo, robusto contra outliers, como consequência do uso de medianas, ao invés de médias. A etapa de sumarização dos valores das intensidades de um conjunto de 푘 sondas, referente a um par SNP-Alelo, resulta em uma estatística única para aquele par. O método de polimento de mediana é estratégia mais robusta que a ANOVA para examinar a significância dos vários fatores em um modelo multifatorial. Para uma variável 푌 observada sob condições descritas por dois fatores, os dados podem ser organizados em uma tabela bidimensional. Um dos fatores representado ao longo das linhas, 34

퐹1푖; o outro, ao longo das colunas, 퐹2푗. Sendo 푦푖푗 o valor observado na linha 푖 e na coluna 푗, podemos representar esta questão genérica conforme apresenta a Tabela 2.1.

Tabela 2.1: Exemplo para polimento de mediana

퐹11 퐹12 퐹13 ... 퐹1푛 Medianas 퐹21 푦11 푦12 푦13 . . . 푦1푛 푎1 퐹22 푦21 푦22 푦23 . . . 푦2푛 푎2 퐹23 푦31 푦32 푦33 . . . 푦3푛 푎3 ...... 퐹2푘 푦푘1 푦푘2 푦푘3 . . . 푦푘푛 푎푘 Medianas 푏1 푏2 푏3 . . . 푏푛 푀

No contexto da genômica utilizada no presente trabalho, o fator representado nas colunas é habitualmente ao 푛-ésimo indivíduo amostrado. Enquanto isso, o fator representado nas linhas refere-se à 푘-ésima sonda presente na superfície do microarranjo. E esta relação da variável resposta, 푦푖푗, com os dois fatores pode ser expressa usando um modelo linear:

푦푖푗 = 푀 + 푎푖 + 푏푗 + 휖푖푗, (2.4.1)

na qual 푀 é o efeito mediano, 푎푖 é o efeito da 푖-ésima sonda, 푏푗 é o efeito do 푗-ésimo indivíduo e 휖푖푗 é o erro aleatório associado àquela observação. Deve-se ressaltar que, apesar de serem estimados, os efeitos 푎푖 não são parâmetros de interesse e são conhecidos como

푛푢푖푠푎푛푐푒푝푎푟푎푚푒푡푒푟. Os parâmetros de real interesse são 푏푗 e representam a abundância do referido par SNP-Alelo para o 푗-ésimo indivíduo. O método opera iterativamente da seguinte forma:

1. Determine a mediana da 푘-ésima linha e armazene-a em 푎푘. Subtraia 푎푘 de cada elemento

da 푘-ésima linha (푦푘. − 푎푘);

2. Determine a mediana entre todos 푎푘 e armazene-a em 푀. Subtraia 푀 de cada 푎푘;

3. Repita os passos anteriores para as colunas. Entretanto, some a mediana de 푏푗 à quantidade 푀 pré-existente.

4. Itere nos passos anteriores até que as mudanças sejam negligenciáveis.

Como cada SNP é composto por dois alelos, o polimento de mediana acontece de maneira independente para cada um dos alelos. Adicionalmente, apesar de neste passo as intensidades 35 ainda estarem em sua escala original, o polimento de mediana acontece na escala logarítmica, visto que esta tem, consistentemente, se mostrado a mais apropriada para análise de dados desta origem. As Tabelas 2.2 e 2.3, a seguir, apresentam, respectivamente, os dados após normalização e o resultado do ajuste de polimento de mediana para um SNP sorteado aleatoriamente e quatro indivíduos analisados na plataforma SNP 6.0 Affymetrix. Nota-se, então, o objetivo claro da sumarização ao observar que a Tabela 2.3 apresenta apenas uma estatística sumária para cada combinação SNP-Alelo-Indivíduo.

Tabela 2.2: Exemplo de quarteto de sondas

Intensidade de sonda para cada Indivíduo SNP I_1 I_2 I_3 I_4 593 405 174 173 SNP_A_1780270 812 410 270 188 Alelo A 485 412 175 219 490 485 281 165 95 308 227 176 SNP_A_1780270 114 325 252 165 Alelo B 101 346 241 160 126 399 154 129

Tabela 2.3: Exemplo numérico de polimento de mediana

SNP-A_1780270 I_1 I_2 I_3 I_4 Alelo A 8,13 7,05 7,11 6,43 Alelo B 4,18 6,36 7,24 6,00

2.5 Ajuste de Log-Razão vs Log-Intensidade

A natureza dos dados de SNP difere da dos dados de expressão por existirem duas unidades de medida (alelos) para cada SNP, ao passo que, para microarranjos de expressão, existe apenas uma unidade de medida para a entidade molecular em questão. Por este motivo, após os passos iniciais de pré-processamento descritos até o momento, ainda se faz necessário o tratamento das estatísticas sumárias, por alelo, obtidas para cada SNP. Em particular, supondo que as estatísticas sumárias para um dado SNP sejam 퐼퐴 e 퐼퐵, representando, respectivamente, a 36 abundância dos alelos A e B, o algoritmo de genotipagem CRLMM [14] emprega as estatísticas de log-razão, 푀, e log-intensidade média, 푆. Estas estatísticas mostraram-se mais estáveis ao se comparar o comportamento de diversos marcadores disponíveis em diferentes plataformas [13]. Em particular, a log-intensidade tem sido amplamente empregada como resultado da captura digital de sinais de fluorescência e também como estratégia de controle de variabilidade (por conta da magnitude dos dados, que varia de zero a 65.535, com uma moda em torno de 3.000 a 4.000 unidades). Retornando às estatísticas sumárias supracitadas, elas são determinadas da seguinte forma:

(︂ 퐼퐴 )︂ 푀 = log2 (2.5.1) 퐼퐵 1 푆 = {log (퐼 ) + log (퐼 )} (2.5.2) 2 2 퐴 2 퐵

Utilizando a informação de que os sítios investigados na plataforma SNP 6.0 da Affymetrix são SNPs e que os indivíduos amostrados para este estudo são indivíduos saudáveis, provindos do projeto HapMap [28], então espera-se que os genótipos dessas localizações sejam uma das três opções: AA, AB e BB. Observando-se que, para o genótipo AA, existem 2 alelos A e zero alelos B, então espera-se que a abundância 퐼퐴 seja bastante maior que 퐼퐵, de forma que 푀 > 0.

De maneira análoga, genótipos AB sugerem um equilíbrio de 1:1 nas abundâncias 퐼퐴 e 퐼퐵, de sorte que 푀 ≈ 0; da mesma maneira, espera-se que, para genótipos BB, 푀 < 0. Existe, entretanto, uma associação, dependente do genótipo, entre a log-razão 푀 e a log-intensidade média 푆 [13]. Esta associação é completamente dependente da amostra em questão e o cenário a seguir pode ser encontrado:

• Para genótipos AA, o aumento da log-intensidade média está associado ao aumento da log-razão.

• Para genótipos BB, o aumento da log-intensidade média está associado à redução da log-razão.

• Para heterozigotos, esta associação não é comumente observada.

Como estes efeitos são dependentes da amostra analisada, as direções podem ser trocadas em amostras diferentes. Por este motivo, identifica-se que um modelo de mistura finita é uma opção de fácil implementação para que se faça o ajuste da log-razão pela log-intensidade média, removendo efeitos específicos de amostra que possam afetar a qualidade da genotipagem. 37

2.5.1 Definição de Modelo de Mistura Finita

Os modelos de mistura finita têm recebido grande atenção por acomodar modelagem de várias subpopulações existentes nos dados. Estes modelos foram aplicados com sucesso em diferentes áreas nos quais incluem biologia, Astronomia, Genética e na Economia, entre outros [29]. O nosso problema em estudo é um exemplo da aplicação dos modelos de mistura finita na genética. Numa plataforma de microarranjo desenhada para SNPs bialélicos, indivíduos podem ser classificados em três grupos ou genótipos. Estes genótipos caracterizam as subpopulações supracitadas que, deve-se ressaltar, são desconhecidas e, assim, vistas como variáveis latentes, ou seja, variáveis que não são observáveis pelo pesquisador. Neste cenário onde o ajuste é dependente do estado da variável latente, os modelos de mistura possuem grande destaque. Seja 푋 uma variável aleatória que assume valores no espaço amostral Ω, isto é, 푋 :Ω → 푅.

Se 푋 é resultado da mistura finita de 푘 componentes de densidade 푓푘, então a densidade de 푋 é:

푓(푋|Ψ) = 휋1푓1(푋|휃1) + ··· + 휋푘푓푘(푋|휃푘), (2.5.3)

∑︀푘 ∫︀ onde 휋푗 > 0, ∀푗, 푗=1 휋푗 = 1, 푓푗(.) ≥ 0∀푗, 푥∈Ω 푓푗(푥)푑푥 = 1, ∀푗 e 푗 = 1, . . . , 푘.

Os parâmetros 휋1, . . . , 휋푘 são denominados de pesos ou proporções de mistura, e, à priori, são desconhecidas. Define-se Ψ como o vetor que contém todos os parâmetros desconhecidos do modelo de mistura: Ψ = (휋1, . . . , 휋푘, 휃1, . . . , 휃푘). As funções 푓1(.), . . . , 푓푘(.) são as densidades das componentes de mistura. Neste trabalho, assume-se que todas as densidades das componentes pertençam à mesma família de densidades. Aqui, determina-se que elas sejam Gaussianas, apesar de poderem ser de qualquer outra família. Assim, a densidade da mistura finita com k-componentes, para uma única observação, terá uma representação mais explícita

푘 ⎧ (︃ )︃2⎫ ∑︁ 1 ⎨ 1 푥 − 휇푗 ⎬ 푓(푋|Ψ) = 휋푗 √︁ exp − , (2.5.4) 2 2 휎푗 푗=1 2휋휎푗 ⎩ ⎭

onde 휇푗 e 휎푗 representam a média e desvio-padrão da j-ésima componente. Representam-se todos os parâmetros que ocorrem nas densidades das componentes de 2 mistura por 휃 = (휃1, . . . , 휃푘), sendo que 휃푗 = (휇푗, 휎푗 ), ∀ 푗 = 1, . . . , 푘, é um elemento do mesmo espaço paramétrico, Θ. Assim, 휋 = (휋1, . . . , 휋푘) pode ser definindo como uma 38

distribuição de probabilidade sobre Θ, com 휋푗 = 푃 푟(휃 = 휃푗), 푗 = 1, . . . , 푘. Na aplicação aqui trabalhada, é fácil identificar que o número 푘 de componentes é três, visto que são 3 o número de genótipos (AA, AB e BB) possíveis. A forma escolhida para o ajuste deste modelo de mistura é empregando o Algoritmo EM, visto a existência de variáveis latentes.

2.5.2 Estimação dos Parâmetros via Algoritmo EM

O Algoritmo EM é um método iterativo que maximiza uma função de verossimilhança para dados incompletos [16]. Cada iteração do algoritmo consiste em uma etapa de esperança seguido por uma etapa de maximização, por isso é denominado de algoritmo de Esperança e Maximização, Algoritmo EM. A etapa de esperança, conhecida como passo E, consiste em calcular o valor esperado da log-verossimilhança com respeito à distribuição condicional dada pela estimativa atual dos parâmetros. Seja Ψ(0) um valor inicial para Ψ, o conjunto de parâmetros desconhecidos. Então, na primeira iteração do algoritmo EM, o passo E é definido como:

(0) [︁ (0)]︁ 푄(Ψ, Ψ ) ≡ EΨ(0) log 퐿(Ψ|푥푖)|푥푖;Ψ (2.5.5)

A segunda etapa, conhecida como passo M, consiste em encontrar os parâmetros que maximizam a função encontrada na etapa anterior. Em outras palavras, os parâmetros são re-estimados pelos valores previstos usando as estimativas dos parâmetros iniciais [30]. Assim, o passo M é definido, na primeira iteração, como:

Ψ(1) ≡ arg max 푄(Ψ, Ψ(0)) (2.5.6) Ψ

Seja 푋푖 = (푋1, ..., 푋푛) um vetor aleatório de dados observados, visto como incompleto, pois os rótulos das componentes associadas não são conhecidos. Supondo, também, que 푋푖 tenha função de densidade 푓(.) = 푓푗, ∀ 푗 = 1, ..., 푘 e 푍푖 = (푍1푖, ..., 푍푘푖), 푖 = 1, ..., 푛 seja um vetor de 푘-dimensões, desconhecido, indicador da componente a que pertence cada elemento da amostra. Desta maneira, o 푗-ésimo elemento de 푍푖 é designado por 푧푖푗 e definido como:

⎧ ⎨⎪1, se 푥푖 provém da j-ésima componente ; 푧푖푗|푥푖 = ⎩⎪0, caso contrario.

Portanto, 푍1, ..., 푍푛 são independentes de acordo com uma distribuição multinomial com 39

probabilidade, 휋1, . . . , 휋푘, i.e.,

푍1, ..., 푍푛 ∼ 푀푢푙푡푖푛표푚푖푎푙(1, 휋1, ..., 휋푘)

Assim, a amostra completa é definida como 푌푖 = (푋푖, 푍푖), ∀ 푖 = 1, . . . , 푛. Neste caso, todos os 푌푖 são independentes e identicamente distribuídos. A função densidade de probabilidade de

푌푖 = (푋푖, 푍푖) será:

푘 ∏︁ 푧푖푗 푓(푋푖, 푍푖|Ψ) = [푓푗(푋푖|푍푖 = 푧푖푗, 휃푗)휋푗] , (2.5.7) 푗=1 sendo que, Ψ = (휋1, ..., 휋푘, 휃1, ..., 휃푘) é o vetor que contém todos os parâmetros desconhecidos. Então, a verossimilhança completa é:

푛 푘 ∏︁ ∏︁ 푧푖푗 퐿(Ψ; 푋푖, 푍푖) = [푓푗(푋푖|푍푖 = 푧푖푗, 휃푗)휋푗] (2.5.8) 푖=1 푗=1

Como a função logarítmica é continua e derivável, então maximizar a log-verossimilhança implica maximizar a verossimilhança. A log-verossimilhança é, neste caso:

푛 푘 ∑︁ ∑︁ log 퐿(Ψ; 푋푖, 푍푖) = 푧푖푗 log [푓푗(푋푖|푍푖 = 푧푖푗, 휃푗)휋푗] 푖=1 푗=1 푛 푘 ∑︁ ∑︁ = 푧푖푗 {log 휋푗 + log 푓푗(푋푖|푍푖 = 푧푖푗, 휃푗)} . (2.5.9) 푖=1 푗=1

Como já vimos, o passo E é o valor esperado da função de log-verossimilhança dada a (0) amostra observada e incompleta, 푥푖, usando como valor para Ψ o valor inicial, Ψ [29]. Na (푝 + 1) − 푠푖푚푎 iteração, o passo E requer o cálculo de 푄(Ψ; Ψ(푝)), em que Ψ(푝) é o valor de Ψ após a 푝−푠푖푚푎 iteração do algoritmo EM. Uma vez que 푙표푔퐿(Ψ) é uma função linear em 푍푖푗, o passo 퐸 corresponde simplesmente ao calculo do valor esperado condicional de 푍푖푗, dada a amostra observada, 푥푖. Supondo que estamos na (푝 + 1) − 푠푖푚푎 iteração, então,

푛 푘 (푝) ∑︁ ∑︁ 푄(Ψ, Ψ ) = EΨ(푝) {(푍푖푗|푥푖) 푙표푔(휋푗푓푗(푥푖; 휃푗))} (2.5.10) 푖=1 푗=1 40

Considerando que,

(푝) 푊푖푗 ≡ EΨ(푝) (푍푖푗|푥푖), (2.5.11) então

푃 (푍푖 = 1, 푋푖) EΨ(푝) (푍푖푗|푥푖) = 푃Ψ(푝) (푍푖푗 = 1|푥푖) = 푃 (푋푖)

Pelo teorema da Probabilidade Total e teorema de Bayes, temos que:

퐾 ∑︁ 푃 (푋푖) = 휋푘푓푘(푥푖; 휃푘) (2.5.12) 푘=1 e

푃 (푍푖 = 1, 푋푖) = 푃 (푋푖|푍푖)푃 (푍푖) (2.5.13)

Assim, o valor esperado condicional de 푍푖푗, dada a amostra observada, 푥푖, pode ser reescrita como:

(푝) (푝) 푃 (푋푖|푍푖)푃 (푍푖) 휋푖 푓푗(푥푖; 휃푗 ) (푝) (푝) (푍 |푥 ) = = = 푊 (2.5.14) EΨ 푖푗 푖 푃 (푋 ) ∑︀퐾 (푝) (푝) 푖푗 푖 푘=1 휋푘 푓푘(푥푖; 휃푘 )

(푝) na qual, 푊푖푗 é a probabilidade condicional do elemento i, de valor 푥푖, da amostra observada pertencer ao j-ésima componente da mistura, reescrevendo a expressão 2.5.10 na forma:

푛 푘 (푝) ∑︁ ∑︁ (푝) 푄(Ψ, Ψ ) = 푊푖푗 푙표푔(휋푗푓푗(푥푖; 휃푗)) (2.5.15) 푖=1 푗=1

No passo M, na iteração (푝 + 1), calcula-se o novo valor de Ψ que maximiza a expressão 2.5.15, determinando assim as novas estimativas de máxima verossimilhança dos parâmetros, Ψ(푝+1) ≡ arg max 푄(Ψ, Ψ(푝)). Os passos E e M são repetidos até que um critério de para seja atingido. Várias métricas podem ser empregadas com este propósito. Entretanto, como uma das características do Algoritmo EM é que a sequência de log-verossimilhanças obtidas a cada passo é uma seqência monótona. Então, o critério de parada mais amplamente utilizado é a estabilização da log-verossimilhança obtida ao longo do processo. 41

2.5.3 Aplicação do Algoritmo EM em Dados de SNP

Decidiu-se, então, empregar um modelo de regressão para descrever a associação entre a log-razão e a log-intensidade média. Ressalta-se que estas associações são dependentes da amostra, i.e., cada amostra pode apresentar um comportamento diferente. Além disso, os genótipos nos múltiplos sítios genômicos são desconhecidos, caracterizando um cenário de dados incompletos. Assim, ao tratar cada amostra de maneira independente, o algoritmo EM é uma opção natural para a remoção do efeito da log-intensidade média sobre a log-razão.

Figura 2.3: A utilização de modelos de regressão combinada com o algoritmo EM

A Figura 2.3 apresenta os resultados obtidos com a implementação do algoritmo EM. As retas de regressão identificadas são então empregadas para a remoção dos efeitos em questão. Observa-se que esta estratégia é aplicada a todas as amostras disponíveis e as correções supracitadas correspondem à utilização dos resíduos condicionais aos genótipos (iniciais) determinados pelo algoritmo EM e relocação das observações de genótipo AA para a média 3; observações de genótipo AB para a média 0; e observações de genótipos BB para a média -3. 42

Capítulo 3

Modelagem Estatística de Dados de SNPs para a Identificação de Genótipos

3.1 Histórico

Para seu primeiro produto, o microarranjo GeneChip Human Mapping 10K 2.0 Array, a Affymetrix propôs o emprego do algoritmo MPAM (Modified Partitioning Around the Medoids) para a determinação de genótipos para um conjunto de indivíduos [27]. Em seguida, com o GeneChip Human Mapping 100K Set (composto por dois microarranjos de 50K), o algoritmo empregado era o Dynamic Model (DM) [17]. Com estas soluções, cada SNP para uma dada amostra era genotipado isoladamente. Em termos computacionais, esta é uma solução que demanda baixíssimos recursos: de maneira resumida, estas propostas não exigiam o pré-processamento (normalização ou sumarização) e proviam uma estatística baseada no teste de postos sinalizados de Wilcoxon, utilizando todas as sondas disponibilizadas para o SNP em questão. Desta maneira, havia uma perda de performance por não haver a possibilidade de avaliação e ajuste da variabilidade biológica para cada SNP presente no microarranjo. Para seu produto seguinte, GeneChip HumanMapping 500K ArraySet (também composto por dois microarranjos, desta vez, com 250 mil marcadores cada), a Affymetrix empregou o algoritmo BRLMM [1], que adicionou um passo Bayesiano ao algoritmo RLMM [34], que utilizava múltiplas amostras, conjuntamente, para identificar padrões esperados para cada genótipo de cada SNP disponibilizado na plataforma. Para a utilização de múltiplas amostras, estas soluções empregavam o algoritmo RMA para normalização e sumarização das intensidades observadas para cada sonda ali presente. O Modelo Linear Robusto com Distância de Mahalanobis (RLMM) consiste de três partes: 43

1. Redução da variabilidade não biológica dos dados da sonda para cada alelo, utilizando um modelo linear robusto;

2. Para cada SNP, a construção de regiões de classificação para cada genótipo utilizando uma estratégia supervisionada;

3. Identificação de genótipos de acordo com a distância de Mahalanobis para os três grupos formados para um SNP.

O BRLMM, por sua vez, apresentava uma melhoria significativa em taxas de chamadas e precisão, equalizando o desempenho entre homozigotos e heterozigotos. Esta melhora era devido ao passo Bayesiano que fornecia estimativas aprimoradas para os parâmetros de locação e dispersão dos genótipos. Para seu funcionamento, no algoritmo BRLMM, após normalização e sumarização, as amostras são genotipadas de acordo com uma priori Bayesiana determinada através de uma classificação prévia realizada com o algoritmo DM. Esta priori é baseada numa amostra aleatória de SNPs, que possuem um número mínimo de amostras por genótipo.

3.2 CRLMM

O Modelo Linear Robusto Corrigido com Distância de Mahalanobis (CRLMM) é um algoritmo de genotipagem que utiliza método de aprendizagem supervisionada. Para tanto, as amostras disponibilizadas pelo Projeto HapMap, 270 indivíduos, foram utilizadas como o padrão-ouro. Neste conjunto de dados, haviam observações obtidas por meio do microarranjo GenomeWide SNP 6.0 e chamadas de genótipos (consenso entre diversos laboratórios) para uma parte dos SNPs investigados pela referida plataforma [14]. Após o pré-processamento das intensidades, conforme Capítulo 2, os genótipos são obtidos por meio da avaliação da distância de Mahalanobis. √︁ 퐼퐴 Ao contrário de outros algoritmos, CRLMM modela 푀 ≡ 푙표푔2( ) e 푆 ≡ log ( 퐼퐴 × 퐼퐵 ) 퐼퐵 2 ao invés do par de intensidade (퐼퐴, 퐼퐵). A log-razão de intensidade de alelo A relativa ao alelo B é empregada como medida para determinação do genótipo em um dado sítio. A log-razão apresenta uma associação significativa com a log-intensidade média. Segundo Carvalho e outros. [13], com essa transformação nos dados pode-se observar que, conforme apresenta a Figura 3.1, os valores de 푀 possuem a capacidade de discriminar melhor os grupos de genótipos. Log-razões positivas, sugerem genótipos AA; log-razões negativas, BB; e log-razões aproximadamente nulas, AB. Estas transformações no espaço das intensidades pré-processadas, 푀 e 푆, tornam o CRLMM mais robusto aos efeitos da sonda. 44

Figura 3.1: A utilização das estatísticas M e S

Como apresenta a Figura 3.1, em seu primeiro painel, existe uma associação entre a log-razão, 푀, e a log-intensidade média, 푆, dependente do genótipo. Desta maneira, para um indivíduo específico, a relação entre a log-razão do 푖-ésimo SNP com covariáveis de interesse é expressa pela Equação 3.2.1:

[푀푖|푍푖 = 푘] = 푓푘(푋푖) + 휖푖푘, (3.2.1) na qual:

• 푍푖 representa o verdadeiro genótipo (que é uma variável desconhecida e objetivo deste trabalho), para SNP 푖;

• 푘 ∈ {1, 2, 3} representa o genótipo do 푖-ésimo SNP em questão, assumindo, respectivamente, os genótipos AA, AB e BB;

• 푓푘(푋푖) é a função que descreve o efeito do vetor, 푋푖, de variáveis conhecidas na log-razão

푀푖;

2 • 휖푖푘 representa um erro aleatório de média zero e variância 휏푘 .

A implementação do CRLMM assume, também, um espelho das funções de associação entre os homozigotos, i.e., 푓1(·) = −푓3(·); além de uma simetria configurada pelo heterozigoto, de forma que 푓2(·) = 0. 45

Na Equação 3.2.1, consideramos 푋푖 = (퐿푖, 푆푖, 푏푝푖), sendo que 퐿푖 representa o comprimento do fragmento, 푆푖 é a log-intensidade média e 푏푝푖 codifica os alelos do SNP em questão. Assim, a função que descreve o efeito associado a essas covariáveis é:

푓푘(푋푖) = 푓푘(퐿푖, 푆푖, 푏푝푖) = 휇푏푝푖 + 푓퐿(퐿푖) + 푓푆(푆푖), (3.2.2) com representando um nível médio que difere para cada par de bases SNP

• 휇푏푝푖 sendo o efeito médio que difere para cada par de bases SNP, na qual 푏푝푖 ∈ (퐴퐶, 퐴퐺, 퐴푇, 퐶퐺, 퐶푇, 퐺푇 );

• 푓퐿 representando uma spline cúbica com 3 graus de liberdade;

• 푓푆 sendo uma spline cúbica com 5 graus de liberdade.

A Equação 3.2.1, cujo comportamento é apresentado na Figura 3.1, é então ajustada com a utilização de um modelo de mistura finita, utilizando 3 componentes. Desta maneira, a efeito da log-intensidade média, 푆, pode ser facilmente removido de 푀. Este ajuste provê maior robustez à estratégia [14]. Depois de ajustar o modelo 3.2.1 para cada amostra, uma medida de qualidade da hibridização que pode ser determinada é a razão sinal/ruído (SNR). Para a plataforma de SNP aqui tratada, esta quantidade é:

^2 mediana(푓1 ) 푆푁푅 = 2 . média푘휏^푘 Para uma dada amostra, esta medida quantifica a separação dos grupos homozigotos, ponderando pela variância média observada nos grupos. Intuitivamente, à medida que a variância média aumenta, existe uma maior sobreposição dos grupos de genótipos, dificultando a genotipagem. Esta quantidade pode, também, ser utilizada como critério para inclusão/exclusão de amostras em análises posteriores. A determinação de um limiar mínimo a ser atingido por amostra, 퐶SNR, pode ser feita por meio de validação cruzada no conjunto de dados de treinamento. O algoritmo CRLMM emprega dados pré-existentes do Projeto HapMap para guiar o processo de classificação dos genótipos de novas amostras coletadas. Em particular, na ocasião da publicação do algoritmo CRLMM, o Projeto HapMap disponibilizava tanto os arquivos CEL, quanto os genótipos de 270 indivíduos de diferentes populações. Desta maneira, numa situação ideal em que um SNP em particular fosse estudado, seria possível as intensidades observadas destes 270 indivíduos, condicionadas aos genótipos identificados pelo Projeto, para 46 a determinação de medidas de locação e dispersão para cada um dos três grupos genotípicos daquele sítio genômico. Desta forma, um modelo de mistura de três componentes normais bivariadas (푀 e 푆) poderia ser treinado, permitindo, então, a genotipagem de novas amostras no sítio em questão [13]. Entretanto, para os microarranjos Affymetrix, sejam os de 50K, 250K ou 1M de marcadores, as informações do Projeto HapMap não são completas. Em outras palavras, existem SNP’s para os quais não houve um consenso entre os laboratórios e por isso o projeto HapMap não possui genótipos conhecidos em alguns SNP’s; existem, também, SNPs para os quais genótipos de menor frequência não foram observados. Desta forma, nem sempre existem informações de intensidades e genótipos para o treinamento de um método de classificação. Neste caso, o algoritmo CRLMM beneficia-se de um mecanismo Bayesiano para estimar os parâmetros de locação e de dispersão destes grupos faltantes (maiores detalhes na Seção 3.4). Para os grupos em que existem observações, estas estatísticas são estimadas por meio de métodos robustos, utilizando estimadores aparados para ambas as quantidades. Para a genotipagem de um SNP em particular, agora considerando um conjunto de dados com múltiplos indivíduos, o algoritmo CRLMM utiliza o seguinte modelo hierárquico de dois níveis:

[푀푖푗|푍푖푗 = 푘, 푚푖푘] = 푓푗푘(푋푖푗) + 푚푖푘 + 휖푖푗푘 (3.2.3) na qual,

• 푀푖푗 representa a log-razão no 푖-ésimo SNP da 푗-ésima amostra;

• 푍푖푗 representa o genótipo verdadeiro do 푗-ésimo indivíduo para o 푖-ésimo SNP;

• 푚푖푘 descreve o deslocamento específico da medida de locação do 푖-ésimo SNP para o 푘-ésimo genótipo;

• 푓푗푘(푋푖푗) é uma função suave específica do 푗-ésimo indivíduo para o genótipo 푘, que depende de variáveis conhecidas e específicas do 푖-ésimo SNP e referido indivíduo;

• 휖푖,푗,푘 representa o erro aleatório de medida para esta combinação de SNP, indivíduo e genótipo, que tem distribuição normal univariada.

Posteriormente, observou-se que as métricas de confiança dos genótipos fornecidos pelo CRLMM eram excessivamente otimistas, como consequência dos pesos das caudas da distribuição normal [14]. Desta maneira, uma nova versão do algoritmo CRLMM foi 47 disponibilizada. Nela, a distribuição de 푀 condicionada ao genótipo segue uma distribuição t-student. Nesta nova proposta, variações dependentes de lote também são levadas em consideração. O modelo hierárquico melhorado na segunda versão é o seguinte:

[푀푖푗푘|휇푖푔, 휆푖푗푔] = 푓푗푘푔(푆푖푗푘) + 휇푖푔 + 휆푖푗푔 + 휎푖푔휖푖푗푘푔 (︂1 1 1)︂ 푍 ∼ Trinomial , , 푖푘 3 3 3 [휇푖푔|푍푖푘 = 푔] ∼ 푁3(0, 푉 )

[휆푖푗|휇푖, 푍푖푘 = 푔] ∼ 푁3(0, 푈푗)

[휖푖푗푘푔|휇, 휆] ∼ 푡6(0)

2 2 1 휎푖푔 ∼ 푑푔푆 2 휒푑푔 na qual 푍푖푘 = 푔 indica que o genótipo do 푖-ésimo SNP para 푘-ésimo indivíduo é 푔, 휇푖푔 representa o deslocamento do 푖-ésimo SNP para o genótipo 푔, 휆푖푗 denota efeitos de lote associado ao SNP 푖 e 푗-ésimo lote, 푀푖푗푘 é a log-razão observada para o 푖-ésimo SNP no 푗-ésimo 2 lote e 푘-ésimo indivíduo, 휎푖푔 é a variância do SNP 푖 para o genótipo 푔, 푑푔 representa os graus 2 2 de liberdade associadas à variância, 푆푔 , de um SNP típico. Tanto 푑푔 como 푆푔 são estimados a partir dos dados de treinamento utilizando a abordagem de Bayes Empírico [38] (detalhada na Seção 3.4). Para estimar os parâmetros, os dados de treinamento foram utilizados para estimar 휇. Assim, ′ para cada novo lote 푗, trataram os 휇 푠 como conhecidos e estimaram os 휆푗. Também foi utilizado a abordagem de Bayes empírico para estimar alguns parâmetros, principalmente quando havia poucos pontos disponíveis nos dados de treinamento, em alguns genótipos. Utilizando a fórmula de distribuição posterior para uma gaussiana multivariante, estimamos 휇푖 da seguinte formula:

^ −1 −1 −1 −1 휇˜ = (푉 + 푊푖 ) 푊푖 휇^푖 na qual,

푉 é estimado pela variância-covariância da amostra de 휇푖 = (휇푖퐴퐴, 휇푖퐴퐵, 휇푖퐵퐵); 2 푆푔 푊푖 matriz diagonal com entradas , 푔 = 1, 2, 3 ; 푁푖푔 푁푖 número de pontos disponíveis nos dados de treinamento para estimar 휇푖푔.

Similarmente a abordagem de Bayes empírico, reduziu as estimativas das variâncias, que protege contra erros que podem ser induzidas em problemas no qual existe situações de amostra 48 de tamanho reduzido, [38]:

2 2 2 (푁푖푔 − 1)^휎푖푔 + 푑푔푆푔 휎˜푖푔 = , 푝푎푟푎푁푖푔 > 1 (푁푖푔 − 1) + 푑푔 na qual, 2 quando 푁푖푔 ≥ 1 simplesmente utilizamos os posteriores 푆푔 . A maioria dos usuários não terão acesso aos dados de treinamento, portanto, as estimativas de 휇푖, 휎푖푔 e 푁푖푔 são incluídas como parte do software que implementa CRLMM versão 2.

A segunda versão do CRLMM forneceu uma poderosa abordagem baseada em probabilidades para detectar SNP’s e lotes problemáticos. Portanto, essa nova versão de modelo permitiu o desenvolvimento de métricas de qualidade para SNP’s, amostras e lotes de amostras. Para estimar as alterações específicas ao lote, 휆푗, Carvalho e outros [14] utilizaram uma abordagem que pode ser descrita em dois estágios. A ideia geral era usar os parâmetros estimados anteriormente, 휇˜푖 e 휎˜푖푔, para produzir posteriores para cada genótipo. Estas estimativas foram utilizadas para criar um pseudo-conjunto de dados de treinamento.

Assim, os 휆푖푗 foram estimados seguindo um procedimento semelhante ao usado para estimar 휇.

O primeiro estágio, para estimar o 휆푖푔, é obter valores inicias para as posterioris, assumindo que não há alterações específicas ao lote, ou seja, 휆 = 0. Considera-se que as alterações específicas ao SNP, 휇, são conhecidas,

(0) 푃푖푗푔 = 푃 푟(푍푖푗푘 = 푔|푀푖푗푘, 휇푖 =휇 ˜푖, 휆푖 = 0, 휎푖푔 =휎 ˜푖푔)

Então, eles atribuíram um genótipo para cada SNP, para cada amostra no lote por simplesmente maximizar esses posterioris:

푍^(0) = 푎푟푔 max 푝(0) 푖푗푘 푔 푖푗푘푔 Um pseudo conjunto de dados de treinamento foi criado com essas chamadas.

O valor esperado de 푀푖푗푘 condicionado em 푍푖푗푘 = 푔 é 푓푖푘푔(푆푖푗푘) + 휇푖푔 + 휆푖푗푔. Então assumiram que o desvio médio

^ 1 ∑︁ 휆푖푗푔 = (0) (푀푖푗푘 − 푓푖푘푔(푆푖푗푘) − 휇˜푖푔) 푁푖푗푔 푘∈푋푖푗푔 na qual, 49

^(0) (0) ^ 푋푖푗푔 ≡ 푘 tal que 푍푖푗푘 = 0 e 푁푖푗푔 é o número de elementos em 푋푖푗푔. 휆푖푗푔 é um estimador não viesado de 휆푖푗푔.

No segundo estágio, a variância do efeito do lote, 푈푗, é estimado com a ^ ^ ^ ^ ^ variância-covariância da amostra de 휆푖 = (휆푖퐴퐴, 휆푖퐴퐵, 휆푖퐵퐵), 푖 = 1, 2, ..., 퐼. Sendo 푈푗 o ^ estimador de 푈푗, reduzimos 휆푖푔 como foi feito com a 휇˜푖:

˜ ^ −1 −1 −1 −1^ 휆 = (푈 + 푊푖 ) 푊푖 휆푖 (3.2.4)

A primeira versão do CRLMM estimava as chamadas posterioris excessivamente confiantes e segundo Carvalho e outros [13], isso é consistente com o fato de que o 휇˜ estimado é assumido como conhecido. Por isso que na segunda versão do algoritmo, foi desenvolvido um procedimento que permite considerar a incerteza associada as estimativas de alterações específicas ao lote e ao SNP. Em seguida, vamos demostrar uma abordagem, desenvolvida por Carvalho e outros [14], quando não há alterações específicas ao lote e os 휖’s são normalmente distribuídos. Considere o modelo simplificado sem efeito de lote (assim j é omitido):

[푀푖푘|푍푖푘 = 푔, 휇푖푘 =휇 ^푖푘] = 푓푘푔(푆푖푘) +휇 ^푖푘 + 휖푖푘푔

2 na qual, 휖 ∼ 푁(0, 휎푖푔). Nessa abordagem, foi estimado uma versão reduzida da média amostral, mas por simplicidade assumiram utilizar a média da amostra. Portanto, as alterações específicas 2 휎푖푔 ao SNP, 휇푖푔, são normalmente distribuídas com média 0 e variância , na qual, 푁푖푔 é o número 푁푖푔 de pontos disponíveis nos dados de treinamento para estimar 휇푖푔, tal como foi feito em 3.2.4. Então,

퐸[푀푖푘|푍푖푘 = 푔] = 퐸휇푖푔 [퐸(푀푖푘|푍푖푘 = 푔, 휇푖푔)] (3.2.5) = 퐸휇푖푔 [푓푘푔(푆푖푘) + 휇푖푔] = 푓푘푔(푆푖푘)

푉 [푀푖푘|푍푖푘 = 푔] = 푉 [퐸(푀푖푘|푍푖푘 = 푔, 휇푖푔)] + 퐸[푉 (푀푖푘|푍푖푘 = 푔, 휇푖푔)] 2 = 푉 [푓푘푔(푆푖푘) + 휇푖푔] + 퐸(휎푖푔) (3.2.6) 2 휎푖푔 2 = + 휎푖푔 푁푖푔

Dessa forma, as probabilidades posteriores são produzidas normalizando as densidades 50 conjuntas das razões logarítmicas 푀 e genótipos 푔:

푃 (푍푖푘 = 푔)휑푀푖푘|푍푖푘=푔(푚) 푃 (푍푖푘 = 푔|푀푖푘 = 푚) = ∑︀3 (3.2.7) 푔=1 푃 (푍푖푘 = 푔)휑푀푖푘|푍푖푘=푔(푚)

na qual, 휑푀푖푘|푍푖푘=푔(푚) representa a densidade da normal com média e variância mostrado pelas equações 3.2.5 e 3.2.6, respetivamente. Carvalho e outros [14], além de quantificar a qualidade de lote, desenvolveram um procedimento para quantificar a qualidade dos SNP’s. Para isso, atribuíram uma probabilidade posterior, a esses SNP’s, de ser um outlier para cada alteração, 휇푖 ou 휆푖푗. Utilizando as distribuições prioris ajustadas para 휇푖 e 휆푖, introduziram uma função de densidade, ℎ0, para valores de 휇’s atípicos e calcularam a probabilidade posteriori, da seguinte forma:

ℎ0(휇푖) 푃 푟(푑푒푠푙표푐푎푚푒푛푡표 푖 푠푒푟 outlier|휇푖) = (3.2.8) ℎ0(휇푖) + 휑(휇푖) na qual, 휑(휇) = (2휋)−3/2|푉 |−1/2푒푥푝(휇′푉 −1휇). Uma escolha prática para ℎ é a distribuição uniforme em 3D que cobre todos os valores possíveis de 휇 [14]. Carvalho e outros, [14], realizaram um calculo similar para 휆푖푗 para cada lote 푗. Portanto o CRLMM tem como objetivo fornecer chamadas de genótipos precisas, scores de confiança calibradas e métricas de qualidade com base em intensidades observadas de sondas de SNP [14]. Na versão 2 do CRLMM, foi incorporado a variabilidade associada à estimativa de parâmetros do modelo com dados de treinamento. Essa abordagem produziu priores com propriedades superiores às produzidas pela CRLMM versão 1. Os aprimoramentos melhora a precisão dos resultados posteriores obtidos a partir de testes de associação baseados em probabilidade [13]. Portanto, genotipando cada SNP em todos os indivíduos, CRLMM obteve uma taxas de concordância de 99,85% de heterozigotos e 99,92% de homozigotos [13]. A metodologia do CRLMM, 1ª e 2ª versão, estão disponíveis através do pacote crlmm/BioConductor no software estatístico R. O CRLMM versão 2 precisa de 52 minutos para completar as genotipagens [14]. A implementação deste algoritmo segue os padrões usados pela primeira versão do CRLMM: fornece o par de genótipos e o índice de confiança para cada amostra em cada SNP disponível [14]. 51 3.3 Redes Neurais

Neste trabalho, explora-se o potencial de uso da metodologia de redes neurais para a obtenção de genótipos utilizando dados de microarranjos de SNPs. As redes neurais têm como motivação simular sistemas neurais biológicos [39], incluindo as aplicações comumente atribuídas ao cérebro, como, por exemplo, o reconhecimento de padrões [23]. As células nervosas presentes no cérebro, os neurônios, estão ligados entre si através de axônios. O axônio é uma fibra nervosa que permite transmitir sinais elétricos entre os neurônios e possui diversas terminações nervosas para se conectar a outros neurônios. Um neurônio é conectado aos axônios de outros neurônios via dendritos, que são extensões do corpo celular do neurônio, conforme apresenta a Figura 3.3.

Figura 3.2: A representação de um neurônio humano. Fonte: Conteúdo de ICMC - USP

De modo análogo à estrutura cerebral, uma rede neural artificial é composta por um conjunto interconectado de nós e links diretos [23]. Ela é projetada para modelar a forma com que o cérebro realiza uma tarefa particular e é composta por vários neurônios [23]. A Tabela 3.1 apresenta uma correspondência entre a rede neural biológica e a artificial [31]. O neurônio é a unidade de processamento de informações fundamental para a operação de uma rede neural. Uma rede neural é uma máquina adaptativa [23], pois seu conhecimento é adquirido através de um processo de aprendizagem. Durante o processo de estimação, o conhecimento adquirido é armazenado pelos pesos sinápticos, que são as forças de conexão entre neurônios. A estimação destes parâmetros ocorre por meio da minimização da entropia cruzada no caso das redes de classificação binária e multinomial, conforme apresenta a Equação 52

Tabela 3.1: Correspondência entre terminologias de redes neurais biológicas e artificiais.

Terminologias Biológico Terminologias Redes Neurais Neurônio Nó Sinapse Conexão Eficiência Sináptica Peso da conexão Frequência de disparo Nó de saída

3.3.1:

푁 퐾 ∑︁ ∑︁ 퐸(푊 ) = − 푦푖푘푙표푔 푦^푖푘, (3.3.1) 푖=1 푘=1 na qual:

• 푖 indexa uma das 푁 observações disponíveis;

• 푘 representa a classe de resposta;

• 푦^푖푘 é o valor predito, pelo classificador, da observação 푖 da classe 푘;

• 푦푖푘 é o valor verdadeiro da obervação 푖 da classe 푘.

No caso de resposta contínua, o conjunto de pesos minimiza a soma de erros quadrados, de acordo com a Equação 3.3.2:

푁 퐾 ∑︁ ∑︁ 2 퐸(푊 ) = (푦푖푘 − 푦^푖푘) , (3.3.2) 푖=1 푘=1 na qual as variáveis apresentam a mesma interpretação do caso anterior. A abordagem genérica para minimizar 퐸(푊 ) é a utilização de gradiente descendente no algoritmo de backpropagation [21]. Com a função de ativação softmax e combinada com a função de perda de entropia cruzada, a rede neural é um modelo de regressão logística. No contexto de genotipagem, observa-se uma excelente harmonia entre a estrutura de dados disponível e requisitos de ajuste de redes neurais. Aqui, o vetor de entrada 푋 pode ser representado pela log-intensidade média de um certo SNP. As classes discretas disjuntas são representadas pelos grupos genotípicos. Adicionalmente, as redes aqui trabalhadas serão do tipo feed-forward. Isso significa que não há loops na rede, ou seja, as informações sempre são alimentadas para a frente, nunca são enviadas de volta. Em outras palavras, as redes neurais feed-forward são modelos de regressão 53 não-linear, com neurônios organizados em camadas e conectados numa única direção. A Figura 3.3, ilustra uma rede feed-forward com uma única camada. A primeira camada da rede é a camada de entrada; a última, a camada de saída. Todas as camadas entre as duas são referidas como camadas ocultas.

Figura 3.3: Figura ilustrando o diagrama do modelo feed-forward com uma única camada. Fonte: [41]

Figura 3.4: Uma rede neural feed-forward com múltiplos níveis de saída

Analisando a Figura 3.3, podemos identificar os elementos básicos do modelo neural: 54

• 푥1, ..., 푥푛 são os sinais de entrada, cada uma conectada ao neurônio, ponderados pelos pesos sinápticos 푤;

• junção aditiva responsável pela soma ponderada dos sinais de entrada com os pesos;

• função de ativação podem ser do tipo linear ou não-linear. Para alguns problemas de classificação binária, cada ativação da unidade de saída é transformada utilizando uma função sigmóide/logística;

• viés aplicadas externamente, 푏푘, tem o efeito de aumentar ou diminuir a entrada líquida da função de ativação. Apesar da nomenclatura utilizada [41], o viés, na terminologia estatística, é o intercepto de um modelo de regressão.

A rede feed-forward, ilustrada pelo diagrama da Figura 3.4, pode ser representada matematicamente pelas seguintes equações [7]:

⎛ 푀 ⎞ ∑︁ 푦(푥, 푤) = 푓 ⎝ 푤푗휑(푥푗)⎠ (3.3.3) 푗=1 na qual 푓(·) é a função ativação; 휑푗(푥푗) é uma função não-linear das entradas. O modelo básico da rede neural pode ser descrito como uma série de transformações funcionais: 퐷 ∑︁ (1) (1) 푎푗 = 푤푗푖 푥푖 + 푤푗0 . (3.3.4) 푖=1

Na Equação 3.3.4, 푎푗 é a quantidade de ativação, 푗 representa uma das 푀 camadas ocultas, (1) (1) 퐷 é o número de nós de entrada. Os parâmetros 푤푗푖 são os pesos e os 푤푗0 são os vieses. Cada quantidade de ativação, 푎푗, é transformada usando uma função de ativação ℎ(.):

푍푗 = ℎ(푎푗). (3.3.5)

A função não-linear, ℎ(.), pode ser de diversos tipos [7] e, habitualmente, uma função logística para problemas de classificação binária. Para obtermos as unidades de saída, esses valores são novamente combinados linearmente.

푀 ∑︁ (2) (2) 푎푘 = 푤푘푗 푍푗 + 푤푘0 (3.3.6) 푗=1 na qual, 푘 = 1, ..., 퐾 é o número total de saídas. Estas transformações correspondem a segunda camada da rede e 푤푘0 são os vieses. Para fornecer um conjunto de saídas da rede, 푌푘, é 55 necessário escolher uma função de ativação apropriado a cada problema abordado.

• Para problemas de classificação binárias, cada ativação da unidade de saída é dada pela função sigmóide logística:

1 푦푘(푥, 푤) = 훿(푎푘) = . (3.3.7) 1 + 푒푥푝(−푎푘)

• Para problemas de classificação multiclasse, a função de ativação é softmax:

푒푥푝(푎푘) 푦푘(푥, 푤) = ∑︀ . (3.3.8) 푗 푒푥푝(푎푗)

Existem vários tipos de função de ativação, que incluem, mas não se restringem apenas a:

• Tangente Hiperbólica (TanH);

• Unidade Linear Retificada (ReLu);

• Unidade Linear Exponencial (ELU).

Com a linearidade na camada oculta, a rede neural seria reduzida a um modelo linear generalizado. Quando a função de ativação é a identidade, o modelo de redes neurais se reduz a um modelo linear [18]. Ao considerar o problema de genotipagem tratado aqui, no qual há 푘 classes de resposta, pode-se representar, matematicamente, a saída na 푘-ésima classe da seguinte forma:

⎡ 푀 (︃ 퐷 )︃ ⎤ ∑︁ (2) ∑︁ (1) (1) (2) 푦푘(푥, 푤) = 훿(푎푘) = 훿 ⎣ 푤푘푗 ℎ 푤푗푖 푥푖 + 푤푗0 + 푤푘0 ⎦ , (3.3.9) 푗=1 푖=1

∑︀ de forma que, 0 ≤ 푦푘 ≤ 1 e 푘 푦푘 = 1. É importante ressaltar que o algoritmo de backpropagation é uma estratégia iterativa para a estimação dos pesos. A cada passo, procura-se estimadores que provejam melhoras sobre os resultados obtidos anteriormente. Caso este incremento de qualidade atinja um plateau ou um número máximo de iterações seja alcançado, o algoritmo é encerrado. Por outro lado, a cada passo do algoritmo, a solução (de modo análogo ao algoritmo de Newton-Raphson) é incrementada em passos de tamanho 휆, também conhecido como taxa de aprendizado ou taxa de decaimento. A taxa de decaimento é vista como um hiper-parâmetro no cenário de redes neurais. Para 휆 muito pequeno, o tempo até a convergência do algoritmo é bastante elevado, 56 com o risco de sobreajuste (over-fitting). Para um 휆 muito grande, pode-se nunca chegar ao valor ótimo de parâmetros aos longo do processo de otimização. Habitualmente, 휆 ∈ (10−4; 10−2) para ajustes de entropia [36].

3.4 Predição de Locação/Escala para Genótipos Faltantes

3.4.1 Distribuição Normal Multivariada

A distribuição normal foi apresentada pelo matemático Fancês Moivre em 1733 [43], como o limite da distribuição binomial. Ela é habitualmente atribuída a Gauss e, por isso, também chamada de Curva Gaussiana. Ela tem um papel importantíssimo na Estatística em diversas áreas, destacando-se também por ser a distribuição limite no Teorema Central do Limite. Por conta da forma de sua densidade, também é conhecida como "Curva do Sino". Formalmente, uma variável aleatória 푋 que segue a distribuição normal, assume valores na reta real, isto é, 푋 :Ω → 푅 e possui média 휇 e variância 휎2. Desta maneira, é denotada por 푋 ∼ 푁(휇, 휎2) e sua função de densidade de probabilidade é dada por:

1 {︃ (푥 − 휇)2 }︃ 푓(푥|휇, 휎) = √ 푒푥푝 − , (3.4.1) 2휋휎2 2휎2 na qual, 휇 ∈ 푅 e 휎2 ∈ 푅+. Nesse caso, 휇 e 휎2 são os parâmetros da distribuição e,

퐸[푋] = 휇 e 푉 푎푟[푋] = 휎2

A distribuição normal pode ser univariada ou multivariada. Sendo uma generalização do caso univariado, de modo a permitir correlação entre suas componentes, a distribuição ′ normal multivariada (NMV) é definida para um vetor 푋 = (푋1, 푋2, . . . , 푋푝), no qual 푝 ≥ 2 푝 representa o número de dimensões da variável aleatória, de modo que 푋푝×1 ∈ 푅 . Assim, o vetor de variáveis aleatórias, 푋푝×1, tem distribuição normal multivariada com média 휇 e matriz de covariância Σ, ou seja, 푋푝×1 ∼ 푁푝(휇, Σ). Sua função de densidade de probabilidade de 푋 é dada por: 57

1 {︂ 1 }︂ 푓(푥|휇, Σ) = 푒푥푝 − (푥 − 휇)′|Σ|−1(푥 − 휇) , (3.4.2) (2휋)푝/2|Σ|1/2 2 na qual, 휇 = (휇1, 휇2, . . . , 휇푝) = (퐸[푋1], 퐸[푋2], . . . , 퐸[푋푝]) é um vetor, de p-dimensões, de médias, Σ푝×푝 = 푐표푣(푋, 푋) é a matriz de variância-covariância.

Propriedades Básicas da Normal Multivariada:

Se 푋푝×1 tem distribuição normal multivariada com média 휇 e matriz de covariância Σ, então:

• Qualquer combinação linear de 푋 é uma NMV, como por exemplo: Seja 푌 = 퐴푋 + 푐,

com 퐴(푞×푝) e 푐(푞×1), então,

푌 ∼ 푁푞(휇푦, Σ푞)

푇 na qual, 휇푦 = 퐴휇 + 푐 e Σ푦 = 퐴Σ퐴 ;

• Variáveis são não correlacionadas, se e somente se, elas forem independentemente

distribuídas, ou seja, 푋푖⊥∀ 푖̸=푗푋푗 ⇐⇒ 푐표푣(푋푖, 푋푗) = 휎푖푗 = 0;

′ ′ • Se 퐴푝×푞 for uma matriz não aleatória, então, 퐸[푋 퐴푋] = 푡푟(퐴Σ) + 휇 퐴휇;

• Se um conjunto de variáveis são não correlacionadas, então eles são independentemente distribuídas. Portanto, se 푋 é NMV com matriz de covariância Σ, então 퐴푋 e 퐵푋 são independentes se e somente se: 푐표푣(퐴푋, 퐵푋) = 퐴Σ퐵′ = 0

Distribuição Condicional de uma Normal Multivariada

As distribuições marginal e condicional de uma normal multivariada também são normais multivariadas. Para o caso particular de um marcador genômico do tipo SNP, como o aqui estamos, consideremos o caso de uma normal multivariada com 6 dimensões (3 genótipos; 2 ′ dimensões de variáveis, 푀 e 푆). Assim, temos 푋 = [푋1, 푋2, . . . , 푋6] com distribuição normal ′ 푋 multivariada com media 휇 = [휇1, 휇2, . . . , 휇6] e matriz de covariância Σ6푋6. ′ Considerando um agrupamento do vetor 푋 de forma que 푌1 = [푋3, 푋4, 푋5, 푋6] e 푌2 = ′ ′ [푋1, 푋2] , então 푋 = 푌 = [푌1, 푌2] é um vetor aleatório com distribuição normal multivariada. 58

Nesta reformulação, 퐸[푌 ] = [퐸[푌1], 퐸[푌2]] e matriz de covariância

⎡ ⎤ Σ푌 Σ푌 Σ푌 = 11 12 . 2×2 ⎣ 푌 푌 ⎦ Σ21 Σ22

푌 Desta forma, a distribuição condicional de 푌2|푌1 ∼ 푁2(휇¯, Σ¯ ). A média em questão é dada por: 푌 −1 퐸[푌2|푌1 = 푦1] = 휇¯ = 퐸[푌2] + Σ21Σ푌,11(푌1 − 퐸[푌1]) (3.4.3) e covariância ¯ 푌 푌 푌 −1 푌 퐶표푣(푌2|푌1) = Σ = Σ22 − Σ21Σ푌,11Σ12, (3.4.4) na qual, retornando à notação inicial em 푋:

⎡ ⎤ 푌 휎11 휎12 Σ22 = ⎣ ⎦ 휎21 휎22 ⎡ ⎤ ′푌 푌 휎11 휎12 휎13 휎14 Σ 12 = Σ21 = ⎣ ⎦ 휎21 휎22 휎23 휎24 ⎡ ⎤ 휎11 휎12 휎13 휎14 ⎢ ⎥ ⎢ ⎥ 푌 ⎢ 휎21 휎22 휎23 휎24 ⎥ Σ = ⎢ ⎥ , 11 ⎢ ⎥ ⎢ 휎31 휎32 휎33 휎34 ⎥ ⎣ ⎦ 휎41 휎42 휎43 휎44 onde 휎푖푗 = 푉 푎푟(푋푖푗), ∀ 푖 = 푗 e 휎푖푗 = 푐표푣(푋푖, 푋푗), ∀ 푖 ̸= 푗.

3.4.2 Aplicação da Distribuição Condicional na Estimação de Parâmetros

Retornando à questão levantada anteriormente, na qual aponta-se diversos marcadores no genoma para o qual não temos observações nos três grupos de genótipos, por exemplo, por consequência de frequência alélica, o algoritmo CRLMM depende de ter medidas de locação e dispersão para todos os três grupos (independente de haver ou não observações válidas no conjunto de dados de treinamento). Neste caso, suponhamos, sem perda de generalidade, que, para um destes marcadores, temos observações apenas para 2 grupos de genótipos: AA e AB. Na amostra inteira disponível, nenhum dos indivíduos foi identificado pelo Projeto HapMap como portador do genótipo BB. Neste caso, propõe-se obter uma amostra suficientemente grande de marcadores para os 59 quais foram observados indivíduos em todos os 3 grupos genótipos. Para referência, no conjunto de dados aqui trabalhado, existem mais de 612 mil destes marcadores. Para cada um destes marcadores, calculamos as médias das estatísticas 푀 e 푆 para cada um dos genótipos (AA, AB e BB). Desta maneira, teremos vetores:

′ ¯ ¯ ¯ ¯ ¯ ¯ 푊푖 = [푀푖,퐴퐴, 푆푖,퐴퐴, 푀푖,퐴퐵, 푆푖,퐴퐵, 푀푖,퐵퐵, 푆푖,퐵퐵], (3.4.5)

onde 푊6 ∼ 푁푀푉 (휇, Σ), visto que, pelo Teorema Central do Limite, as médias aritméticas tomadas para cada estatística de cada marcador são assintoticamente normais. Adicionalmente, os vetores 푊푖 são completamente observados para todos os marcadores selecionados. Retornando ao exemplo em que observações para o genótipo BB não foram identificadas, podemos estimar as medidas de locação e dispersão utilizando os resultados apresentados nas Equações 3.4.3 e 3.4.4, respectivamente. Para tanto, é suficiente denotar 푌1 = ¯ ¯ ¯ ¯ ¯ ¯ [푀푖,퐴퐴, 푆푖,퐴퐴, 푀푖,퐴퐵, 푆푖,퐴퐵] e 푌2 = [푀푖,퐵퐵, 푆푖,퐵퐵].

3.4.3 Provas

As provas das Equações 3.4.3 e 3.4.4 são apresentadas a seguir. Definindo uma ′ −1 transformação de (푌1, 푌2) para novas variáveis 푌1 e 푌2 = 푌2 − Σ21Σ11 푌1. Assim, podemos escrever como uma transformação linear:

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ 푌 퐼 0 푌 1 = 1 ⎣ ′ ⎦ ⎣ −1 ⎦ ⎣ ⎦ 푌2 Σ21Σ11 퐼 푌2

′ Essa combinação linear mostra que 푌1, 푌2 são conjuntamente NMV. Agora, vamos mostrar ′ que 푌1 e 푌2 são independentes porque são não correlacionadas.

′ −1 퐶표푣(푌1, 푌2 ) = 퐶표푣(푌1, 푌2 − Σ21Σ11 푌1) −1 = 퐶표푣(푌1, 푌2) − 퐶표푣(푌1, 푌1)Σ11 Σ12 −1 (3.4.6) = Σ12 − Σ11 Σ12 = Σ12 − Σ12 = 0

′ Dessa forma demostramos que 푌1 e 푌2 são NMV não correlacionadas e, portanto, ele são independentes. Portanto, 60

′ ′ 퐸[푌2 |푌1 = 푦1] = 퐸[푌2 ] −1 = 퐸[푌2] − Σ21Σ11 푌1] (3.4.7) −1 = 퐸[푌2] − Σ21Σ11 퐸[푌1]

′ −1 Assim, com 푌2 = 푌2 − Σ21Σ11 푌1 e 푌1 = 푦1 é conhecido, então, temos que:

Demonstração. da Equação 3.4.3:

′ −1 퐸[푌2|푌1 = 푦1] = 퐸[푌2 |푌1 = 푦1] + Σ21Σ11 푦1 −1 −1 (3.4.8) = 퐸[푌2] − Σ21Σ11 퐸[푌1] + Σ21Σ11 푦1 −1 = 퐸[푌2] + Σ21Σ11 (푦1 − 퐸[푌1])

′ Em seguida, demostraremos equação 3.4.4, considerando que 푌2 é independente de 푌 − 1:

Demonstração. Equação 3.4.4:

′ ′ 퐶표푣(푌2 |푌1 = 푦1) = 퐶표푣(푌2 ) ⇒ 퐶표푣(푌 − Σ Σ−1푦 |푌 = 푦 ) = 퐶표푣(푌 − Σ Σ−1푌 ) 2 21 11 1 1 1 2 21 11 1 (3.4.9) −1 ⇒ 퐶표푣(푌2|푌1 = 푦1) = 퐶표푣(푌2, 푌2) − Σ21Σ11 퐶표푣(푌2, 푌1) −1 ∴ 퐶표푣(푌2|푌1 = 푦1) = Σ22 − Σ21Σ11 Σ12

3.5 Bayes Empírico

O método Bayes Empírico (BE) é um procedimento para inferência estatística, no qual a distribuição a priori é estimada a partir dos dados. A abordagem Bayes Empírico é equivalente ao encolhimento das variâncias amostrais estimadas [38], resultando em uma inferência mais estável. A estratégia de BE pode ser utilizada em diferentes aplicações de expressão gênica. Essa metodologia adequa-se perfeitamente ao problema apresentado na seção anterior: nem todos os grupos genotípicos são obrigatoriamente observados - há situações em que 1, 2 ou mesmo 3 grupos genotípicos não são observados na base de dados fornecida pelo Projeto HapMap. Em alguns casos, isso se deve à ausência de indivíduos daqueles genótipos; em outros, 61 por conta de ausência de consenso entre os laboratórios participantes do projeto. Nesse caso, precisamos, ainda assim, obter estimativas de locação e de dispersão para tais grupos. Elas podem ser determinadas por meio das distribuições condicionais e melhoradas com o uso de BE. Em outras palavras, quando possível, as estimativas bidimensionais de médias e variâncias são calculadas a partir dos dados de treinamento; entretanto, a estabilidade destas estimativas reduz-se à medida que o número de observações por grupo é também reduzida. Assim, a aplicação da técnica de Bayes Empírico pode ser entendida como “tomar emprestado poder estatístico de outros SNPs para que as estimativas calculadas no passo anterior se tornem mais robustas” e determinada com os estimadores abaixo [14]:

˜ (︁ ^ −1 −1)︁−1 −1 푊푖 = 푉 + 푄푖 푄푖 푊푖, (3.5.1)

^ de forma que 푉 é o estimador de 푉 baseando nos dados observados, 푄푖 é uma matriz diagonal 2 com elementos 푠푔/푁푖푔, com 푔 = 퐴퐴, 퐴퐵, 퐵퐵, e 푁푖푔 é o número de observações disponíveis para a estimativa do par 푊푖푔. De modo similar, tornam-se mais robustas as estimativas de variância: 2 2 (푁푖푔 − 1)^휎푖푔 + 푑푔푠푔 휎˜푖푔 = , for 푁푖푔 > 1. (3.5.2) (푁푖푔 − 1) + 푑푔 A Figura 3.5 apresenta um exemplo prático da predição de locação e escala para o grupo de genótipo hipoteticamente faltante para o SNP_A-1795101. Neste exemplo, apesar de termos observações válidas para o genótipo TT, supõe-se que este é o genótipo faltante e utiliza-se o método aqui descrito para estimar a locação e dispersão do referido genótipo. Na Figura 3.5, os eixos X e Y representam, respectivamente, a log-intensidade média, 푆, e a log-razão, 푀 para o marcador SNP_A-1795101. A referida figura apresenta elipses de confiança centralizadas na medida de locação estimada, com medidas proporcionais ao parâmetro de dispersão. Para este exemplo, supõe-se que não foram identificadas observações de genótipo TT. Desta maneira, utilizam-se os métodos de predição utilizando a distribuição normal multivariada combinada com o método de Bayes Empírico para se estimar a locação e dispersão do genótipo TT. Estas estimativas são apresentadas na figura em linhas pontilhadas. Observa-se a proximidade da pontilhada com a linha sólida, sugerindo a adequacidade do método. 62

Figura 3.5: Utilização de Bayes Empírico na predição da localização de classes. Fonte: Gráfico de autoria própria. 63

Capítulo 4

Métricas de Qualidade para Modelos de Classificação

Avaliar o desempenho de um algoritmo de classificação é crucial para garantir que classificações futuras, em situações semelhantes, sejam suficientemente precisas. Para a quantificação destes níveis de qualidade, utilizam-se métricas diversas.

4.1 Matriz de Confusão

A matriz de confusão é um recurso para exibir resultados obtidos por algoritmos de classificação. Para 퐾 classes, a matriz de confusão é uma matriz de contagem 푘 × 푘. Nesta matriz, as colunas correspondem às classes de referência; as linhas, às predições realizadas pelo algoritmo. Deste modo, a célula [푖, 푗], ∀푖, 푗 = 1, . . . , 푘 apresenta frequências de observações na classe de referência e na classe predita. A diagonal principal desta matriz, células tais que 푖 = 푗, apresenta a frequência de acerto. Uma matriz de confusão 푘 × 푘 pode ser representada como um conjunto de 푘 matrizes de confusão binária, uma para cada classe. A taxa de acerto nem sempre é apropriada para avaliar um modelo de classificação [33]. Quando as classes são muito desbalanceadas, este problema é bastante visível. Por exemplo, suponha que o objetivo seja modelar a ocorrência de um evento raro, como o número de operações fraudulentas em operações de cartão de crédito realizadas pela internet. Neste caso hipotético, suponha que a Tabela 4.1 represente este exemplo. Um classificador extremamente simples pode sempre prever que toda operação, sem exceção, realizada pela internet com cartão de crédito seja sempre legítima. De fato, segundo a Tabela 4.1, este classificador apresentaria uma taxa de acerto total da ordem de 99,3%. Apesar 64

Fraude Legítima Total Qtde Compras 714 99.286 100.000

Tabela 4.1: Classificação com dados desbalanceados de ser uma acurácia bastante alta, o 0,7% perdido pode representar um prejuízo inestimável para as partes envolvidas. Pode-se pensar de maneira análoga em casos genômicos. Doenças extremamente letais são habitualmente resultados de mutações raríssimas. Desta forma, a distribuição genotípica nos sítios destas mutações podem ser extremamente desbalanceadas. Assim como os casos de fraude, um classificador avaliado somente pela acurácia total poderá determinar que os genótipos de todos os indivíduos sejam sempre genótipos associados a casos saudáveis; perdendo, entretanto, os poucos casos, consideravelmente graves, que necessitariam de apoio médico imediato. Para um caso de resposta binária, pode-se ilustrar a matriz de confusão pelo apresentado pela Tabela 4.2:

Tabela 4.2: Matriz de confusão binária

Classes de Referência Positivo Negativo

Verdadeiro Positivo (VP) Falso Positivo (FP) Positivo

Falso Negativo (FN) Verdadeiro Negativo (VN) Classes Preditas Negativo

Em uma matriz de confusão binária, observações classificadas corretamente na classe positiva são nomeadas de verdadeiros positivos (VP) e observações classificadas corretamente na classe negativa são nomeadas de verdadeiros negativos (VN). As instâncias da classe positiva classificadas como negativas são nomeadas de falsos negativos (FN) e as ocorrências de classe negativa classificadas como positivas são chamadas de falsos positivos (FP). A matriz de confusão é completada quando os resultados de todos os objetos são contabilizados. As observações classificadas corretamente pelo algoritmo estão apresentados na diagonal da matriz. Contagens fora da diagonal ocorrem quando o algoritmo retorna classificações 65

Tabela 4.3: Adaptação de matriz de confusão binária para dados não-binários

Padrão-Ouro SNP_A-XYZ AA não-AA Total AA 700 80 780 Classificador não-AA 200 100 300 Total 900 180 1080 incorretas. Portanto, um algoritmo perfeito produz uma matriz de confusão diagonal. A partir dessas frequências, pode-se calcular indicadores que permitam visualizar os resultados e calcular o desempenho do classificador [20]. Para a correta definição destas métricas, é preciso uma diferenciação clara entre os casos sabidamente positivos (i.e., casos que são rotulados como positivos por experts, por exemplo) e dos casos classificados como positivos (i.e., casos que, utilizando um algoritmo de classificação, são determinados como positivos). Entre as estatísticas que podem ser calculadas a partir da Matriz de Confusão, ilustrada pela Tabela 4.2, temos as seguintes:

푉 푃 • Sensibilidade ou Recall: 푆 = 푉 푃 +퐹 푁 , é a proporção de casos classificados como positivos calculada entre os casos sabidamente positivos;

푉 푁 • Especificidade: 퐸 = 푉 푁+퐹 푃 , é proporção de casos classificados como negativos calculada entre os casos sabidamente negativos;

푉 푃 • Valor Preditivo Positivo: 푉 푃 푃 = 푉 푃 +퐹 푃 , é a proporção de casos sabidamente positivos calculada entre os casos classificados como positivos;

푉 푁 • Valor do Preditivo Negativo: 푉 푃 푁 = 푉 푁+퐹 푁 , é a proporção de casos sabidamente negativos calculada entre os casos classificados como negativos;

푉 푃 +푉 푁 • Acurácia: 퐴푐푢 = 푉 푃 +푉 푁+퐹 푃 +퐹 푁 , é a proporção de acertos global;

퐹 푃 +퐹 푁 푉 푃 +푉 푁 • Taxa de erro: 푇 퐸 = 푉 푃 +푉 푁+퐹 푃 +퐹 푁 = 1 − 푉 푃 +푉 푁+퐹 푃 +퐹 푁 , é o complementar da acurácia, representando a proporção de falsos positivos e falsos negativos calculada entre todas as classificações realizadas.

Como exemplo ilustrativo, considere a Tabela 4.3 dada abaixo. Nesta caso, temos 1.080 observações para um sítio genômico hipotético. Neste exemplo, podemos calcular as métricas supracitadas com a simples aplicação de suas definições.

푉 푃 700 • Sensibilidade: 푆 = 푉 푃 +퐹 푁 = 700+200 = 77, 78%; 66

푉 푁 100 • Especificidade: 퐸 = 푉 푁+퐹 푃 = 100+80 = 55, 56%;

푉 푃 700 • Valor Preditivo Positivo: 푉 푃 푃 = 푉 푃 +퐹 푃 = 700+80 = 89, 74%;

푉 푁 100 • Valor do Preditivo Negativo: 푉 푃 푁 = 푉 푁+퐹 푁 = 100+200 = 33, 33%;

푉 푃 +푉 푁 700+100 • Acurácia: 퐴푐푢 = 푉 푃 +푉 푁+퐹 푃 +퐹 푁 = 1080 = 74, 07%;

퐹 푃 +퐹 푁 80+200 • Taxa de erro: 푇 퐸 = 푉 푃 +푉 푁+퐹 푃 +퐹 푁 = 1080 = 25, 93%.

Para a avaliação destas métricas, recomenda-se a utilização de amostras que não tenham sido empregadas no processo de treinamento dos modelos de classificação. Isso permitirá o melhor controle de sobreajuste (overfitting).

4.2 Métrica para Avaliação de Agrupamento

O método da silhueta é uma medida que permite a avaliação da coesão (similaridade entre observações pertencentes a um mesmo grupo) relativa à separação dos grupos [37]. Trata-se de uma quantidade que varia entre (−1, 1). Valores elevados deste índice sugerem bom pareamento daquela observação com o grupo a que foi alocada. Valores baixos indicam problemas na classificação, podendo ser reflexo de baixa separação dos grupos. A silhueta para a 푖-ésima observação é calculada da seguinte maneira:

푏 − 푎 푆(푖) = 푖 푖 , (4.2.1) max {푎푖, 푏푖} onde

1 ∑︁ 푎푖 = 푑(푖, 푗), 푛(퐶푖) − 1 푗̸=푖,푗∈퐶푖 1 ∑︁ 푏푖 = min 푑(푖, 푗). 푖̸=푗 푛(퐶푗) 푗∈퐶푘

As variáveis definidas a partir da Equação 4.2.1, que apresenta a silhueta para a 푖-ésima observação são interpretadas da seguinte maneira:

• 푎푖: distância média entre a observação 푖 e todas demais observações de seu grupo. É importante frisar a necessidade do ajuste da cardinalidade para a determinação da média, visto que a distância 푑(푖, 푖) não é empregada; 67

• 푏푖: distância média entre a observação 푖 e todas as observações do grupo vizinho mais próximo;

• 퐶푖: o grupo ao qual a observação 푖 foi assinalada;

• 푘: o número de grupos;

• 푑(푖, 푗): distância entre as observações 푖 e 푗. Qualquer distância pode ser utilizada, como, por exemplo, a distância Euclidiana;

• 푛(퐶): número de observações no grupo 퐶.

O índice de silhueta é interpretado da seguinte forma:

• 푆(푖) ≈ −1: indícios de que a 푖-ésima observação foi alocada ao grupo incorreto, pois 푏(푖) < 푎(푖);

• 푆(푖) ≈ 1: indícios de qua a 푖-ésima observação foi alocada ao grupo correto, pois 푏(푖) > 푎(푖);

• se 푆(푖) = 0: sugere que a 푖-ésima observação está muito próxima do limite de decisão entre os dois grupos, visto que 푏(푖) = 푎(푖);

• quando um grupo é constituído por um único elemento, define-se 푆(푖) = 0.

A quantidade 푆(푖), apresentada na Equação 4.2.1, pode ser vista, portanto, como um índice de qualidade para cada observação individual, sujeita ao processo de classificação. É comum buscarmos também critérios que possam auxiliar na avaliação de qualidade de um grupo/cluster como um todo ou mesmo de todo o conjunto de dados, condicional aos agrupamentos ali identificados. Por este motivo, pode-se determinar a Silhueta Média do 푘-ésimo grupo (푆푀푘) e o Coeficiente de Silhueta Média (퐶푆푀), que são dados, respectivamente, pelas Equações 4.2.2 e 4.2.3:

∑︀푛(퐶) 푆(푖) 푆푀 = 푖=1 (4.2.2) 푘 푛(퐶) ∑︀푛 푆(푖) 퐶푆푀 = 푖=1 . (4.2.3) 푛

É importante notar que, numa situação ideal, o coeficiente de silhueta tem seu valor numérico maximizado. Esta característica pode, inclusive, ser utilizada em cenários de 68 aprendizado não-supervisionado como métrica a ser avaliada como critério de parada. Em termos práticos, conjuntos de dados com coeficientes de silhueta superiores a 0, 65 são bases de dados bem classificadas, ao passo que aquelas que apresentem 퐶푆푀 > 0, 70 podem ser classificadas como tendo uma excelente estrutura de agrupamento [27]. 69

Capítulo 5

Aplicação com os Dados HapMap

Um subconjunto de observações produzidas na plataforma Affymetrix Genome-Wide SNP 6.0 e seus respectivos genótipos validados pelo projeto HapMap constituem a base de dados empregada na fase de treinamento dos algoritmos redes neurais (RNA) e CRLMM. Este subconjunto é composto por 612.408 SNPs, cujas intensidades de sondas e genótipos foram anotados para 1.132 indivíduos. Afim de realizar o treinamento dos algoritmos supracitados, estes SNPs foram selecionados de forma a existirem, pelo menos, 10 indivíduos em cada um dos três grupos de genótipos (AA, AB, BB). A topologia da Rede Neural Artificial (RNA) é definida pela quantidade de neurônios por camada, o número de camadas por rede e pelos pesos ajustados após o aprendizado. A escolha da topologia é a fase mais crítica do processo de ajuste. Neste trabalho, esta escolha foi apoiada pela criação de um grid no qual o número de neurônios variava entre 1 e 4. As redes ajustadas para cada SNP foram do tipo feed-forward, conforme Figura 3.4, na qual os neurônios são organizados em camadas e conectados unidirecionalmente. Com base nas medidas de resumo globais (mediana, médias aritmética, geométrica e harmônica) da acurácia dos modelos, obtidas nas diferentes topologias, escolheu-se o modelo com dois nós e uma única camada oculta como modelo de RNA a ser utilizado para cada um dos 612 mil SNPs disponíveis. Ressalta-se que, para a otimização completa da acurácia em todos os sítios amostrados, as topologias das RNAs seriam diferentes para cada sítio, de forma a serem capturadas especificidades de cada unidade molecular. Entretanto, optou-se aqui por uma topologia única afim de permitir, com facilidade, extensões deste trabalho para estratégias semi-supervisionadas. A Tabela 5.1 apresenta as medidas de resumo globais obtidas nesta instância: 70

Tabela 5.1: Acurácia média para diferentes topologias de redes

Modelo Média Aritmética Média Geométrica Média Harmônica Mediana 1 nó 0,997872 0,997857 0,997841 0,999103 2 nós 0,998522 0,998511 0,998499 1 3 nós 0,998508 0,998497 0,998484 1 4 nós 0,998474 0,998462 0,998449 1 5 nós 0,998439 0,998426 0,998413 1

Para o ajuste das RNAs, utilizou-se o pacote caret disponível para a plataforma de estatística computacional R, versão 3.4.3. O pacote caret simplifica o processo de criação de modelos preditivos que, nesta oportunidade, foi realizado com o métodos nnet. Afim da otimização do poder preditivo de cada modelo, empregou-se validação cruzada de 10-fold, para a avaliação do erro do tipo out of bag, permitindo, então, a escolha apropriada do parâmetro de decaimento. Para permitir a convergência do algoritmo backpropagation em todos os sítios, permitiu-se que o mesmo empregasse até um máximo de 500 iterações. A função de ativação, por se tratar de uma resposta de três classes para cada SNP, foi softmax. O modelo final de RNA para genotipagem de um dado SNP tem a seguinte arquitetura, conforme apresenta a Figura 5.1: uma camada de entrada com dois nós, 푀 e 푆; uma camada oculta com dois nós; e, por fim, três nós na camada de saída, correspondentes aos três grupos de genótipos, AA, AB e BB.

Entrada Oculta Saída Genótipo #1 Entrada #1 Genótipo #2 Entrada #2 Genótipo #3

Figura 5.1: Topologia de rede neural selecionada para genotipagem

Utilizou-se a estratégia da criação de matrizes de confusão e de estatísticas associadas, como valores preditivos, sensibilidade e especificidade, para a avaliação dos métodos de classificação aqui estudados. As Tabelas 5.2 e 5.3 apresentam os resultados para este contexto de genotipagem com RNA e CRLMM. Para exemplificar os achados, utilizou-se o marcador identificado como SNP_A-1807747, genotipado nos 1.132 indivíduos amostrados. 71

Tabela 5.2: Matriz de confusão - RNA Tabela 5.3: Matriz de confusão - CRLMM

Padrão Ouro Padrão Ouro Classificador AA AG GG Classificador AA AG GG AA 22,3 0,2 0 AA 22,5 0,12 0 AG 0,4 45,1 0,2 AG 1,2 43,3 1,32 GG 0 0,5 31,3 GG 0 0,36 31,2

Com o intuito de realizar uma análise mais detalhada da precisão de acerto dentro de cada grupo recorreu-se à avaliação binária. Portanto, as matrizes 3 × 3 foram transformadas em matrizes de confusão binária, uma para cada grupo de genótipo. Com isso são calculados os indicadores de desempenho dos algoritmos de classificação para cada grupo de genótipo. As Tabelas 5.4– 5.9 representam os resultados dos algoritmos, RNA e CRLMM, como matrizes de confusão binária para cada grupo de genótipo do SNP_A-1807747.

Tabela 5.4: RNA - Grupo AA Tabela 5.5: CRLMM - AA

Padrão Ouro Padrão Ouro Classificador AA não-AA Total Classificador AA não-AA Total AA 22,3 0,4 22,7 AA 22,5 1,2 23,7 não-AA 0,2 76,4 76,6 não-AA 0,12 74,5 74,6 Total 22,5 76,8 99,3 Total 22,6 75,7 98,3

Tabela 5.6: RNA - Grupo AG Tabela 5.7: CRLMM - AG

Padrão Ouro Padrão Ouro Classificador AG não-AG Total Classificador AG não-AG Total AG 45,1 0,7 45,8 AG 43,3 0,48 43,7 não-AG 0,6 53,6 54,2 não-AG 2,52 53,7 56,2 Total 45,7 54,3 100 Total 45,8 54,1 99,9

Com base nas Tabelas 5.2 e 5.3, pode-se calcular a acurácia geral dos dois modelos de classificação. As acurácias obtidas para os modelos de redes neurais e CRLMM foram, respectivamente, 98, 7% e 97, 0%. A rede neural apresentou, portanto, maior acurácia ao genotipar a unidade SNP_A-1807747. Como discutido anteriormente, esta estatística isoladamente não é suficiente para avaliar o desempenho do algoritmo. A partir das matrizes de confusão binária, foram calculadas outros indicadores de desempenho de classificação, 72

Tabela 5.8: RNA - Grupo GG Tabela 5.9: CRLMM - GG

Padrão Ouro Padrão Ouro Classificador GG não-GG Total Classificador GG não-GG Total GG 31,3 0,2 31,5 GG 31,2 1,32 32,5 não-GG 0,5 67,4 67,9 não-GG 0,36 65,8 66,1 Total 31,8 67,6 99,4 Total 31,5 67,1 98,6 apresentados na Tabela 5.10. Esses indicadores auxiliam na comparação do desempenho dos algoritmos de classificação, RNA e CRLMM. 73

Tabela 5.10: Desempenho dos algoritmos de RN e CRLMM para SNP_A-1807747

Grupos Algoritmo S E P Acu TE VPF RNA 0,991 0,994 0,982 0,984 0,006 0,997 AA CRLMM 0,996 0,984 0,949 0,986 0,013 0,999 RNA 0,987 0,987 0,985 0,987 0,013 0,989 AB CRLMM 0,945 0,993 0,991 0,971 0,030 0,956 RNA 0,984 0,987 0,994 0,993 0,007 0,993 BB CRLMM 0,990 0,981 0,960 0,983 0,017 0,995

Analisando a Tabela 5.10, observa-se a alternância, entre os algoritmos utilizados, de métricas ótimas. As diferenças observadas são, em valores absolutos, pequenas, mas as redes neurais apresentam comportamento geral melhor que o CRLMM. Em particular, RNA supera CRLMM em 4 métricas no grupo heterozigoto e também no grupo homozigoto BB. Já no grupo AA, há um aparente empate entre as técnicas. É importante ressaltar aqui que o maior ganho na aplicação de redes neurais tem sido observado na habilidade de identificar mais apropriadamente observações heterozigotas (quando comparado ao CRLMM), ao mesmo tempo que a precisão de chamadas de homozigotos permanece praticamente estável. A dificuldade em chamar heterozigotos no CRLMM vem de uma combinação do fato de o grupo heterozigoto estar colapsado entre os dois grupos homozigotos e o peso das caudas na vizinhança do grupo heterozigoto aumentar a incerteza naquelas áreas. Observou-se também que as redes neurais permitem uma classificação mais concordante com os processos biológicos nas caudas da distribuição da log-razão 푀. As Figuras 5.2, 5.3 e 5.4 apresenta as observações disponíveis para o SNP_A-1807747. Cada ponto ali representado corresponde às estatísticas 푀 (eixo Y) e 푆 (eixo X) calculadas após a normalização e a sumarização, por polimento de mediana, das intensidades de sondas obtidas após capturar a imagem do microarranjo. As cores, no primeiro painel, representam os genótipos identificado no Projeto HapMap; deve-se atentar para o fato de que, no caso de o projeto não atingir um consenso na chamada de genótipo para um certo indivíduo, essa observação é apresentada no gráfico como um sinal +, na cor cinza. Os demais painéis apresentam, respectivamente, as chamadas obtidas pelo algoritmo CRLMM (na Figura 5.3) e RNA (na Figura 5.4), com as cores seguindo o mesmo padrão de genótipos que o painel onde o Projeto HapMap está representado. A construção das matrizes de confusão foram baseadas no uso dos genótipos obtidos pelo HapMap como a resposta padrão-ouro e, portanto, inequívoca. Foi observado em várias situações que está é uma hipótese muito forte. Existem múltiplos casos em que existem 74

Figura 5.2: Estatísticas M e S com genótipos dados pelo projeto HapMap

Figura 5.3: Estatísticas M e S com genótipos dados pelo algoritmo CRLMM indivíduos com genótipos discordantes de seus vizinhos. Desta forma, apesar de ser um excelente recurso, os dados de genótipo do projeto HapMap requerem uma curadoria prévia ao treinamento de algoritmos. Estatísticas como a métrica de silhueta podem ser de extrema valia nestes casos. 75

Figura 5.4: Estatísticas M e S com genótipos dados pela predição via Redes Neurais

Este cenário foi, pelo menos, parcialmente, contornado com o uso de validação cruzada para a estimação dos parâmetros necessários pelo algoritmo de redes neurais. Para o caso do algoritmo CRLMM, há uma curadoria manual, que também pode levar falhas para a fase de treinamento dos dados. Pela natureza de construção das redes neurais de classificação, para as quais, aqui, utilizamos uma função softmax, observações localizadas nas regiões de fronteira entre dois grupos, possuem probabilidades a posteriori que refletem a dificuldade em classificação. Por exemplo, uma observação exatamente sobre a fronteira entre dois grupos de genótipos, terá probabilidade a posteriori na ordem de 50%. No CRLMM, esta situação foi obtida com a atualização da distribuição da log-razão 푀 condicional ao genótipo de normal para 푡-student. Entretanto, esta mudança não foi algo com efeito homogêneo global, sendo função da cobertura prática das densidades utilizadas. As questões supracitadas são de extrema importância para marcadores nos quais a separação entre os grupos de genótipos não é excelente. Já onde ocorre separação clara dos grupos, a concordância entre os algoritmos CRLMM e RNA é bastante elevada, quando não, máxima. Vide, por exemplo, a Figura 5.5, que apresenta os resultados da genotipagem para o marcador SNP_A-1795101. Neste sítio, a concordância entre ambos os algoritmos é de 99,9%. 76

[HapMap]

[CRLMM]

[RNA] Figura 5.5: Desempenho dos algoritmos CRLMM e RN para SNP com boa separação

Como visto na Figura 5.5, marcadores com boa separação são extremamente fáceis de serem genotipados e, desta forma, métodos bastante simples podem ser performance excelente. Um 77 olhar mais detalhado à mesma figura, apontará uma observação que possui chamadas diferentes entre os dois métodos aferidos. Isso se deve à localização da observação e à forma das regiões de classificação exclusivas de cada método. As qualidades dos agrupamentos propriamente ditos ou mesmo de suas separações podem ser avaliadas por meio das estatísticas de silhueta média (SM) e do coeficiente de silhueta média (CSM) apresentadas, respectivamente, pelas Tabelas 5.11 e 5.12. Assim, por exemplo, pode-se verificar o nível de dificuldade em se obter genótipos para cada um dos SNPs utilizados como exemplo neste capítulo. Estas métricas podem ser determinadas no software R, utilizando-se o comando silhouette.

Tabela 5.11: Silhueta média por combinação de método e SNP

SM Método SNP AA AB BB SNP_A-1807747 0,453 0,548 0,524 CRLMM SNP_A-1795101 0,789 0,879 0,800 SNP_A-1807747 0,513 0,534 0,557 RNA SNP_A-1795101 0,794 0,878 0,800

Tabela 5.12: CSM por combinação de algoritmo e SNP

SNP Método SNP_A-1807747 SNP_A-1795101 CRLMM 0,519 0,834 RNA 0,537 0,835

Ao analisar a Tabelas 5.11 e 5.12, observa-se mudanças estruturais nos níveis das estatísticas. Em particular, observa-se o aumento sistemático das estatísticas quando saímos do SNP_A-1807747 para o SNP_A-1795101. Num contexto de aprendizado não-supervisionado, existiriam evidências para se dizer que a classificação não foi feita de maneira apropriada por consequência de, por exemplo, a atribuição incorreta do número de grupos. No contexto de aprendizado supervisionado, para o qual temos o padrão-ouro para ajuste dos modelos, o que podemos afirmar é que as sondas do marcador SNP_A-1807747 possuem propriedades termoquímicas que impedem uma melhor separação dos grupos de genótipos. 78

Capítulo 6

Conclusão

Neste trabalho, foram estudadas as técnicas de pré-processamento de microarranjos de DNA. Neste contexto, estudou-se detalhes do desenho do microarranjo e da formação de conjuntos de sondas que medem a abundância relativa de alelos A e B. Estas abundâncias, aqui também denominadas intensidades, são processadas por métodos estatísticos avançados, com o objetivo de reduzirem-se os efeitos de fatores técnicos sobre as quantidades a serem empregadas como estatísticas sumárias dos SNPs triados. Estes passos de pré-processamento são, nomeadamente, a correção de ruído de fundo pelo método de convolução, a normalização quantílica e a sumarização por polimento de mediana. Esta combinação, aplicada à plataforma Affymetrix Genome-Wide SNP 6.0, permite inclusive a redução de um passo, por meio da remoção do passo de correção de fundo, visto que, empiricamente, observou-se que o sinal médio de intensidade é bastante elevado (dados não apresentados). Deve-se ressaltar que esta combinação de algoritmos tem permanecido como estratégia robusta de pré-processamento desde a publicação original do algoritmo CRLMM. Uma vez realizado o pré-processamento dos dados, quantidades mais estáveis para a genotipagem são determinadas. Em particular, preferiu-se a utilização da log-intensidade média, 푆, e da log-razão, 푀. Com o apoio das informações relativas a genótipos obtidas pelo Projeto HapMap, por meio do consenso entre laboratórios participantes, é possível organizar os dados para a aplicação de um mecanismo de aprendizado de máquina supervisionado. Neste caso, foram selecionados um pouco mais de 612 mil SNPs, para os quais existem, pelo menos, 10 observações em cada um dos três grupos genotípicos esperados. Com estes dados, duas estratégias foram tomadas:

1. CRLMM: utilizou-se o mecanismo do algoritmo CRLMM, no qual calculam-se medidas de locação e dispersão de cada grupo genotípico para todos os SNPs disponíveis. Nesta 79

estratégia os parâmetros supracitados são utilizados para alimentar um modelo de mistura (específico para cada SNP). Novas amostras são classificadas utilizando a distância de Mahalanobis para cada um destes grupos.

2. Redes Neurais Artificiais: foram utilizados também os resultados disponibilizados pelo Projeto HapMap para se treinar uma rede neural para cada um dos SNPs disponibilizados. Todas estas RNAs foram construídas com a mesma topologia (afim de permitir o desenvolvimento futuro de um mecanismo de chamadas de genótipos que possa utilizar a estratégia de Bayes Empírico).

Observou-se que o CRLMM e RNAs apresentam desempenhos similares. Um ponto favorável às redes neurais é o fato de suas regiões de classificação permitirem uma determinação mais apropriada de níveis de confiança, visto que não dependem de um espaço relativamente limitado de domínio da densidade bivariada utilizada, como o caso de uma normal, que restringe-se ao formato elíptico. Adicionalmente, o método pode ser aplicado diretamente aos dados formados pelos pares (푀푖, 푆푖), sem a necessidade de utilização de complexos modelos hierárquicos. Com a devida normalização dos dados entre os SNPs observados, pode-se, inclusive, empregar o algoritmo de predição via normal multivariada combinado com a estratégia de Bayes Empírico para estimarmos a topologia de redes, para as quais não foi possível observar todos os grupos genotípicos. O CRLMM é um algoritmo de aprendizado supervisionado, com objetivo de fornecer chamadas de genótipos precisos e índices de confiança calibrados [14]. A Versão 2 do CRLMM incorpora a variabilidade associada à estimativa de parâmetros ao modelo, sendo o grande diferencial ao compará-lo à Versão 1. Este trabalho permitiu a atualização do pacote crlmm distribuído pelo Projeto Bioconductor por incorporar as estimativas produzidas com a utilização de todos os dados disponibilizados pela Fase 3 do Projeto HapMap. Em termos numéricos, as bases de dados utilizadas para o lançamento do CRLMM Versão 2 eram baseadas em 270 indivíduos disponibilizados naquela ocasião pelo Projeto HapMap; hoje, produziu-se um novo conjunto de parâmetros com 1.132 indivíduos. A RNA apresentada nesse trabalho é um algoritmo de aprendizado supervisionado que tem como objetivo a obtenção de genótipos para dados de microarranjos. O modelo utilizado é o feed-forward, assim caracterizado pelo fato de os nós serem organizados em camadas que são conectadas num único sentido. A topologia final das redes neurais aqui utilizadas é: uma camada de entrada, composta por dois nós, 푀 e 푆; dois nós na camada oculta e três na camada de saída correspondentes aos três genótipos. Este trabalho foi realizado tendo em mente a 80

finalização do desenvolvimento de um algoritmo de genotipagem empregando redes neurais, por isso a importância de se fixar a topologia das redes, afim de permitir a estimação de pesos que possam ser faltantes (em casos nos quais não se identificam amostras nos 3 grupos genotípicos esperados). Além das métricas disponibilizadas pela matriz de confusão, utilizou-se o coeficiente de silhueta média e silhueta média para comparar os agrupamentos resultados pelos algoritmos de classificação. Para os 612.408 SNPs que contém os três grupos com no mínimo de 10 indivíduos, há indícios que o algoritmo de RNA gere grupos de genótipos com propriedades de consistência mais preferíveis àqueles gerados pelo CRLMM. Também foi observado que, apesar de ser considerado o padrão-ouro para algoritmos de genotipagem em microarranjos, o conjunto de dados HapMap pode conter observações incorretamente classificadas. Desta forma, apesar de ser a melhor das opções atualmente existem, este conjunto de dados requer um tratamento prévio, que busque identificar problemas com os rótulos, além de corrigi-los, se possível. Esta curadoria dos dados pode ser apoiada pelo uso das métricas de silhuetas aqui descritas. 81

Bibliografia

[1] Affymetrix. Brlmm: an improved genotype calling method for the genechip human mapping 500k array set, 2006.

[2] I Affymetrix. Statistical algorithms description document. Technical paper, 2002.

[3] Inc Affymetrix. Guide to probe logarithmic intensity error (plier) estimation. Technical Note. Santa Clara, CA, Affymetrix, 2005.

[4] Ethem Alpaydin. Introduction to machine learning. MIT press, 2014.

[5] Magnus Åstrand. Contrast normalization of oligonucleotide arrays. Journal of Computational Biology, 10(1):95–102, 2003.

[6] Karla V Ballman, Diane E Grill, Ann L Oberg, and Terry M Therneau. Faster cyclic loess: normalizing rna arrays via linear models. Bioinformatics, 20(16):2778–2786, 2004.

[7] Christopher M. Bishop. and Machine Learning (Information Science and ). Springer-Verlag, Berlin, Heidelberg, 2006.

[8] Benjamin M Bolstad, Rafael A Irizarry, Magnus Åstrand, and Terence P. Speed. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics, 19(2):185–193, 2003.

[9] Benjamin Milo Bolstad. Low-level analysis of high-density oligonucleotide array data: background, normalization and summarization. PhD thesis, University of California, Berkeley, 2004.

[10] Aluízio Borém. Biotecnologia. www. biotecnologia. com. br, page 10, 2001.

[11] Anthony J Brookes. The essence of snps. Gene, 234(2):177–186, 1999. BIBLIOGRAFIA 82

[12] Cássio O Camilo and João C Silva. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Relatório Técnico, 2009.

[13] Benilton Carvalho, Henrik Bengtsson, Terence P Speed, and Rafael A Irizarry. Exploration, normalization, and genotype calls of high-density oligonucleotide snp array data. Biostatistics, 8(2):485–499, 2006.

[14] Benilton S Carvalho, Thomas A Louis, and Rafael A Irizarry. Quantifying uncertainty in genotype calls. Bioinformatics, 26(2):242–249, 2009.

[15] International HapMap Consortium et al. The international hapmap project. Nature, 426(6968):789, 2003.

[16] Arthur P Dempster, Nan M Laird, and Donald B Rubin. Maximum likelihood from incomplete data via the em algorithm. Journal of the royal statistical society. Series B (methodological), pages 1–38, 1977.

[17] Xiaojun Di, Hajime Matsuzaki, Teresa A Webster, Earl Hubbell, Guoying Liu, Shoulian Dong, Dan Bartell, Jing Huang, Richard Chiles, Geoffrey Yang, et al. Dynamic model based algorithms for screening and genotyping over 100k snps on oligonucleotide microarrays. Bioinformatics, 21(9):1958–1963, 2005.

[18] Bradley Efron and Trevor Hastie. Computer age statistical inference, volume 5. Cambridge University Press, 2016.

[19] Diógenes Ferreira Filho. Estudo de expressão gênica em citros utilizando modelos lineares. PhD thesis, Universidade de São Paulo, 2009.

[20] A Dean Forbes. Classification-algorithm evaluation: Five performance measures based onconfusion matrices. Journal of Clinical Monitoring, 11(3):189–206, 1995.

[21] Jerome Friedman, Trevor Hastie, and Robert Tibshirani. The elements of statistical learning, volume 1. Springer series in statistics New York, NY, USA:, 2001.

[22] Robert Gentleman, Vincent Carey, Wolfgang Huber, Rafael Irizarry, and Sandrine Dudoit. Bioinformatics and computational biology solutions using R and Bioconductor. Springer Science & Business Media, 2006.

[23] Simon Haykin. Redes neurais: princípios e prática. Bookman Editora, 2007. BIBLIOGRAFIA 83

[24] Wolfgang Huber, Anja Von Heydebreck, Holger Sültmann, Annemarie Poustka, and Martin Vingron. Variance stabilization applied to microarray data calibration and to the quantification of differential expression. Bioinformatics, 18(suppl_1):S96–S104, 2002.

[25] Rafael A Irizarry, Benjamin M Bolstad, Francois Collin, Leslie M Cope, Bridget Hobbs, and Terence P Speed. Summaries of affymetrix genechip probe level data. Nucleic acids research, 31(4):e15–e15, 2003.

[26] Rafael A Irizarry, Bridget Hobbs, Francois Collin, Yasmin D Beazer-Barclay, Kristen J Antonellis, Uwe Scherf, and Terence P Speed. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics, 4(2):249–264, 2003.

[27] Wei-min Liu, Xiaojun Di, Geoffrey Yang, Hajime Matsuzaki, Jing Huang, Rui Mei, Thomas B Ryder, Teresa A Webster, Shoulian Dong, Guoying Liu, et al. Algorithms for large-scale genotyping microarrays. Bioinformatics, 19(18):2397–2403, 2003.

[28] Teri A Manolio and Francis S Collins. The hapmap and genome-wide association studies in diagnosis and therapy. Annual review of medicine, 60:443–456, 2009.

[29] Geoffrey McLachlan and David Peel. Finite mixture models. John Wiley & Sons, 2004.

[30] Geoffrey J McLachlan and Kaye E Basford. Mixture models: Inference and applications to clustering, volume 84. Marcel Dekker, 1988.

[31] Kishan Mehrotra, Chilukuri K Mohan, and Sanjay Ranka. Elements of artificial neural networks. MIT press, 1997.

[32] R. Nussbaum. Thompson & Thompson Genética Médica. Elsevier Brasil, 2008.

[33] RC Prati, GEAPA Batista, and MC Monard. Curvas roc para avaliação de classificadores. Revista IEEE América Latina, 6(2):215–222, 2008.

[34] Nusrat Rabbee and Terence P Speed. A genotype calling algorithm for affymetrix snp arrays. Bioinformatics, 22(1):7–12, 2005.

[35] Cavan Reilly. Statistics in human genetics and molecular biology. CRC Press, 2009.

[36] BD Ripley. Modern applied statistics with s. Statistics and Computing, fourth ed. Springer, New York, 2002. BIBLIOGRAFIA 84

[37] Ashis Sengupta. Advances in multivariate statistical methods, volume 4. World Scientific, 2009.

[38] Gordon K Smyth. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical applications in genetics and molecular biology, 3(1):1–25, 2004.

[39] Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. Introdução ao datamining: mineração de dados. Ciência Moderna, 2009.

[40] Zhijin Wu, Rafael A Irizarry, Robert Gentleman, Francisco Martinez-Murillo, and Forrest Spencer. A model-based background adjustment for oligonucleotide expression arrays. Journal of the American statistical Association, 99(468):909–917, 2004.

[41] Sidney S Zanetti, Elias F Sousa, DF de Carvalho, and Salassier Bernardo. Estimação da evapotranspiração de referência no estado do rio de janeiro usando redes neurais artificiais. Revista Brasileira de Engenharia Agrícola e Ambiental, 12(2):174–180, 2008.

[42] Mayana Zatz. Projeto genoma humano e ética. São Paulo em Perspectiva, 14(3):47–52, 2000.

[43] Daniel Zelterman. Applied multivariate statistics with R. Springer, 2015.