Mauro Vicentini Correia
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDADE DE SÃO PAULO INSTITUTO DE QUÍMICA Programa de Pós-Graduação em Química MAURO VICENTINI CORREIA Redes Neurais e Algoritmos Genéticos no estudo Quimiossistemático da Família Asteraceae. São Paulo Data do Depósito na SPG: 01/02/2010 MAURO VICENTINI CORREIA Redes Neurais e Algoritmos Genéticos no estudo Quimiossistemático da Família Asteraceae. Dissertação apresentada ao Instituto de Química da Universidade de São Paulo para obtenção do Título de Mestre em Química (Química Orgânica) Orientador: Prof. Dr. Vicente de Paulo Emerenciano. São Paulo 2010 Mauro Vicentini Correia Redes Neurais e Algoritmos Genéticos no estudo Quimiossistemático da Família Asteraceae. Dissertação apresentada ao Instituto de Química da Universidade de São Paulo para obtenção do Título de Mestre em Química (Química Orgânica) Aprovado em: ____________ Banca Examinadora Prof. Dr. _______________________________________________________ Instituição: _______________________________________________________ Assinatura: _______________________________________________________ Prof. Dr. _______________________________________________________ Instituição: _______________________________________________________ Assinatura: _______________________________________________________ Prof. Dr. _______________________________________________________ Instituição: _______________________________________________________ Assinatura: _______________________________________________________ DEDICATÓRIA À minha mãe, Silmara Vicentini pelo suporte e apoio em todos os momentos da minha vida, sem os quais esse trabalho não seria possível. Ao Grande Amigo Braz Gerônimo de Queiroz (in memoriam) pelos preciosos conselhos na minha primeira juventude. AGRADECIMENTOS Ao Ciclo Pentano, como a muito prometido, pela amizade e por compartilhar comigo ainda nos tempos da graduação a idéia desse mestrado. Em especial aos amigos Mário Henrique Tomassi e Rafael Vianna Croffi. Ao Professor Dr. Vicente de Paulo Emerenciano, por me aceitar em seu grupo, pela orientação, principalmente pelas idéias que acrescentaram muito em qualidade ao trabalho, e pelo conhecimento compartilhado. Aos amigos Harold Hilarion Fokoue, Marcus Tullius Scotti, Alejandro Speck Planche, Sarah Ramalho Rodrigues e Michelle Rossini pelos bons momentos no laboratório e pela grande contribuição nesta dissertação. Aos professores da USP, principalmente aqueles com que tive contato na Faculdade de Ciências Farmacêuticas, Instituto de Química e Instituto de Ciências Biomédicas, por compartilhar comigo sua ciência. Aos alunos do curso de Farmácia e Bioquímica 2008 (noturno), com os quais apreendi a compartilhar o conhecimento. A CAPES e à FAPESP pelas bolsas de Mestrado Fornecidas. “Erros são, no final das contas, fundamentos da verdade. Se um homem não sabe o que uma coisa é, já é um avanço do conhecimento saber o que ela não é.” Carl Gustav Jung RESUMO Correia, M.V. Redes Neurais e Algoritmos Genéticos no estudo Quimiossistemático da Família Asteraceae. 2010. 189p. Dissertação (Mestrado) – Programa de Pós-Graduação em Química. Instituto de Química, Universidade de São Paulo, São Paulo. No presente trabalho duas metodologias da área de inteligência artificial (Redes Neurais e Algoritmos Genéticos) foram utilizadas para realizar um estudo Quimiossistemático da família Asteraceae. A família Asteraceae é uma das maiores famílias entre as Angiospermas, conta com aproximadamente 24.000 espécies. As espécies da família produzem grande diversidade de metabólitos secundários, entre os quais merecem destaque os terpenóides, poliacetilenos, flavonóides e cumarinas. Para um melhor entendimento da diversidade química da família construiu-se um Banco de Dados com as ocorrências de doze classes de metabólitos (monoterpenos, sesquiterpenos, sesquiterpenos lactonizados, diterpenos, triterpenos, cumarinas, flavonóides, poliacetilenos, benzofuranos, benzopiranos, acetofenonas e fenilpropanóides) produzidos pelas espécies da família. A partir desse banco três diferentes estudos foram realizados. No primeiro estudo, utilizando os mapas auto-organizáveis de Kohonen e o banco de dados químico classificado segundo duas das mais recentes filogenias da família foi possível realizar com sucesso separações de tribos e gêneros da família Asteraceae. Também foi possível indicar que a informação química concorda mais com a filogenia de Funk (Funk et al. 2009) do que com a filogenia de Bremer (Bremer 1994, 1996). No estudo seguinte, onde se objetivou a criação de modelos de previsão dos números de ocorrências das doze classes de metabólitos, utilizando o perceptron de múltiplas camadas com algoritmo de retropropagação de erro, o resultado foi insatisfatório. Apesar de em algumas classes de metabólitos a fase de treino da rede apresentar resultados satisfatórios, a fase de teste mostrou que os modelos criados não são capazes de realizar previsão para dados aos quais eles não foram submetidos na fase de treino, e portanto não são modelos adequados para realizar previsões. Finalmente, o terceiro estudo consistiu na criação de modelos de regressão linear utilizando como método de seleção de variáveis os algoritmos genéticos. Nesse estudo foi possível indicar que os monoterpenos e os sesquiterpenos são bastante relacionados biossinteticamente, também foi possível indicar que existem relações biossintéticas entre monoterpenos e diterpenos e entre sesquiterpenos e triterpenos. Palavras-chave: Asteraceae, Redes Neurais, Quimiossistemática, Mapas Auto- Organizáveis, Perceptron de Múltiplas Camadas, Algoritmos Genéticos. ABSTRACT Correia, M.V. Neural Network and Genetic Algorithms in the Chemosystematic study of Asteraceae Family. 2010. 189p. Masters Thesis - Graduate Program in Chemistry. Instituto de Química, Universidade de São Paulo, São Paulo. In this study two methods of artificial intelligence (neural network and genetic algorithms) were used to work out a Chemosystematic study of the Asteraceae family. The family Asteraceae is one of the largest families among the Angiosperms, having about 24,000 species. The species of the family produce a large diversity of secondary metabolites, and some worth mentioning are the terpenoids, polyacetylenes, flavonoids and coumarins. For a better understanding of the chemical diversity of the family a database was built up with the occurrences of twelve classes of metabolites (monoterpenes, sesquiterpenes, lactonizadossesquiterpenes, diterpenes, triterpenes, coumarins, flavonoids, polyacetylenes, Benzofurans, benzopyrans, acetophenones and phenylpropanoids) produced by species of the family. From this database three different studies were conducted. In the first study, using the Kohonen self-organized map and the chemical data classified according to two of the most recent phylogenies of the family, it was possible to successfully separatethe tribes and genera of the Asteraceae family. It was also possible to indicate that the chemical information agrees with the phylogeny of Funk (Funk et al. 2009) than with the phylogeny of Bremer (Bremer 1994, 1996). In the next study, which aims at creating models to predict the number of occurrences of the twelve classes of metabolites using multi-layer perceptron with backpropagation algorithm error, the result was found unsatisfactory. Although in some classes of metabolites the training phase of the network has satisfactory results, the test phase showed that the models created are not able to make prevision for data to which they were submitted in the training phase and thus are not suitable models for predictions. Finally, the third study was the creation of linear regression models using a genetic algorithm method of variable selection. This study could indicate that the monoterpenes and sesquiterpenes are closely related biosynthetically, and was also possible to indicate that there are biosynthetic relations between monoterpenes and diterpenes and between sesquiterpenes and triterpenes. Keywords: Asteraceae, Neural Network, Chemosystematic, Self-Organizing Maps, Multi-layer Perceptron, Genetic Algorithms. ÍNDICE DE FIGURAS 1. INTRODUÇÃO Figura 1.2.1. Caracteres da família Asteraceae. A) Capítulo, B) Anteras fundidas, C) Tipos de cipselas (funk et al. 2005)............................................................................26 Figura 1.3.1. Interelações de ordens e algumas famílias do clado das angiospermas (APG 2003).................................................................................................................27 Figura 1.3.2. Relações entre as famílias do clado euasteride II (campanulid). Destaque para a família Asteraceae no clado Asterales............................................28 Figura 1.3.3. Diagrama de inter-relações entre as 19 tribos de Asteraceae segundo Cassini 1816. Synanthérés = Asteraceae, Boopidées = Calyceraceae.....................30 Figura 1.3.4. Classificações da família Asteraceae de Bentham e Hoffmann. A tribo Cynaroideae/Cynareae atualmente é chamada de Cardueae e Cichoriaceae/Cichorieae é agora a tribo Lactuceae...................................................31 Figura 1.3.5. Diagrama de inter-relações filogenéticas das tribos da família Asteraceae, segundo Bremer [1]................................................................................35 Figura 1.3.6. Diagrama resumido da análise filogenética das tribos da família Asteraceae segundo Meta-tree (adaptado de Funk et al. 2009)................................36 Figura 1.4.1.1. Funções Booleanas de duas variáveis representadas no plano binário (Kovács 2002).................................................................................................40