Mineração De Dados Para Classificação E Caracterização De Alguns Vinhos Vitis Vinífera Da América Do Sul [Manuscrito] / Nattane Luíza Costa
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDADE FEDERAL DE GOIÁS INSTITUTO DE INFORMÁTICA NATTANE LUÍZA DA COSTA Mineração de dados para classificação e caracterização de alguns vinhos Vitis Vinífera da América do Sul Goiânia 2016 NATTANE LUÍZA DA COSTA Mineração de dados para classificação e caracterização de alguns vinhos Vitis Vinífera da América do Sul Dissertação apresentada ao Programa de Pós–Graduação do Instituto de Informática da Universidade Federal de Goiás, como requisito parcial para obtenção do título de Mestre em Ciência da Computação. Área de concentração: Ciência da Computação. Orientador: Prof. Dr. Rommel Melgaço Barbosa Goiânia 2016 Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração Automática do Sistema de Bibliotecas da UFG. Costa, Nattane Luíza Mineração de dados para classificação e caracterização de alguns vinhos Vitis Vinífera da América do Sul [manuscrito] / Nattane Luíza Costa. - 2016. XCVIII, 98 f.: il. Orientador: Prof. Dr. Rommel Melgaço Barbosa. Dissertação (Mestrado) - Universidade Federal de Goiás, Instituto de Informática (INF), Programa de Pós-Graduação em Ciência da Computação, Goiânia, 2016. Bibliografia. Inclui siglas, símbolos, lista de figuras, lista de tabelas. 1. mineração de dados. 2. classificação de vinhos. 3. seleção de variáveis. 4. aprendizagem de máquina. I. Melgaço Barbosa, Rommel, orient. II. Título. CDU 004 Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador(a). Nattane Luíza da Costa Graduou-se em Tecnologia em Redes de Computadores pela Universidade Estadual de Goiás, Unidade Universitária de Pires do Rio. Durante sua gra- duação foi monitora da disciplina de Lógica e Algoritmos. Atuou como do- cente do Instituto Federal Goiano Câmpus Urutaí ministrando disciplinas de Informática Básica, Lógica de Programação, e Linguagens e Técnicas de Pro- gramação para o Curso Técnico em Informática integrado ao Ensino Médio em 2015. Duranto o Mestrado, aprofundou seus estudos em mineração de da- dos para problemas de classificação, com aplicação para o reconhecimento geográfico e de variedades de vinhos Vitis Vinífera da América do Sul. Foi bolsista da CAPES durante este período. À minha família. Agradecimentos À Deus, inteligência suprema causa primária de todas as coisas pela dádiva da vida e por ter me concedido a oportunidade de caminhar ao lado de pessoas amadas. Aos meus familiares por possibilitar o conforto emocional e físico em toda a minha vida. Por me lembrarem com suas presenças, sorrisos e afetos o quanto é importante amar, ser amado e fazer o bem ao próximo. Por tornarem minha vida repleta de alegrias. Aos meus pais Barsanulfo e Adriana pelo imensurável apoio e dedicação, pela minha formação como pessoa e apoio incondicional aos meus estudos. Ao meu irmão Maxwell pelo apoio, sugestões, auxílio e amizade. À minha cunhada Hélen e meu sobrinho Matheus por estarem sempre presentes, propiciando-me momentos felizes e animadores. Ao meu orientador Prof. Dr. Rommel Melgaço Barbosa por me receber sob sua orientação, pela presença e por ter me conduzido sabiamente para a conclusão deste trabalho. Pelas conversas agradáveis, por acreditar em minha capacidade e pela acessibilidade. Às minhas amigas Andrezza, Gabriela, Kelly, Lorena, e minhas primas Caroline, Joceline, Jacquelyne e Enila, pelos momentos de descontração e incentivos. Aos meus padrinhos Maria Edilma e José Chaves pelo suporte na cidade de Goiânia no período do mestrado. Aos amigos e colegas de pesquisa que tenho a felicidade de ter conhecido durante este período, por me proporcionarem trocas de experiências, conhecimentos, pelos encorajamentos, incentivos, e sobretudo, pela amizade: Márcio Lima, Renato, Ernesto, Áurea, Alexandre, Paulo e Camila. Aos funcionários do Instituto de Informática, por me proporcionarem um ambi- ente agradável e de amizade. A Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) pelo auxílio financeiro. Aos membros do Laboratório de Alimentos Funcionais, Departamento de Ali- mentos e Experimentos Nutricionais, Faculdade de Ciências Farmacêuticas, Universidade de São Paulo, Inar Alves Castro e Laura Andrea García Llobodanin pelos conjuntos de dados fornecidos e pela participação nas pesquisas. Mergulha a mente, quanto possível, no estudo. O estudo liberta da igno- rância e favorece a criatura com o discernimento. O estudo e o trabalho são as asas que facilitam a evolução do ser. O conhecimento é mensagem de vida. Não apenas nos educandários podes estudar. A própria vida é um livro aberto, que ensina a quem deseja aprender. Joanna de Ângelis, Psicografia de Divaldo Franco. Livro: Vida Feliz. Resumo da Costa, Nattane Luíza. Mineração de dados para classificação e caracteri- zação de alguns vinhos Vitis Vinífera da América do Sul. Goiânia, 2016. 98p. Dissertação de Mestrado. Instituto de Informática , Universidade Federal de Goiás. Uma preocupação à respeito da produção e comercialização de vinhos é assegurar que este produto não seja adulterado em relação à origem e ao tipo de uva utilizado em sua produção. Isto ocorre devido aos altos custos envolvendo a produção e devido ao interesse dos consumidores em obter produtos legítimos. Neste contexto, as técnicas de mineração de dados permitem verificar as relações existentes entre as propriedades químicas dos vinhos e seu rótulo: origem ou tipo de uva. Este trabalho apresenta um método para classificação e caracterização de vinhos a partir da aplicação de mineração de dados às propriedades químicas que descrevem a funcionalidade dos vinhos. Cinco aplicações foram realizadas envolvendo as variedades Cabernet Sauvignon, Carménère, Syrah, Tannat e Merlot, produzidos na Argentina, Brasil, Chile e Uruguai, definidas por: classificação de vinhos Cabernet Sauvignon de acordo com a região geográfica de produção, Brasil e Chile; classificação de vinhos Tannat das regiões sul do Uruguai e sul do Brasil, regiões próximas e importantes na produção de vinhos Tannat; classificação de vinhos Syrah das regiões da Argentina e Chile, regiões próximas e que possuem uma produção significativa nos países abordados; classificação de vinhos Merlot associado aos quatro países para traçar um perfil das variáveis relevantes para a classificação dos vinhos a cada dois países; e a classificação de vinhos das variedades Chilenas Carménère e Merlot. Os resultados obtidos em todas as aplicações propostas neste trabalho demonstram-se promissores, com uma capacidade de classificação acima de 88%. A combinação de seletores de variáveis associados aos classificadores Máquinas de Vetores de Suporte e Redes Neurais Artificiais possibilitou modelos de classificação capazes de predizer novas amostras além de identificar grupos de variáveis responsáveis pelas classificações. Palavras–chave mineração de dados, classificação de vinhos, seleção de variáveis, aprendizagem de máquina. Abstract da Costa, Nattane Luíza. Data mining for classification and characterization of some Vitis Vinífera wines from South America. Goiânia, 2016. 98p. MSc. Dissertation. Instituto de Informática , Universidade Federal de Goiás. One concern regarding the production and marketing of wines is to ensure that the product is not adulterated in relation to the origin and type of grape used in its production. This is due to the high cost involved in production and due to interest of consumers in obtaining legitimate products. In this context, the techniques of data mining allow us to verify the relationship between the chemical properties of wines and their label regarding origin or type of grape. This study presents a method for classification and characterization of wines with the application of data mining to the chemical properties that describe the functionality of wines. Five applications were carried out involving Cabernet Sauvignon, Carménère, Syrah, Tannat and Merlot varieties produced in Argentina, Brazil, Chile and Uruguay: the classification of Cabernet Sauvignon according to geographic region of production, Brazil and Chile; the classification of Tannat wines from the southern regions of Uruguay and southern Brazil, regions in close proximity and relevant to the production of Tannat wines; the classification of Syrah wines from Argentina and Chile, which are close regions and have a significant production in the countries covered; the classification of Merlot wines associated with the four countries to draw a profile of the relevant variables for the classification of wines for each set of two countries; and the classification of wines of the Chilean Carménère and Merlot varieties, which aim to investigate a profile of discrimination between varieties. The results obtained in all applications are promising, with a high predictive performance of 88%. The combination of variable selection associated with the classifiers Support Vector Machines and Artificial Neural Networks made it possible to define classification models capable of predicting new samples in addition to identifying groups of variables responsible for the classification. Keywords Data mining, wine classification, feature selection, machine learning. Sumário Lista de Figuras 14 Lista de Tabelas 15 Lista de Siglas 16 Lista de Símbolos 18 Apresentação 19 1 Conceitos preliminares 23 1.1 Banco de dados 23 1.2 Notações matemáticas 23 Hiperplano 24 1.3 Mineração de dados e o processo de descoberta de conhecimento em bancos de dados 24 1.4 Aprendizado de máquina 26 1.5 Tarefas de classificação 27 2 Algoritmos de classificação 29 2.1 Máquinas de Vetores de Suporte 29 2.1.1 Caso linearmente