Thesis (4.765Mb)
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDADE FEDERAL DE SAO˜ CARLOS CENTRO DE CIENCIASˆ EXATAS E DE TECNOLOGIA PROGRAMA DE POS-GRADUAC¸´ AO˜ EM CIENCIAˆ DA COMPUTAC¸ AO˜ ON THE ADVANCES IN PATTERN RECOGNITION USING OPTIMUM-PATH FOREST LUIS CLAUDIO SUGI AFONSO ORIENTADOR:PROF.DR.JOAO˜ PAULO PAPA Sao˜ Carlos – SP Setembro/2020 UNIVERSIDADE FEDERAL DE SAO˜ CARLOS CENTRO DE CIENCIASˆ EXATAS E DE TECNOLOGIA PROGRAMA DE POS-GRADUAC¸´ AO˜ EM CIENCIAˆ DA COMPUTAC¸ AO˜ ON THE ADVANCES IN PATTERN RECOGNITION USING OPTIMUM-PATH FOREST LUIS CLAUDIO SUGI AFONSO Tese apresentada ao Programa de Pos-Graduac¸´ ao˜ em Cienciaˆ da Computac¸ao˜ da Universidade Fed- eral de Sao˜ Carlos, como parte dos requisitos para a obtenc¸ao˜ do t´ıtulo de Doutor em Cienciaˆ da Computac¸ao,˜ area´ de concentrac¸ao:˜ Processamento de Imagens e Sinais Orientador: Prof. Dr. Joao˜ Paulo Papa Sao˜ Carlos – SP Setembro/2020 UNIVERSIDADE FEDERAL DE SÃO CARLOS Centro de Ciências Exatas e de Tecnologia Programa de Pós-Graduação em Ciência da Computação Folha de Aprovação Defesa de Tese de Doutorado do candidato Luis Claudio Sugi Afonso, realizada em 24/09/2020. Comissão Julgadora: Prof. Dr. João Paulo Papa (UFSCar) Prof. Dr. Alexandre Luis Magalhães Levada (UFSCar) Prof. Dr. Aparecido Nilceu Marana (UNESP) Prof. Dr. Moacir Antonelli Ponti (ICMC/USP) Prof. Dr. Anderson de Rezende Rocha (UNICAMP) O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001. O Relatório de Defesa assinado pelos membros da Comissão Julgadora encontra-se arquivado junto ao Programa de Pós-Graduação em Ciência da Computação. Aos meus pais. AGRADECIMENTOS Gostaria de agradecer aos meus pais por todo o apoio durante toda a caminhada nao˜ apenas nesta etapa, mas em toda a vida. Gostaria de agradecer ao meu orientador, Prof. Joao˜ Paulo Papa, pelas oportunidades, confianc¸a e orientac¸ao˜ desde o mestrado. Gostaria de agradecer ao Prof. Nilceu pelas oportunidades, confianc¸a e orientac¸ao˜ desde a graduac¸ao.˜ Ao Prof. Ivan Guilherme da UNESP/Rio Claro pelas oportunidades e confianc¸a e aos membros do grupo do projeto Radiar, Prof. Daniel Pedronette, Prof. Alexandro Baldassin, Gustavo Sousa, Pedro Ivo e Rafael Murari. Gsotaria de agradecer aos Professores Marcos Cavenaghi e Roberta Spolon do Departa- mento de Computac¸ao˜ da UNESP/Bauru pela oportunidade que me foi dada ainda na graduac¸ao.˜ Ali foi o in´ıcio do trajeto ate´ este momento. Gostaria de agradecer aos membros do Recogna pela amizade e companheirismo em mais esta etapa. Obrigado, Clayton, Leandro (Lelis), Douglas, Luiz Felix, Rafael Pires, e todos os demais membros. Gostaria de agradecer ao Prof. Alexandre Vidal (IG-Unicamp) por ter me aceitado como membro de seu grupo nas primeiras etapas do doutorado, e tambem´ por todo o conhecimento e apoio durante o per´ıodo. Tambem´ gostaria de agradecer a Michelle Kuroda, Bruno Honorio,´ Ulisses, Leandro, Gui, Mateus e Aline pela amizade, companheirismo e tudo que me ensinaram. Gostaria de agradecer a Giedry Fernanda Trindade por todos os momentos que me propor- cionou, o amor, o carinho, as alegrias, as lic¸oes˜ que, mesmo que indiretamente, fizeram toda a diferenc¸a durante mais esta etapa. Tambem´ gostaria de agradecer ao Luis Martins, Alan Peixinho, Azael, Otavio,´ Samuel, Fabi, e Helena pela amizade no per´ıodo em que estive em Campinas. Por ultimo,´ mas nao˜ menos importante, agradec¸o a UNESP e UFSCar. Be the change you want see in the world. Mahatma Gandhi RESUMO Tecnicas´ de reconhecimento de padroes˜ (RP) temˆ sido de grande importanciaˆ para a soluc¸ao˜ de muitos problemas de diversos n´ıveis de complexidade e areas´ de estudo. A ideia por tras´ das tecnicas´ de RP esta´ em criar modelos capazes de classificar elementos nunca vistos. Basicamente, os problemas de reconhecimento de padroes˜ podem ser divididos em duas categorias: problemas de aprendizado (i) supervisionado e (ii) nao-supervisionado.˜ Essas categorias estao˜ relacionadas com a existenciaˆ ou nao˜ de elementos rotulados para auxil- iar no “aprendizado” dos algoritmos de RP. Um conjunto de elementos de treinamento e´ fundamental para que as tecnicas´ de RP sejam capazes de identificar padroes˜ existentes, e a presenc¸a de dados rotulados pode auxiliar na criac¸ao˜ de modelos mais robutos. Muitas tecnicas´ foram desenvolvidas para lidar com tais problemas e estao˜ bem-estabelecidas na literatura. Uma tecnica´ desenvolvida recentemente diz respeito ao classificador baseado em grafos denominado Floresta de Caminhos Otimos´ (OPF - Optimum-Path Forest), o qual pos- sui as versoes˜ de aprendizado supervisionado, semi-supervisionado e nao-supervisionado.˜ OPF modela as amostras de um conjunto de dados como sendo os nos´ de um grafo e as conexoes˜ (arestas) sao˜ definidas a partir de uma relac¸ao˜ de adjacenciaˆ pre-definida.´ Apesar de ser uma abordagem recente, OPF ja´ foi empregado em inumeras´ aplicac¸oes˜ distintas e tem apresentado resultados promissores e superando ate´ mesmo tecnicas´ bem estabelecidas na literatura. Contudo, ainda ha´ muito a ser estudado, avaliado e proposto com relac¸ao˜ ao uso e desempenho do classificador em questao.˜ Este trabalho de qualificac¸ao˜ investiga e propoe˜ variac¸oes˜ e alterac¸oes˜ no algoritmo tradicional do OPF das versoes˜ de aprendizado supervisionado e nao-supervisionado˜ com os objetivos de avaliar seu desempenho em pon- tos ainda nao˜ explorados e superar algumas de suas deficiencias.ˆ Palavras-chave: Floresta de Caminhos Otimos,´ Reconhecimento de padroes,˜ Aprendizado de maquina´ ABSTRACT Pattern recognition (PR) techniques have been paramount to solve different and complex problems in many fields of study. The basic idea behind PR techniques is to compute a model capable of classifying unknown samples. Pattern recognition can be categorized as problems of (i) supervised, and (ii) unsupervised learning. This categorization is related to the existence or absence of labeled data to support the learning process. The learning process is mandatory for PR techniques to learn the data distribution, and the existence of labeled data is an additional information that helps to build more robust models. Many techniques were proposed and are well-established in the literature. The Optimum-Path Forest (OPF) is a graph-based classifier proposed recently, which comprises the models for supervised, semi-supervised and unsupervised learning. The OPF models dataset samples as nodes of a graph and their connections (edges) are defined by some pre-defined adja- cency relation. Although very recent, OPF has already been employed in numerous appli- cations and showed promising results, and even outperformed other well-known classifiers. Nonetheless, there is still a lot to be investigated, evaluated and proposed concerning the use and performance of the OPF classifier. This dissertation investigates e proposes variations and modifications to the traditional OPF algorithms concerning supervised and unsuper- vised learning aiming the assessment of its performance in not yet explored scenarios and to overcome its drawbacks. Keywords: Optimum-Path Forest, Pattern Recognition, Machine Learning LIST OF FIGURES 1.1 Chapter organization. 21 2.1 The dashed lines represent four possible paths to node s: p1 = fa;b;c;sg, p2 = fb;c;sg, p3 = fe;sg, and p4 = fd;e;sg...................... 26 2.2 Overview of the OPF working mechanism: (a) initial dataset, (b) derived graph G according to A , (c) computing the optimum-path trees, and (d) the resulting optimum-path forest with the prototypes highlighted (dashed circles). 27 2.3 General working mechanism of OPF from: (a) initialization, (b)-(k) bidding process to (l) optimum-path forest. 28 2.4 OPFcg: training and classification phases. 32 2.5 OPF k-nn: (a) optimum-path forest after training, (b) sample to be classified, and (c) sample after classification . 36 3.1 Workflow of the proposed approach for automatic event classification in drilling reports. 42 3.2 Computational load concerning the training step. 45 3.3 Computational load concerning the classification time. 45 3.4 Computational load concerning the training step. 48 3.5 Computational load concerning the testing step. 49 5.1 Average accuracy rates for Brodatz dataset and CG-OPF concerning the config- urations 25%/75%, 50%/50%, and 75%/25%. 67 5.2 Average accuracy rates for Corel 5k dataset and CG-OPF concerning the con- figurations 25%/75%, 50%/50%, and 75%/25%. 68 5.3 Average accuracy rates for MPEG7 dataset and CG-OPF concerning the con- figurations 25%/75%, 50%/50%, and 75%/25%. 68 5.4 Average accuracy rates for Brodatz dataset and kNN-OPF concerning the con- figurations 25%/75%, 50%/50%, and %75/25%. 69 5.5 Average accuracy rates for Corel 5k dataset and kNN-OPF in the configurations 25%/75%, 50%/50%, and 75%/25%. 69 5.6 Average accuracy rates for MPEG7 dataset and kNN-OPF concerning the con- figurations 25%/75%, 50%/50%, and 75%/25%. 70 6.1 Modeling prototype selection as an optimization task. 73 6.2 Prototype selection dynamics over the iterations. 74 6.3 Distribution of the training samples in the feature space concerning the Abalone, Fourclass, Ionosphere, and Seeds datasets. The first column stands for the train- ing set previous to any training. The second and third columns represent the training set labeled after the training procedure by OPF and OPFmh, respec- tively. The prototypes are represented by the red dots. 77 6.4 Relation between the accuracy over the testing set and the percentage of training samples selected as prototypes. 79 7.1 Complete graph where each node encodes a bag of instances. 85 7.2 Minimum Spanning Tree and the prototypes indicated by the gray arrows. 85 7.3 Complete graph with costs in blue assigned to all bags. 86 7.4 Optimum-path forest generated during the training phase. 86 8.1 Computational load concerning the clustering step. 101 8.2 Convergence plot concerning the Levy´ function for a set of 1;000 ideas.