Biologically Motivated Keypoint Detection for RGB-D Data

UNIVERSIDADE DA BEIRA INTERIOR Engineering Biologically Motivated Keypoint Detection for RGB-D Data Sílvio Brás Filipe Thesis for obtaining the degree of Doctor of Philosophy in Computer Science and Engineering (3rd Cycle Studies) Covilhã, November 2016 Biologically Motivated Keypoint Detection for RGB-D Data ii Thesis prepared at IT - Instituto de Telecomunicações, within Pattern and Image Analysis - Covilhã, and submitted to University of Beira Interior for defense in a public examination session. Work is supported by `FCT - Fundação para a Ciência e Tecnologia' (Portugal) through the research grant `SFRH/BD/72575/2010', and the funding from `FEDER - QREN - Type 4.1 - Formação Avançada', co-founded by the European Social Fund and by national funds through Portuguese `MEC - Ministério da Educação e Ciência'. It is also supported by the IT - Instituto de Telecomunicações through `PEst-OE/EEI/LA0008/2013'. iii Biologically Motivated Keypoint Detection for RGB-D Data iv Dedicatory Dedicated to the persons who love me. v Biologically Motivated Keypoint Detection for RGB-D Data vi Acknowledgments This is an important part of this work, since I have the opportunity to thank the people who in one way or another were essential for its development. It would not have been possible to make this thesis without the help and support of many people. First and foremost, I would like to express my gratitude to the University of Beira Interior, specially to Dr. Luís A. Alexandre and Dr. Hugo Proença by the knowledge, support, advice, motivation, guidance, knowledge, and encouragement they gave me during the eight years that I worked with them. They have surely made my research a fulfilling and rewarding experience. I also appreciate the support, motivation and friendship given by Dr. Manuela Pereira, Dr. Simão de Sousa and Dr. Paulo Fiadeiro. I am equally grateful to Dr. Laurent Itti, professor of computer science, psychology and neuroscience at University of Southern California (Los Angeles, USA) for providing a stimulating environment and knowledge during my short visit as a PhD student. I am grateful to the `FCT - Fundação para a Ciência e Tecnologia' through `SFRH/BD/72575 /2010', Instituto de Telecomunicações (PEst-OE/EEI/LA0008/2013) and `FEDER - QREN - Type 4.1 - Formação Avançada', co-founded by the European Social Fund and by the Portuguese `MEC - Ministério da Educação e Ciência', for their financial support, without which it would not have been possible to complete the present document. I am also grateful to the anonymous reviewers who have read my work with professional care and attention and have offered valuable comments and suggestions. I would also like to thank my colleagues at the Soft Computing and Image Analysis Lab (SOCIA-LAB), with whom I shared the good and bad times of doing research. Finally, I would like to express my gratitude to my family, girlfriend and friends for their unconditional support and encouragement. Especially my parents support and help me through- out the stages of my life. Many thanks to all! vii Biologically Motivated Keypoint Detection for RGB-D Data viii "There is a real danger that computers will develop intelligence and take over. We urgently need to develop direct connections to the brain so that computers can add to human intelligence rather than be in opposition." Stephen Hawking ix Biologically Motivated Keypoint Detection for RGB-D Data x List of Publications Journal Papers 1. BIK-BUS: Biologically Motivated 3D Keypoint based on Bottom-Up Saliency Filipe, S., Itti, L., Alexandre, L.A., IEEE Transactions on Image Processing, vol. 24, pp. 163-175, January 2015. International Conference Papers 1. PFBIK-Tracking: Particle Filter with Bio-Inspired Keypoints Tracking Filipe, S., Alexandre, L.A., in IEEE Symposium on Computational Intelligence for Multime- dia, Signal and Vision Processing, 2014, December 9-12, Orlando, Florida, USA. 2. A Biological Motivated Multi-Scale Keypoint Detector for local 3D Descriptors Filipe, S., Alexandre, L.A., in 10th International Symposium on Visual Computing, 2014, pp. 218-227, December 8-10, Las Vegas, Nevada, USA. 3. A Comparative Evaluation of 3D Keypoint Detectors in a RGB-D Object Dataset Filipe, S., Alexandre, L.A., in 9th International Conference on Computer Vision Theory and Applications, 2014, pp. 476-483, January 5-8, Lisbon, Portugal. Portuguese Conference Papers 1. A 3D Keypoint Detector based on Biologically Motivated Bottom-Up Saliency Map Filipe, S., Alexandre, L.A., in 20th edition of the Portuguese Conference on Pattern Recog- nition, 2014, October 31, Covilhã, Portugal, 2014. 2. A Comparative Evaluation of 3D Keypoint Detectors Filipe, S., Alexandre, L.A., in 9th Conference on Telecommunications, 2013, pp. 145-148, May 8-10, Castelo Branco, Portugal, 2013. xi Biologically Motivated Keypoint Detection for RGB-D Data xii Resumo Com o interesse emergente na visão ativa, os investigadores de visão computacional têm estado cada vez mais preocupados com os mecanismos de atenção. Por isso, uma série de modelos computacionais de atenção visual, inspirado no sistema visual humano, têm sido de- senvolvidos. Esses modelos têm como objetivo detetar regiões de interesse nas imagens. Esta tese está focada na atenção visual seletiva, que fornece um mecanismo para que o cérebro concentre os recursos computacionais num objeto de cada vez, guiado pelas pro- priedades de baixo nível da imagem (atenção Bottom-Up). A tarefa de reconhecimento de objetos em diferentes locais é conseguida através da concentração em diferentes locais, um de cada vez. Dados os requisitos computacionais dos modelos propostos, a investigação nesta área tem sido principalmente de interesse teórico. Mais recentemente, psicólogos, neurobiólo- gos e engenheiros desenvolveram cooperações e isso resultou em benefícios consideráveis. No início deste trabalho, o objetivo é reunir os conceitos e ideias a partir dessas diferentes áreas de investigação. Desta forma, é fornecido o estudo sobre a investigação da biologia do sistema visual humano e uma discussão sobre o conhecimento interdisciplinar da matéria, bem como um estado de arte dos modelos computacionais de atenção visual (bottom-up). Normalmente, a atenção visual é denominada pelos engenheiros como saliência, se as pessoas fixam o olhar numa determinada região da imagem é porque esta região é saliente. Neste trabalho de inves- tigação, os métodos saliência são apresentados em função da sua classificação (biologicamente plausível, computacional ou híbrido) e numa ordem cronológica. Algumas estruturas salientes podem ser usadas, em vez do objeto todo, em aplicações tais como registo de objetos, recuperação ou simplificação de dados. É possível considerar estas poucas estruturas salientes como pontos-chave, com o objetivo de executar o reconhecimento de objetos. De um modo geral, os algoritmos de reconhecimento de objetos utilizam um grande número de descritores extraídos num denso conjunto de pontos. Com isso, estes têm um custo computacional muito elevado, impedindo que o processamento seja realizado em tempo real. A fim de evitar o problema da complexidade computacional requerido, as características devem ser extraídas a partir de um pequeno conjunto de pontos, geralmente chamados pontos- chave. O uso de detetores de pontos-chave permite a redução do tempo de processamento e a quantidade de redundância dos dados. Os descritores locais extraídos a partir das imagens têm sido amplamente reportados na literatura de visão por computador. Uma vez que existe um grande conjunto de detetores de pontos-chave, sugere a necessidade de uma avaliação comparativa entre eles. Desta forma, propomos a fazer uma descrição dos detetores de pontos-chave 2D e 3D, dos descritores 3D e uma avaliação dos detetores de pontos-chave 3D existentes numa biblioteca de pública disponível e com objetos 3D reais. A invariância dos detetores de pontos- chave 3D foi avaliada de acordo com variações nas rotações, mudanças de escala e translações. Essa avaliação retrata a robustez de um determinado detetor no que diz respeito às mudanças de ponto-de-vista e os critérios utilizados são as taxas de repetibilidade absoluta e relativa. Nas experiências realizadas, o método que apresentou melhor taxa de repetibilidade foi o método ISS3D. Com a análise do sistema visual humano e dos detetores de mapas de saliência com in- spiração biológica, surgiu a ideia de se fazer uma extensão para um detetor de ponto-chave com base na informação de cor na retina. A proposta produziu um detetor de ponto-chave 2D inspirado pelo comportamento do sistema visual. O nosso método é uma extensão com base xiii Biologically Motivated Keypoint Detection for RGB-D Data na cor do detetor de ponto-chave BIMP, onde se incluem os canais de cor e de intensidade de uma imagem. A informação de cor é incluída de forma biológica plausível e as característi- cas multi-escala da imagem são combinadas num único mapas de pontos-chave. Este detetor é comparado com os detetores de estado-da-arte e é particularmente adequado para tarefas como o reconhecimento de categorias e de objetos. O processo de reconhecimento é realizado comparando os descritores 3D extraídos nos locais indicados pelos pontos-chave. Para isso, as localizações do pontos-chave 2D têm de ser convertido para o espaço 3D. Isto foi possível porque o conjunto de dados usado contém a localização de cada ponto de no espaço 2D e 3D. A avaliação permitiu-nos obter o melhor par detetor de ponto-chave/descritor num RGB-D object dataset. Usando o nosso detetor de ponto-chave e o descritor SHOTCOLOR, obtemos uma noa taxa de reconhecimento de categorias e para o reconhecimento de objetos é com o descritor PFHRGB que obtemos os melhores resultados. Um sistema de reconhecimento 3D envolve a escolha de detetor de ponto-chave e descritor, por isso é apresentado um novo método para a deteção de pontos-chave em nuvens de pontos 3D e uma análise comparativa é realizada entre cada par de detetor de ponto-chave 3D e descritor 3D para avaliar o desempenho no reconhecimento de categorias e de objetos.

Biologically Motivated Keypoint Detection for RGB-D Data

The Photographerls Guide to The

Neural Encoding with Visual Attention

Feature-Based Attention Is Independent of Object Appearance

The Seabee II: a Beosub Class

Laboratory Notes

Collection Neuroscience 1995 - 2009

Mining Videos for Features That Drive Attention

NSF Workshop on Hybrid Neuro- Computer Vision Systems

Visual Attention and Target Detection in Cluttered Natural Scenes

Computational Models: Bottom-Up and Top-Down Aspects

Data Sharing for Computational Neuroscience

Biologically-Inspired Robotics Vision Monte-Carlo Localization in the Outdoor Environment