Scene Understanding for Mobile Robots Exploiting Deep Learning Techniques
Total Page:16
File Type:pdf, Size:1020Kb
Scene Understanding for Mobile Robots exploiting Deep Learning Techniques José Carlos Rangel Ortiz Instituto Universitario de Investigación Informática Scene Understanding for Mobile Robots exploiting Deep Learning Techniques José Carlos Rangel Ortiz TESIS PRESENTADA PARA ASPIRAR AL GRADO DE DOCTOR POR LA UNIVERSIDAD DE ALICANTE MENCIÓN DE DOCTOR INTERNACIONAL PROGRAMA DE DOCTORADO EN INFORMÁTICA Dirigida por: Dr. Miguel Ángel Cazorla Quevedo Dr. Jesús Martínez Gómez 2017 The thesis presented in this document has been reviewed and approved for the INTERNATIONAL PhD HONOURABLE MENTION I would like to thank the advises and contributions for this thesis of the external reviewers: Professor Eduardo Mario Nebot (University of Sydney) Professor Cristian Iván Pinzón Trejos (Universidad Tecnológica de Panamá) This thesis is licensed under a CC BY-NC-SA International License (Cre- ative Commons AttributionNonCommercial-ShareAlike 4.0 International License). You are free to share — copy and redistribute the material in any medium or format Adapt — remix, transform, and build upon the ma- terial. The licensor cannot revoke these freedoms as long as you follow the license terms. Under the following terms: Attribution — You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use. NonCommercial — You may not use the material for commercial purposes. ShareAlike — If you remix, transform, or build upon the material, you must distribute your contributions under the same license as the original. Document by José Carlos Rangel Ortiz. A mis padres. A Tango, Tomás y Julia en su memoria. Revuelvo la mirada y a veces siento espanto cuando no veo el camino que a ti me ha de tornar... ¡Quizá nunca supiese que te quería tanto, si el Hado no dispone que atravesara el mar!... Patria (fragmento) Ricardo Miró Agradecimientos Al culminar esta tesis doctoral y mirar hace casi 4 años cuando inicié, me percato de lo mucho que ha ocurrido y agradezco profundamente la fortuna de encontrar personas maravillosas dispuestas a brindarme lo mejor de sí en pos de mi mejora como investigador y como persona, y con los cuales estaré eternamente agradecido. Dentro de estas personas debo agradecer a mis directores, Miguel y Jesús, por la paciencia, las charlas, por siempre tener un momento, por aclararme las cosas repetidamente cada vez que el código se iba por donde no debía y por compartir sus conocimientos y experiencias tanto de la vida como de la profesión. Muchas gracias a ambos por llevar este reto conmigo y por siempre tener ese palabra de aliento para seguir adelante. Al grupo de investigación RoVit y al Departamento de Ciencia de la Computación e Inteligencia Artificial. A los chicos del laboratorio Fran, Sergio, Félix, Ed, Vicente y Manolo por esas charlas sobre series y sus buenos consejos para avanzar. A las miembros del DTIC que siempre me vieron como uno más, por todas esas comidas y momentos que me han hecho olvidar la lejanía de mi patria. A Cristina e Ismael en la UCLM en Albacete por abrirme las puertas de su grupo y compartirme sus conocimientos. Al grupo de Data Intelli- gence de la Universidad Jean Monnet de Saint-Etienne en Francia, donde tuve la oportunidad de realizar mi estancia. A Marc y Elissa por su guía y consejos. A María, Leo y Dennis con quienes compartí tantos buenos momentos. Merci Beaocup!. De igual manera a la Escuela de Doctorado de la Universidad de Alicante la cual aportó los recursos para realizar esta estancia. No puedo expresar con palabras mi agradecimiento a mis compañe- ros de piso, Edgardo y Ed, mi familia adoptiva; quienes han tenido que aguantar a este saxofonista aficionado que los fines de semana inundaba el piso con sus a veces desafinadas notas, por esos cines, cenas y vacaciones y viajes. Muchas gracias por permitirme cambiar de tema y olvidar las frus- traciones de un paper. A mis amigos en Santiago para los cuales la lejanía nunca fue excusa para mantener el contacto. A tres personas quienes me vieron iniciar este camino, mas tuvieron la oportunidad de llegar al final junto a mí, mis abuelos Tango y Tomás, y mi Tía Julia. Gracias por sus charlas, por sus cuidos y por ese ejemplo de vida y de siempre seguir adelante. A mis familiares en Panamá por su apoyo incondicional y en especial a ti Quenda, que con tus actos me has enseñado a nunca perder la sonrisa y la esperanza de un mejor porvenir. A mis padres que siempre me han inculcado el avanzar y que desde mis más remotos recuerdos han apoyado mis decisiones sin importar sus dudas o lo raro que les parecieran. Sin ustedes cada letra de este documento no sería posible. A mi hermano y cuñada que a pesar de la distancia siempre estuvieron dispuestos a brindarme su ayuda ante cualquier cosa que nece- sitase. A esa pequeña persona que estuvo allí en cada vídeo llamada, José Andrés, gracias por hacerme reír y permitirme verte crecer. A los profesores de la Facultad de Ingeniería de Sistemas y Compu- tación de la Universidad Tecnológica de Panamá y en especial a los del Centro Regional de Veraguas donde estudié y quienes siempre me anima- ron a mejorar. Finalmente deseo agradecer a la Universidad Tecnológica de Panamá y el IFARHU, las instituciones que depositaron en mí su confianza para llevar a cabo estos estudios. Al servicio de traducción de la Universidad de Alicante quién ha revi- sado que las ideas expresadas en este documento cumplan las reglas que exige el idioma en el cual se redactan. Alicante, 8 de junio de 2017 José Carlos Rangel Ortiz Resumen Cada día los robots se están volviendo más comunes en la sociedad. En consecuencia, estos deben poseer ciertas habilidades básicas para interac- tuar con los seres humanos y el medio ambiente. Una de estas habilidades es la capacidad de entender los lugares por los cuales tiene la capacidad de movilizarse. La visión por computador es una de las técnicas comúnmente utilizadas para lograr este propósito. Las tecnologías actuales en este cam- po ofrecen soluciones sobresalientes aplicadas a datos que cada día tienen una mejor calidad permitiendo así producir resultados más precisos en el análisis de un entorno. Con esto en mente, el objetivo principal de esta investigación es desa- rrollar y validar un método eficiente de comprensión de escenas basado en la presencia de objetos. Este método será capaz de ayudar en la resolución de problemas relacionados con la identificación de escenas aplicada a la robótica móvil. Buscamos analizar los métodos más avanzados del estado-del-arte con el fin de encontrar el más adecuado según nuestros objetivos, así como también seleccionar el tipo de datos más conveniente para tratar este pro- blema. Otro objetivo de la investigación es determinar el tipo de datos más adecuado como fuente de información para analizar la escenas, con el fin de encontrar una representación precisa de estas mediante el uso de etiquetas semánticas o descriptores de características para nubes de puntos. Como objetivo secundario mostraremos la bondad de la utilización de descriptores semánticos generados con modelos pre-entrenados en procesos de mapeado y clasificación de escenas, así como también el uso de modelos de deep learning junto con procedimientos de descripción de característi- cas 3D para construir un modelo de clasificación de objetos 3D, lo cual está directamente relacionado con el objetivo de representación de esta investigación. La investigación descrita en esta tesis fue motivada por la necesidad de un sistema robusto capaz de comprender las ubicaciones en las cuales un robot interactúa normalmente. De la misma manera, el advenimiento de mejores recursos computacionales ha permitido implementar algunas técnicas que fueron definidas en el pasado, las cuales demandan una alta capacidad computacional y que ofrecen una posible solución para abordar los problemas de comprensión de la escenas. Una de estas técnicas son las Redes Neuronales Convolucionales (CNN, por sus siglas en inglés). Estas redes poseen la capacidad de clasificar una imagen basada en su apariencia visual. A continuación, generan una lista de etiquetas léxicas y la probabilidad para cada una de estas etiqueta, la cual representa cómo de probable es la presencia de un objeto en la escena. Estas etiquetas se derivan de los conjuntos de entrenamiento en los cuales las redes neuronales fueron entrenadas para reconocer. Por lo tanto, esta lista de etiquetas y probabilidades podría ser utilizada como una representación eficiente del entorno y a partir de estas asignar una categoría semántica a las locaciones donde un robot móvil es capaz de navegar, permitiendo al mismo tiempo construir un mapa semántico o topológico basado en esta representación semántica del lugar. Después de analizar el estado-del-arte en la comprensión de escenas, hemos identificado un conjunto de enfoques con el fin de desarrollar un pro- cedimiento robusto de comprensión de escenas. Entre estos enfoques existe una brecha casi inexplorada en lo relativo a la comprensión de escenas ba- sadas en la presencia de objetos en estas. Consecuentemente, proponemos llevar a cabo un estudio experimental basados en este enfoque, destinado a encontrar una forma de describir plenamente una escena teniendo en cuenta los objetos que se encuentran en el lugar. Dado que la tarea de comprensión de escenas implica la detección y anotación de objetos, uno de los primeros pasos será determinar el tipo de datos que se emplearán como datos de entrada para nuestra propuesta. Con esto en mente, nuestra propuesta considera la evaluación del uso de datos 3D. Este tipo de datos cuenta con el inconveniente de la presencia de ruido en sus representaciones, por lo tanto, proponemos utilizar el algo- ritmo Growing Neural Gas (GNG, por sus siglas en inglés) para reducir el efecto de ruido en procedimientos de reconocimiento de objetos utilizando datos 3D.