Creation of hybrid hierarchical models by using omnidirectional vision and machine learning techniques

  1. Cebollada López, Sergio
Supervised by:
  1. Óscar Reinoso García Director
  2. Luis Payá Castelló Co-director

Defence university: Universidad Miguel Hernández de Elche

Fecha de defensa: 01 February 2021

Committee:
  1. Fernando Torres Medina Chair
  2. Luis Miguel Jiménez García Secretary
  3. Miguel Aranda Calleja Committee member

Type: Thesis

Abstract

Durante los últimos años, la presencia de robots móviles ha crecido sustancialmente y hoy en día se utilizan para un amplio espectro de aplicaciones. Dichos robots se pueden encontrar en diversos entornos como industriales, familiares, de ámbito educativo y de salud. En cuanto a los robots móviles autónomos, éstos requieren un alto grado de autonomía para poder desarrollar la tarea para la cual han sido desarrollados. Esto significa que deben ser capaces de localizarse y de navegar por un escenario que a priori es desconocido. Por lo tanto, el robot tendrá que llevar a cabo la tarea de mapeo, que consiste en obtener información del entorno y crear un modelo del mismo. Una vez se ha realizado dicha tarea, el robot será capaz de localizarse, esto es, estimar su posición dentro del entorno con respecto a un sistema de referencia. Esta tesis presenta el análisis y diseño de métodos de mapeo y localización en entornos de interior. Por un lado, la tesis presenta un trabajo que se centra en resolver dichas tareas en subsuelos de edificios con el objetivo de llevar a cabo la tarea de rociado de aislante térmico. Por otro lado, se propone un desarrollo de localización jerárquica y se evalúan varios efectos visuales que pueden repercutir en la precisión de dicho método. En cuanto al trabajo que se centra en resolver el mapeo y la localización en huecos entre el suelo y los cimientos de edificios, la presente tesis parte de la consideración de que resolver estas tareas en los entornos propuestos presenta una dificultad añadidita desde el punto de vista visual. Eso es debido a que estos entornos suelen ser oscuros y el terreno suele presentar superficies desniveladas con presencia de piedras, trozos de ladrillos y/o arena. Dentro de estos entornos, se propone que un robot, de manera autónoma, se localice y posteriormente aplique aislante térmico sobre la parte inferior del suelo del edificio. Por tanto, se propone que el proceso de localización se resuelva estimando la posición del robot con respecto a posiciones anteriores conocidas. Esto se realiza utilizando algoritmos de alineación entre nubes de puntos (información de profundidad). Para esto, el robot está equipado con un sensor laser 2D, el cual permite construir nubes de puntos desde diferentes posiciones del entorno. Esta tesis propone distintos algoritmos para realizar de manera robusta el alineamiento entre nubes de puntos. Los algoritmos propuestos son evaluados a través de un conjunto de nubes de puntos capturadas con un láser bajo condiciones reales de trabajo. Los resultados recogidos muestran que el problema de localización se puede resolver con la precisión necesaria para poder llevar a cabo la tarea de aislamiento. La presente tesis también propone el estudio de modelos jerárquicos visuales para resolver las tareas de mapeo y localización. Este trabajo se basa en el uso de imágenes omnidireccionales, las cuales se obtienen en entornos de interior tales como oficinas, pasillos, servicios, etc. Por tanto, esta tesis propone nuevos métodos y técnicas que mejoren la obtención de mapas jerárquicos y también que mejoren la tarea de localización. En esta línea, el primer trabajo se centra en estudiar la compresión de modelos topológicos visuales. De este modo, dos métodos de agrupamiento (clustering) son evaluados con la finalidad de conocer su utilidad para construir modelos compactos del entorno y llevar a cabo la tarea de localización. Para ello, las imágenes omnidireccionales son caracterizadas a través de descriptores de apariencia global, los cuales se utilizan para construir los modelos compactos y también para estimar la posición del robot. Los resultados recogidos de este trabajo confirman que la compresión de los modelos visuales aporta métodos de localización más eficientes, ahorrando tiempo de cómputo y manteniendo una precisión relativamente buena. El segundo trabajo propuesto se basa en un método para realizar la tarea de localización jerárquica. Esta estrategia es desarrollada mediante el cálculo de descriptores de apariencia global calculados a partir de imágenes omnidireccionales. La posición del robot se estima comparando los descriptores con la información contenida en el modelo visual. El método propuesto se evalúa a través de conjuntos de imágenes que han sido capturados en entornos grandes bajo condiciones reales de trabajo, incluyendo cambios de iluminación, los cuales afectan considerablemente la apariencia de las escenas. Los resultados muestran que existe una compensación entre tiempo de cálculo y precisión cuando se aplica la localización jerárquica. El tercer trabajo analiza el uso de dos técnicas de aprendizaje máquina (machine learning) para poder realizar la localización jerárquica. Por un lado, tres clasificadores son entrenados con tres métodos de descripción global y tras esto, dichos clasificadores son utilizados para recuperar el área o la estancia donde una imagen omnidireccional fue capturada. Por otro lado, se utiliza una red neuronal de ajuste de datos para calcular la posición de captura de la imagen dentro del área seleccionada. Los resultados muestran que las técnicas propuestas introducen una alternativa eficiente para realizar la tarea de localización jerárquica en cuanto a tiempo de cálculo y precisión. Por último, el cuarto trabajo relacionado con la línea de modelos jerárquicos se centra en aplicar técnicas de aprendizaje profundo (deep learning). En concreto, se han desarrollado dos líneas de trabajo. La primera, propone el uso de técnicas de aprendizaje profundo para calcular descriptores de apariencia global. Esto es, usar capas intermedias de redes neuronales convolucionales y de autoencoders para calcular descriptores mediante la introducción de imágenes panorámicas a dichas redes. De esta forma, el robot estima su posición a través de un método de búsqueda del vecino más cercano mediante la comparación del descriptor obtenido con los descriptores que componen el modelo visual del entorno. Estos métodos de descripción son comparados con los métodos analíticos que han sido utilizados comúnmente durante los últimos años para realizar tareas relacionadas con la robótica móvil visual. Los resultados han demostrado que los descriptores basados en aprendizaje profundo también pueden proporcionar soluciones interesantes en cuanto a la tarea de localización visual. La segunda línea de trabajo trata del desarrollo de una red neuronal desde cero para realizar la recuperación de estancia en un entorno de interior. Además, dicha red también se utiliza para calcular descriptores de apariencia global de las capas intermedias y llevar a cabo la recuperación de la posición de captura de una imagen dentro de la estancia. La combinación de la recuperación de estancia y la recuperación de posición dentro de la estancia forman un novedoso método de localización jerárquica. Los resultados obtenidos muestran que las técnicas de aprendizaje profundo propuestas y el nuevo método de localización jerárquica constituyen una solución satisfactoria para realiza la tarea de localización visual.