Resumen:
Las técnicas de visión artificial son ampliamente estudiadas por ser de importante aplicación en la robótica. No obstante, la mayoría de trabajos se han implementado bajo imágenes bidimensionales, suponiendo una fuerte restricción en el amplio campo de posibilidades de la visión de máquina. Para dar solución a esta limitación se han desarrollado, durante la última década, estructuras que permiten obtener la información tridimensional de una escena, siendo una de las más utilizadas la constituida por un par estereoscópico de cámaras a semejanza de la visión humana.
En este trabajo se implementó un sistema de calibración y rectificación estereoscópica. Se utilizó el método de Brown para determinar los parámetros de distorsión, y el método de Hartley para la rectificación. El sistema estereoscópico consta de un módulo hardware, cuya función es la de alinear los ejes ópticos del par estereoscópico y un módulo software de rectificación de imágenes. Los resultados muestran que se logra obtener un mapa de disparidades del entorno, donde se obtiene la mayor resolución en la medida de profundidad a mayor distancia de baseline (separación entre ejes ópticos), y el rango se amplía al aumentar la separación entre las cámaras. Con el sistema de visión estereoscópico se confirmó la relación inversa que existe entre la disparidad y la profundidad, se verificó que el proceso de correspondencia es mucho mejor en escenarios con abundante textura. Se aplicaron técnicas de flujo óptico y suma absoluta de diferencias (SAD) para realizar la correspondencia estéreo. Finalmente se logró reconstruir escenas en 3D partiendo de imágenes estáticas y de video.
Tanto el dispositivo de visión estéreo como los algoritmos fueron probados en la plataforma robótica Player bajo el entorno Linux, siendo fieles a la idea de un sistema robótico integrado que permita articular varios sensores de diferentes tipos, que a su vez se puedan comunicar bajo un mismo estándar de mensajes.
En robótica un aspecto importante, en la adquisición y manipulación de los datos enviados por los sensores, es el tiempo de cómputo que emplean los algoritmos en procesar la información. En este trabajo el procesamiento de las imágenes estéreo se realiza por regiones y extracción de características, con bajo coste computacional lo que permite ser implementado en secuencia de video usando un computador de gama media.