Resumen:
La lengua de señas colombiana (LSC) hace parte del patrimonio cultural de Colombia, es protegido por el estado y es la lengua oficial de las personas con discapacidad de origen auditivo. Aunque existen diversas herramientas implementadas por el gobierno nacional, aún existe una brecha grande para la inclusión social, por lo cual, son frecuentes las discriminaciones en ámbitos sociales y laborales, sin tener la posibilidad de dar a entender sus pensamientos e ideas por falta de intérpretes y desconocimiento de esta lengua. Por esta razón, se desarrolló como objetivo principal, un sistema mediante inteligencia artificial para la interpretación dinámica alfanumérica de la lengua de señas colombiana, mediante interpretación por deletreo de palabras y cantidades. Para cumplir con este objetivo, se empleó la metodología CRISP-DM, iniciando con la creación de un dataset dinámico con la participación de 77 voluntarios no expertos en LSC, realizando tres tipos de señas: alfabeto, números y palabras, siendo los dos primeros necesarios para cumplir con el objetivo. A las grabaciones obtenidas se les extrae seis fotogramas y se realiza un filtrado y procesamiento que los convierten en dos dataset, uno enfocado a cuerpo completo de tamaño 255x255 pixeles y otro enfocado en la mano de tamaño 120x120 pixeles. Esta información se modeló de dos formas empleando métodos del aprendizaje profundo; un primer modelo de combinación de redes neuronales convolucionales preentrenadas (CNN) con una doble red neuronal recurrente de memoria a largo y corto plazo (BILSTM) y un segundo modelo de coordenadas, extraídas por el software mediapipe hands que alimentan una red BILSTM directamente. El ajuste fino se realizó mediante validación cruzada con el uso herramientas de regularización como aumentación de datos, early stopping, regularización L2 y Dropout. Los resultados de evaluación arrojaron que los modelos de combinación obtienen una menor exactitud, siendo esta no convergente a cuerpo completo, pero si en el enfoque en mano, con un 75.9% de exactitud; no obstante, los modelos de coordenadas superan estos resultados con una exactitud del 75.5% y 85.7% a cuerpo completo y enfoque en mano respectivamente, siendo este último, desplegado en una plataforma local usando la librería de streamlit, para realizar la interpretación sobre la imagen captada en cámara directamente. Por tanto, se desarrolló un sistema de interpretación alfanumérico de la lengua de señas colombiana bajo condiciones dinámicas que puede ser desplegado en una página web para tener acceso en cualquier horario, lo cual, aporta a la inclusión social de personas con discapacidad auditiva, al permitir interpretación de sus ideas y pensamientos de manera clara y efectiva, lo que a su vez les permite incluirse plenamente en la sociedad.