Resumen:
El presente trabajo de grado de investigación tiene como objetivo principal el implementar un sistema de transcripción de comandos de voz, basado en algoritmos de Aprendizaje Profundo (DL, Deep Learning), capaz de reconocer vocablos específicos, para evaluar el desempeño del sistema implementado en el Reconocimiento Automático del Habla (ASR, Automatic Speech Recognition). Para su funcionamiento, se crea una base de datos conteniendo ficheros tipo WAVE de 7 vocablos diferentes, se realiza el pre-procesado de las señales de audio y se extraen los atributos de interés, en este caso, los Coeficientes Cepstrales en las Frecuencias de MEL (MFCC, Mel Frequency Cepstral Coefficients), los cuales servirán como entrada del algoritmo de DL.
Para su desarrollo se utiliza la herramienta de programación Python, la cual ofrece librerías de mucha utilidad tanto en el manejo de archivos de audio, como en el desarrollo de aplicaciones en el campo del Aprendizaje Automático (ML, Machine Learning). Así mismo, Python permite con sus librerías el análisis de los resultados obtenidos a partir de las métricas seleccionadas para la evaluación del desempeño de este algoritmo en el reconocimiento de vocablos. Finalmente se concluye sobre los resultados obtenidos y se enumeran posibles adaptaciones y trabajos futuros.