Resumen:
El procesamiento del lenguaje natural (PLN) es una de las áreas fuertemente investigadas en los últimos años, entre las tareas más importantes se encuentra el etiquetado de partes del discurso (Part-of-Speech Tagging, POST), la cual sirve en el preprocesamiento de la mayoría de aplicaciones de PLN. El etiquetado se ha abordado desde diferentes enfoques, pero es indispensable seguir buscando nuevos métodos más sencillos y eficientes, como el uso de algoritmos metaheurísticos, los cuales han mostrado ser superiores que otros métodos.
En esta tesis se propone abordar el problema de etiquetado desde una perspectiva de los algoritmos metaheurísticos, para ello en primera instancia, se propone la adaptación de tres algoritmos metaheurísticas al problema de etiquetado, evaluados sobre tres lenguas, dos lenguas tradicionales como lo son el Castellano e Inglés, y una no tradicional como el Nasa Yuwe, para el caso del Castellano se realizó el procesamiento de un corpus y se hizo la integración de los tres corpus en una sola base de datos. En segunda instancia, se propone una nueva versión memética con el algoritmo seleccionado anteriormente, buscando mejorar el desempeño, para ello se realizó la integración de una estrategia de búsqueda local al algoritmo, haciendo un balance entre exploración y explotación. Además, como una nueva estrategia para mejorar el etiquetado se presenta una mejora contextual para el caso del castellano, y, por último, se plasmó todos los resultados en el desarrollo de una aplicación web y un servicio web, donde se pueda realizar el etiquetado por parte de un usuario con los algoritmos presentados en este trabajo, el proceso se realizó bajo el desarrollo ágil Scrum.
El desarrollo de esta tesis estuvo enmarcado en la metodología Patrón de Investigación Iterativo, la cual permitió, en el primer ciclo, se enfocó en la adaptación de algoritmos metaheurísticos al problema de etiquetado y la selección del mejor; el segundo ciclo, en la propuesta de una nueva versión de un algoritmo memético; y, el tercer ciclo, en el diseño y desarrollo de un prototipo software para el etiquetado de oraciones de los tres corpus con los algoritmos adaptados.
Como resultados concretos de esta tesis, se presenta en primer lugar, una breve reseña sobre el contexto y el estado de arte de los trabajos revisados. En segundo lugar, la definición de una línea base para el castellano que nos permitiera compararnos, con los nuevos algoritmos, la cual incluye la construcción de un dataset para realizar el etiquetado para la lengua castellana. En tercer lugar, se presenta la adaptación de dos algoritmos metaheurísticos al problema de etiquetado y los resultados sobre las lenguas Castellano, Inglés y Nasa Yuwe. En cuarto lugar, se presenta una nueva versión memética del algoritmo GBHS, además de otras mejoras y los resultados finales para cada lengua. Finalmente, se presenta el desarrollo de la aplicación web y servicio web, para el etiquetado de partes del discurso, y la publicación de los dos artefactos en la nube.
Los resultados obtenidos en el desarrollo de esta tesis, indican que el problema de etiquetado se puede seguir mejorando con nuevas técnicas de optimización y algoritmos más sencillos, por lo tanto, esta tesis se convierte en referente en seguir buscando nuevas estrategias y aplicaciones para el etiquetado de partes del discurso.