Resumen:
Este trabajo se enmarca dentro del proyecto de investigación del grupo de Matemática computacional (proyecto 1579 de la Vicerrectoría de Investigación de la Universidad del Cauca) titulado “Nuevas Alternativas para la Estimación de los Parámetros en una Gramática Incontextual Probabilística”, al cual se le aporta la implementación computacional, el análisis de costes y las estructuras de datos de los algoritmos Inside, Outside e Inside-Outside.
Las Gramáticas Incontextuales Probabilísticas (GIP) son modelos, ideales para las aplicaciones computacionales que involucran elementos del lenguaje natural, tales como el reconocimiento automático del habla, la traducción automática, el modelado del lenguaje, así como en otras aplicaciones de reconocimiento sintáctico de patrones [SJ99]. Las gramáticas capturan la información sintáctica y pragmática de manera muy eficaz, pero lo que hace difícil su aplicación es el coste temporal del entrenamiento de sus parámetros.
El problema de la estimación de los parámetros de una GIP consiste en estimar las probabilidades de sus reglas a partir de una muestra. Para abordar este problema se utiliza alguna función objetivo dependiente tanto de la muestra como de las probabilidades de las reglas, y un marco para optimizarla. Una de las funciones objetivo que habitualmente se usa es la verosimilitud de la muestra [Bak79, LY90, Ney92, Cas96], la cual puede ser maximizada mediante el Teorema de Transformaciones Crecientes [Be67] en el cual se basa el desarrollo del algoritmo Inside-Outside (IO) [Bak79, LY90, Ney92, Cas96]. En esta transformación se procede iterativamente, incrementando el valor de la función hasta alcanzar un óptimo local. En este proceso de estimación, se consideran todas las posibles derivaciones de cada cadena de la muestra según la gramática y, aunque necesita un elevado número de iteraciones para converger, los modelos obtenidos por el algoritmo ofrecen, en general, buenos resultados.