Resumen:
El propósito de este trabajo es estudiar el modelo de n-gramas, el cual es
el modelo de lenguaje que ha demostrado mayor eficiencia y sencillez en su
implementación; esto hace que el modelo sea el más utilizado en los sistemas
de reconocimiento del habla como también en otros campos en los que se
procesa información lingüística mediante sistemas probabilísticos. Por otra
parte, este modelo presenta problemas de dispersión, pero existe una técnica
utilizada para corregir este problema, la cual es el suavizado. El suavizado
es la técnica mediante la cual se ajustan las probabilidades estimadas en el
modelo. El uso de esta técnica produce distribuciones más uniformes, aumentando
así la capacidad predictiva de los modelos.
El contenido de este trabajo se divide en cinco capítulos, en el primero se realiza
una revisión acerca de los modelos de lenguaje. En el segundo se expone
la teoría de los modelos de n-gramas y de los algoritmos de suavizados para
estos modelos. En el capítulo tres se estudian los modelos mixtos, los cuales
son combinaciones del modelo de n-gramas con otros modelos mediante algún
método. El capítulo cuatro muestra la descripción y resultados de los experimentos.
Y por último, en el capítulo cinco se mencionan las conclusiones y
se sugieren trabajos futuros.