Generación automática de resúmenes extractivos genéricos de un documento basado en N-gramas sintácticos no continuos

Salazar Piedrahita, Andrés Mauricio

Principal
→
Facultad de Ingeniería Electrónica y Telecomunicaciones
→
Maestría en Computación
→
Ver ítem

Generación automática de resúmenes extractivos genéricos de un documento basado en N-gramas sintácticos no continuos

Salazar Piedrahita, Andrés Mauricio

URI: http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/8499

Fecha: 2019

Resumen:

El Procesamiento de Lenguaje Natural (PLN) y la Recuperación de Información (RI) utilizan modelos de representación como: booleano, probabilístico y espacio vectorial (más usado en la actualidad) para agrupar, buscar, clasificar y determinar el grado de relevancia de las características (tokens, términos, frases, conceptos, entre otros) de un documento, luego con diversos enfoques, entre ellos: estadísticos, probabilísticos, basados en grafos, conectividad de textos, retórica del discurso, reducción algebraica, metaheurísticas de optimización, métodos de aprendizaje de máquina, entre otros enfoques, deciden qué características deben ser parte de un resumen generado en forma automática para dicho documento. Aunque los resultados de las investigaciones previas mejoran día a día, aún distan de los resúmenes que los seres humanos pueden elaborar. Los N-gramas en PLN, son secuencias de N elementos textuales (fonemas, palabras, lemas, etiquetas gramaticales, entre otros) construidos según su orden de aparición en el texto fuente. Los N-gramas sintácticos son un nuevo concepto de N-gramas y se construyen siguiendo las rutas del árbol sintáctico, concepto muy utilizado en tareas del RI para detección de autoría. El presente trabajo integró el uso de los N-gramas sintácticos (continuos y no continuos) en el modelo espacio vectorial para identificar las relaciones que los términos tienen con su contexto (información lingüística que no está disponible con los N-gramas tradicionales) y con ello mejorar la calidad de los resúmenes que se generan automáticamente. La comparación realizada con la representación por bolsa de palabras y N-gramas tradicionales, mostró resultados prometedores para los algoritmos basados en grafos (LexRank y LexRank Continuo), los cuales obtienen mejores resultados cuando la matriz de frases por términos se realiza con N-gramas sintácticos no continuos de 2, 3 o 4 gramas. Respecto al algoritmo ESDS-GHS-GLO, los mejores resultados se alcanzaron con N-gramas sintácticos no continuos de 1 grama, usando como esquema de representación del documento el centroide de todos los N-gramas. Además, todos los tipos de sintagmas (nominal, adjetival, verbal, preposicional y adverbial) aportan información para definir si una frase debe o no hacer parte del resumen del documento.

Natural Language Processing (NLP) and Information Retrieval (IR) use representation models such as boolean, probabilistic and vector space to group, search, classify and determine the degree of relevance of the characteristics (tokens, terms, phrases, concepts, among others) of a document, then with various approaches, among them: statistical, probabilistic, graph-based, text connectivity, speech rhetoric, algebraic reduction, optimization metaheuristics, machine learning methods, among other approaches, decide which characteristics should be part of the automatic summary, but their results are still far from the summaries that human beings can produce, although significant progress has been made. N-grams in PLN are sequences of N textual elements (phonemes, words, lemmas, grammatical labels, among others) constructed according to their order of appearance in the source text. Syntactic N-grams are a new concept of traditional N-grams and it construct following the paths of the syntactic tree, a concept widely used in IR tasks for authorship detection. The present work integrated the use of syntactic n-grams (continuous and non-continuous) in the vectorial space model to identify the relations that terms have with their context (linguistic information that is not available with traditional n-grams) and with it improve the quality of the summaries that are generated automatically. The comparison made with the representation by bag of words and traditional N-grams, showed promising results for the algorithms based on graphs (LexRank and Continuous LexRank), which obtain better results when the matrix of phrases by terms is made with non-continuous syntactic n-grams of 2, 3 or 4 grammes. With respect to the ESDS-GHS-GLO algorithm, the best results it achieved with non-continuous syntactic n-grams of 1 gram and using the centroid of all n-grams as a representation scheme of the document. In addition, all types of syntagmas (nominal, adjectival, verbal, prepositional and adverbial) provide information to define whether or not a phrase should be part of the document's summary.

Mostrar el registro completo del ítem