Generación automática de resúmenes extractivos genéricos de un documento basado en N-gramas sintácticos no continuos

Salazar Piedrahita, Andrés Mauricio

Principal
→
Facultad de Ingeniería Electrónica y Telecomunicaciones
→
Maestría en Computación
→
Ver ítem

dc.contributor.author	Salazar Piedrahita, Andrés Mauricio
dc.date.accessioned	2023-10-18T16:02:24Z
dc.date.available	2023-10-18T16:02:24Z
dc.date.issued	2019
dc.identifier.uri	http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/8499
dc.description.abstract	El Procesamiento de Lenguaje Natural (PLN) y la Recuperación de Información (RI) utilizan modelos de representación como: booleano, probabilístico y espacio vectorial (más usado en la actualidad) para agrupar, buscar, clasificar y determinar el grado de relevancia de las características (tokens, términos, frases, conceptos, entre otros) de un documento, luego con diversos enfoques, entre ellos: estadísticos, probabilísticos, basados en grafos, conectividad de textos, retórica del discurso, reducción algebraica, metaheurísticas de optimización, métodos de aprendizaje de máquina, entre otros enfoques, deciden qué características deben ser parte de un resumen generado en forma automática para dicho documento. Aunque los resultados de las investigaciones previas mejoran día a día, aún distan de los resúmenes que los seres humanos pueden elaborar. Los N-gramas en PLN, son secuencias de N elementos textuales (fonemas, palabras, lemas, etiquetas gramaticales, entre otros) construidos según su orden de aparición en el texto fuente. Los N-gramas sintácticos son un nuevo concepto de N-gramas y se construyen siguiendo las rutas del árbol sintáctico, concepto muy utilizado en tareas del RI para detección de autoría. El presente trabajo integró el uso de los N-gramas sintácticos (continuos y no continuos) en el modelo espacio vectorial para identificar las relaciones que los términos tienen con su contexto (información lingüística que no está disponible con los N-gramas tradicionales) y con ello mejorar la calidad de los resúmenes que se generan automáticamente. La comparación realizada con la representación por bolsa de palabras y N-gramas tradicionales, mostró resultados prometedores para los algoritmos basados en grafos (LexRank y LexRank Continuo), los cuales obtienen mejores resultados cuando la matriz de frases por términos se realiza con N-gramas sintácticos no continuos de 2, 3 o 4 gramas. Respecto al algoritmo ESDS-GHS-GLO, los mejores resultados se alcanzaron con N-gramas sintácticos no continuos de 1 grama, usando como esquema de representación del documento el centroide de todos los N-gramas. Además, todos los tipos de sintagmas (nominal, adjetival, verbal, preposicional y adverbial) aportan información para definir si una frase debe o no hacer parte del resumen del documento.	spa
dc.description.abstract	Natural Language Processing (NLP) and Information Retrieval (IR) use representation models such as boolean, probabilistic and vector space to group, search, classify and determine the degree of relevance of the characteristics (tokens, terms, phrases, concepts, among others) of a document, then with various approaches, among them: statistical, probabilistic, graph-based, text connectivity, speech rhetoric, algebraic reduction, optimization metaheuristics, machine learning methods, among other approaches, decide which characteristics should be part of the automatic summary, but their results are still far from the summaries that human beings can produce, although significant progress has been made. N-grams in PLN are sequences of N textual elements (phonemes, words, lemmas, grammatical labels, among others) constructed according to their order of appearance in the source text. Syntactic N-grams are a new concept of traditional N-grams and it construct following the paths of the syntactic tree, a concept widely used in IR tasks for authorship detection. The present work integrated the use of syntactic n-grams (continuous and non-continuous) in the vectorial space model to identify the relations that terms have with their context (linguistic information that is not available with traditional n-grams) and with it improve the quality of the summaries that are generated automatically. The comparison made with the representation by bag of words and traditional N-grams, showed promising results for the algorithms based on graphs (LexRank and Continuous LexRank), which obtain better results when the matrix of phrases by terms is made with non-continuous syntactic n-grams of 2, 3 or 4 grammes. With respect to the ESDS-GHS-GLO algorithm, the best results it achieved with non-continuous syntactic n-grams of 1 gram and using the centroid of all n-grams as a representation scheme of the document. In addition, all types of syntagmas (nominal, adjectival, verbal, prepositional and adverbial) provide information to define whether or not a phrase should be part of the document's summary.	eng
dc.language.iso	spa
dc.publisher	Universidad del Cauca	spa
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Resumen extractivo	spa
dc.subject	Modelo espacio vectorial	spa
dc.subject	N-grama sintáctico	spa
dc.subject	Árbol sintáctico	spa
dc.subject	Grafo	spa
dc.subject	Metaheurística	spa
dc.subject	Recuperación de información	spa
dc.subject	Extractive summary	eng
dc.subject	Vector space model	eng
dc.subject	Syntactic N-gram	eng
dc.subject	Syntactic tree	eng
dc.subject	Graph	eng
dc.subject	Metaheuristics	eng
dc.subject	Information retrieval	eng
dc.title	Generación automática de resúmenes extractivos genéricos de un documento basado en N-gramas sintácticos no continuos	spa
dc.type	Tesis maestría	spa
dc.rights.creativecommons	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.type.driver	info:eu-repo/semantics/masterThesis
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.publisher.faculty	Facultad de Ingeniería Electrónica y Telecomunicaciones	spa
dc.publisher.program	Maestría en Computación	spa
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.type.version	info:eu-repo/semantics/acceptedVersion
dc.identifier.instname
dc.identifier.reponame
oaire.accessrights	http://purl.org/coar/access_right/c_abf2
dc.identifier.repourl
oaire.version	http://purl.org/coar/version/c_ab4af688f83e57aa