Repositorio Universidad del Cauca

Generación automática de resúmenes extractivos genéricos de un documento basado en N-gramas sintácticos no continuos

Mostrar el registro sencillo del ítem

dc.contributor.author Salazar Piedrahita, Andrés Mauricio
dc.date.accessioned 2023-10-18T16:02:24Z
dc.date.available 2023-10-18T16:02:24Z
dc.date.issued 2019
dc.identifier.uri http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/8499
dc.description.abstract El Procesamiento de Lenguaje Natural (PLN) y la Recuperación de Información (RI) utilizan modelos de representación como: booleano, probabilístico y espacio vectorial (más usado en la actualidad) para agrupar, buscar, clasificar y determinar el grado de relevancia de las características (tokens, términos, frases, conceptos, entre otros) de un documento, luego con diversos enfoques, entre ellos: estadísticos, probabilísticos, basados en grafos, conectividad de textos, retórica del discurso, reducción algebraica, metaheurísticas de optimización, métodos de aprendizaje de máquina, entre otros enfoques, deciden qué características deben ser parte de un resumen generado en forma automática para dicho documento. Aunque los resultados de las investigaciones previas mejoran día a día, aún distan de los resúmenes que los seres humanos pueden elaborar. Los N-gramas en PLN, son secuencias de N elementos textuales (fonemas, palabras, lemas, etiquetas gramaticales, entre otros) construidos según su orden de aparición en el texto fuente. Los N-gramas sintácticos son un nuevo concepto de N-gramas y se construyen siguiendo las rutas del árbol sintáctico, concepto muy utilizado en tareas del RI para detección de autoría. El presente trabajo integró el uso de los N-gramas sintácticos (continuos y no continuos) en el modelo espacio vectorial para identificar las relaciones que los términos tienen con su contexto (información lingüística que no está disponible con los N-gramas tradicionales) y con ello mejorar la calidad de los resúmenes que se generan automáticamente. La comparación realizada con la representación por bolsa de palabras y N-gramas tradicionales, mostró resultados prometedores para los algoritmos basados en grafos (LexRank y LexRank Continuo), los cuales obtienen mejores resultados cuando la matriz de frases por términos se realiza con N-gramas sintácticos no continuos de 2, 3 o 4 gramas. Respecto al algoritmo ESDS-GHS-GLO, los mejores resultados se alcanzaron con N-gramas sintácticos no continuos de 1 grama, usando como esquema de representación del documento el centroide de todos los N-gramas. Además, todos los tipos de sintagmas (nominal, adjetival, verbal, preposicional y adverbial) aportan información para definir si una frase debe o no hacer parte del resumen del documento. spa
dc.description.abstract Natural Language Processing (NLP) and Information Retrieval (IR) use representation models such as boolean, probabilistic and vector space to group, search, classify and determine the degree of relevance of the characteristics (tokens, terms, phrases, concepts, among others) of a document, then with various approaches, among them: statistical, probabilistic, graph-based, text connectivity, speech rhetoric, algebraic reduction, optimization metaheuristics, machine learning methods, among other approaches, decide which characteristics should be part of the automatic summary, but their results are still far from the summaries that human beings can produce, although significant progress has been made. N-grams in PLN are sequences of N textual elements (phonemes, words, lemmas, grammatical labels, among others) constructed according to their order of appearance in the source text. Syntactic N-grams are a new concept of traditional N-grams and it construct following the paths of the syntactic tree, a concept widely used in IR tasks for authorship detection. The present work integrated the use of syntactic n-grams (continuous and non-continuous) in the vectorial space model to identify the relations that terms have with their context (linguistic information that is not available with traditional n-grams) and with it improve the quality of the summaries that are generated automatically. The comparison made with the representation by bag of words and traditional N-grams, showed promising results for the algorithms based on graphs (LexRank and Continuous LexRank), which obtain better results when the matrix of phrases by terms is made with non-continuous syntactic n-grams of 2, 3 or 4 grammes. With respect to the ESDS-GHS-GLO algorithm, the best results it achieved with non-continuous syntactic n-grams of 1 gram and using the centroid of all n-grams as a representation scheme of the document. In addition, all types of syntagmas (nominal, adjectival, verbal, prepositional and adverbial) provide information to define whether or not a phrase should be part of the document's summary. eng
dc.language.iso spa
dc.publisher Universidad del Cauca spa
dc.rights.uri https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject Resumen extractivo spa
dc.subject Modelo espacio vectorial spa
dc.subject N-grama sintáctico spa
dc.subject Árbol sintáctico spa
dc.subject Grafo spa
dc.subject Metaheurística spa
dc.subject Recuperación de información spa
dc.subject Extractive summary eng
dc.subject Vector space model eng
dc.subject Syntactic N-gram eng
dc.subject Syntactic tree eng
dc.subject Graph eng
dc.subject Metaheuristics eng
dc.subject Information retrieval eng
dc.title Generación automática de resúmenes extractivos genéricos de un documento basado en N-gramas sintácticos no continuos spa
dc.type Tesis maestría spa
dc.rights.creativecommons https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.type.driver info:eu-repo/semantics/masterThesis
dc.type.coar http://purl.org/coar/resource_type/c_bdcc
dc.publisher.faculty Facultad de Ingeniería Electrónica y Telecomunicaciones spa
dc.publisher.program Maestría en Computación spa
dc.rights.accessrights info:eu-repo/semantics/openAccess
dc.type.version info:eu-repo/semantics/acceptedVersion
dc.identifier.instname
dc.identifier.reponame
oaire.accessrights http://purl.org/coar/access_right/c_abf2
dc.identifier.repourl
oaire.version http://purl.org/coar/version/c_ab4af688f83e57aa


Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

https://creativecommons.org/licenses/by-nc-nd/4.0/ Excepto si se señala otra cosa, la licencia del ítem se describe como https://creativecommons.org/licenses/by-nc-nd/4.0/

Buscar en DSpace


Búsqueda avanzada

Listar

Mi cuenta