Adaptación de un modelo de espacio vectorial de recuperación de información a textos escritos en Nasa Yuwe

Sierra Martínez, Luz Marina

Principal
→
Facultad de Ingeniería Electrónica y Telecomunicaciones
→
Maestría en Ingeniería Telemática
→
Ver ítem

dc.contributor.author	Sierra Martínez, Luz Marina
dc.date.accessioned	2019-11-05T14:55:37Z
dc.date.available	2019-11-05T14:55:37Z
dc.date.issued	2016-02-04
dc.identifier.uri	http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1353
dc.description.abstract	El nasa yuwe es una lengua oficial de Colombia, actualmente se encuentra en peligro de extinción, desde diferentes instancias nacionales e indígenas se vienen adelantando estrategias en pro de revitalizar la lengua entre las que se encuentran las tecnologías de la información que buscan apoyar la visibilización de la lengua y su uso a través de herramientas computacionales. Este documento describe el desarrollo y los resultados obtenidos en la adaptación de un modelo de espacio vectorial para la recuperación de información de textos escritos en nasa yuwe mediante: La construcción de una colección cerrada de prueba de textos escritos en nasa yuwe, la cual involucró: • Trabajo de campo con profesores de la comunidad nasa de varios resguardos cercanos al municipio de Popayán • La conformación de 97 documentos escritos en nasa yuwe • La definición de 8 consultas • El registro del juicio de expertos sobre la relevancia de los documentos para cada consulta. Un prototipo de sistema de recuperación de información de textos escritos en nasa yuwe el cual se ha desarrollado teniendo en cuenta: • La adaptación de un analizador léxico (tokenizer) para nasa yuwe basado en el analizador léxico de Lucene .NET (versión 2.9.4) • La definición de una lista de palabras vacías para remover de los documentos de la colección y las consultas (Stopwords Removal list) • La evaluación del desempeño del prototipo a través de medidas tradicionales del área de investigación como la Curva Precisión – Recuerdo. En el desarrollo de este trabajo, se pudo observar que a pesar de que el nasa yuwe, es una lengua que está en proceso de descripción fue posible hacer la adaptación del análisis léxico y la definición de palabras vacías para esta lengua, para finalmente obtener un prototipo de sistemas de recuperación de información para textos escritos en nasa yuwe, y a través de la medición del desempeño de este prototipo fue posible apreciar que la adaptación del analizador léxico es tarea crucial en la recuperación y se muestran resultados prometedores con relación a la línea base, a diferencia de los resultados obtenidos con la lista de palabras vacías, con la cual no se muestran mejoras sustanciales en el desempeño del prototipo de esta lengua.	spa
dc.description.abstract	The nasa yuwe is an official language of Colombia, it is currently in danger of extinction, nowadays advanced strategies are being promoted from different national and indigenous organizatons such as the information technologies to seek to support the visibility of the language and its use through computational tools. This document describes the development and results in the adaptation of a vector space model for information retrieval of texts written in nasa yuwe by: Building a closed test collection of texts written in nasa yuwe, which involved: • Field work with nasa teachers from several nearby community shelters to the city of Popayan. • The establishment of 97 documents written in nasa yuwe. • The definition of 8 queries. • The register of expert judgment about the relevance of the documents for each query. A prototype of information retrieval system for texts written in nasa yuwe, it was developed taking into account: • The adaptation of a nasa yuwe tokenizer based on the Lucene .NET standard tokenizer (version 2.9.4) • The definition of a stopwords removal list to apply on the documents of the nasa yuwe test collection and queries. • Performance evaluation of the prototype through traditional measures of the research area as the Precision – Recall Curve. To develop this work it was observed that although the nasa yuwe, is a language in process of description, it was possible to adapt a tokenizer and to define a stopwords removal list for this language, in order to get a prototype of information retrieval systems for texts written in nasa yuwe, and through perfomance evalution of this prototype was possible to see the adaptation of the nasa tokenizer is an important task in the recovery and this Project showed promising results in relation with the baseline, unlike the results obtained with the stopwords removal list, there is not substantial improvements in the performance of the prototype.	eng
dc.language.iso	spa	spa
dc.publisher	Universidad del Cauca	spa
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Tokenizer Nasa	eng
dc.subject	Nasa Yuwe	spa
dc.subject	Texts written in Nasa Yuwe	eng
dc.subject	Stopwords removal list	eng
dc.subject	Adapting of a tokenizer	eng
dc.subject	Textos escritos	spa
dc.subject	Lengua indígena	spa
dc.subject	Recuperación de información	spa
dc.subject	Búsqueda de información	spa
dc.subject	Prototipo	spa
dc.subject	Precisión	spa
dc.subject	Recuerdo	spa
dc.subject	Medida F	spa
dc.title	Adaptación de un modelo de espacio vectorial de recuperación de información a textos escritos en Nasa Yuwe	spa
dc.type	Tesis maestría	spa
dc.rights.creativecommons	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.type.driver	info:eu-repo/semantics/masterThesis
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.publisher.faculty	Facultad de Ingeniería Electrónica y Telecomunicaciones	spa
dc.publisher.program	Maestría en Ingeniería Telemática	spa
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.type.version	info:eu-repo/semantics/publishedVersion
dc.coar.version	http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.identifier.instname
dc.identifier.reponame
oaire.accessrights
dc.identifier.repourl
oaire.version