Repositorio Universidad del Cauca

Selección de características mediante muestreo, técnicas de inducción de reglas y arreglos de cobertura para detección de polaridad en análisis de sentimientos en Twitter

Mostrar el registro sencillo del ítem

dc.contributor.author Villegas González, Jorge Armando
dc.date.accessioned 2019-10-31T19:58:10Z
dc.date.available 2019-10-31T19:58:10Z
dc.date.issued 2018
dc.identifier.uri http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1301
dc.description.abstract Una de las principales tareas en el Análisis de Sentimientos en Twitter es la detección de polaridad, que se resume en clasificar los ‘tweets’ en términos de los sentimientos, opiniones y actitudes que expresan. La detección de polaridad en Twitter mediante métodos de aprendizaje de máquina en general se ve afectada por el uso de características irrelevantes, redundantes, ruidosas o correlacionadas, máxime cuando se usa una representación de alta dimensionalidad en el conjunto de características. Por lo anterior, se hace necesario de un método de selección de características que permita eliminar aquellas que hacen ineficiente el funcionamiento del algoritmo de clasificación. En este trabajo, se propone un método para la selección de las características basado en el concepto de bagging, con dos modificaciones importantes: i), el uso de arreglos de cobertura para soportar el proceso de definición del número de muestras bootstrap y las características a incluir en cada uno de ellos y ii) el uso del resultado de las técnicas de inducción de reglas (JRIP, C4.5, CART u otro) para generar la representación reducida de los tweets con las características seleccionadas. Los resultados experimentales muestran que al usar el método propuesto se obtienen resultados similares o superiores a los obtenidos con la representación original (incluye un conjunto de 91 características usadas en trabajos relacionados con detección de polaridad en Twitter) y permite obtener modelos más sencillos y rápidos de procesar. Es así como se identifica un subconjunto de características que permiten soportar mejoras en las futuras propuestas de detección de polaridad en Twitter. spa
dc.description.abstract One of the main tasks in analyzing sentiment on Twitter is polarity detection – i.e. the classification of ‘tweets’ in terms of feelings, opinions and attitudes expressed. Polarity detection on Twitter by means of machine learning methods is generally affected by the use of irrelevant, redundant, noisy or correlated features, especially when a high-dimensional representation is used in the feature set. There is thus a need for a selection method that removes those features that render the classification algorithm inefficient. In this work, we propose a feature selection method based on the concept of bagging, with two important modifications: i) the use of covering arrays to support the process of building bootstrap samples and the characteristics to be included in each of them and ii) the use of the results of rule-induction techniques (JRIP, C4.5, CART or others) to generate the reduced representation of tweets with the features selected. The experimental results show that on using the method proposed, we obtain similar or better results than those obtained with the original representation (this comprising a set of 91 features used in research related to polarity detection in Twitter), bringing the possibility of simpler and faster process models. A subset of features is thereby identified that can facilitate improvements in future polarity detection proposals on Twitter. eng
dc.language.iso spa spa
dc.publisher Universidad del Cauca spa
dc.rights.uri https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject Análisis de sentimientos spa
dc.subject Sentiment analysis eng
dc.subject Detección de polaridad spa
dc.subject Polarity detection eng
dc.subject Arreglos de cobertura spa
dc.subject Covering arrays eng
dc.subject Selección de características spa
dc.subject Feature selection eng
dc.subject Twitter spa
dc.title Selección de características mediante muestreo, técnicas de inducción de reglas y arreglos de cobertura para detección de polaridad en análisis de sentimientos en Twitter spa
dc.type Tesis maestría spa
dc.rights.creativecommons https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.type.driver info:eu-repo/semantics/masterThesis
dc.type.coar http://purl.org/coar/resource_type/c_bdcc
dc.publisher.faculty Facultad de Ingeniería Electrónica y Telecomunicaciones spa
dc.publisher.program Maestría en Computación spa
dc.rights.accessrights info:eu-repo/semantics/openAccess
dc.type.version info:eu-repo/semantics/publishedVersion
dc.coar.version http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.identifier.instname
dc.identifier.reponame
oaire.accessrights
dc.identifier.repourl
oaire.version


Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

https://creativecommons.org/licenses/by-nc-nd/4.0/ Excepto si se señala otra cosa, la licencia del ítem se describe como https://creativecommons.org/licenses/by-nc-nd/4.0/

Buscar en DSpace


Listar

Mi cuenta