Selección de características mediante muestreo, técnicas de inducción de reglas y arreglos de cobertura para detección de polaridad en análisis de sentimientos en Twitter

Villegas González, Jorge Armando

Principal
→
Facultad de Ingeniería Electrónica y Telecomunicaciones
→
Maestría en Computación
→
Ver ítem

dc.contributor.author	Villegas González, Jorge Armando
dc.date.accessioned	2019-10-31T19:58:10Z
dc.date.available	2019-10-31T19:58:10Z
dc.date.issued	2018
dc.identifier.uri	http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1301
dc.description.abstract	Una de las principales tareas en el Análisis de Sentimientos en Twitter es la detección de polaridad, que se resume en clasificar los ‘tweets’ en términos de los sentimientos, opiniones y actitudes que expresan. La detección de polaridad en Twitter mediante métodos de aprendizaje de máquina en general se ve afectada por el uso de características irrelevantes, redundantes, ruidosas o correlacionadas, máxime cuando se usa una representación de alta dimensionalidad en el conjunto de características. Por lo anterior, se hace necesario de un método de selección de características que permita eliminar aquellas que hacen ineficiente el funcionamiento del algoritmo de clasificación. En este trabajo, se propone un método para la selección de las características basado en el concepto de bagging, con dos modificaciones importantes: i), el uso de arreglos de cobertura para soportar el proceso de definición del número de muestras bootstrap y las características a incluir en cada uno de ellos y ii) el uso del resultado de las técnicas de inducción de reglas (JRIP, C4.5, CART u otro) para generar la representación reducida de los tweets con las características seleccionadas. Los resultados experimentales muestran que al usar el método propuesto se obtienen resultados similares o superiores a los obtenidos con la representación original (incluye un conjunto de 91 características usadas en trabajos relacionados con detección de polaridad en Twitter) y permite obtener modelos más sencillos y rápidos de procesar. Es así como se identifica un subconjunto de características que permiten soportar mejoras en las futuras propuestas de detección de polaridad en Twitter.	spa
dc.description.abstract	One of the main tasks in analyzing sentiment on Twitter is polarity detection – i.e. the classification of ‘tweets’ in terms of feelings, opinions and attitudes expressed. Polarity detection on Twitter by means of machine learning methods is generally affected by the use of irrelevant, redundant, noisy or correlated features, especially when a high-dimensional representation is used in the feature set. There is thus a need for a selection method that removes those features that render the classification algorithm inefficient. In this work, we propose a feature selection method based on the concept of bagging, with two important modifications: i) the use of covering arrays to support the process of building bootstrap samples and the characteristics to be included in each of them and ii) the use of the results of rule-induction techniques (JRIP, C4.5, CART or others) to generate the reduced representation of tweets with the features selected. The experimental results show that on using the method proposed, we obtain similar or better results than those obtained with the original representation (this comprising a set of 91 features used in research related to polarity detection in Twitter), bringing the possibility of simpler and faster process models. A subset of features is thereby identified that can facilitate improvements in future polarity detection proposals on Twitter.	eng
dc.language.iso	spa	spa
dc.publisher	Universidad del Cauca	spa
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Análisis de sentimientos	spa
dc.subject	Sentiment analysis	eng
dc.subject	Detección de polaridad	spa
dc.subject	Polarity detection	eng
dc.subject	Arreglos de cobertura	spa
dc.subject	Covering arrays	eng
dc.subject	Selección de características	spa
dc.subject	Feature selection	eng
dc.subject	Twitter	spa
dc.title	Selección de características mediante muestreo, técnicas de inducción de reglas y arreglos de cobertura para detección de polaridad en análisis de sentimientos en Twitter	spa
dc.type	Tesis maestría	spa
dc.rights.creativecommons	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.type.driver	info:eu-repo/semantics/masterThesis
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.publisher.faculty	Facultad de Ingeniería Electrónica y Telecomunicaciones	spa
dc.publisher.program	Maestría en Computación	spa
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.type.version	info:eu-repo/semantics/publishedVersion
dc.coar.version	http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.identifier.instname
dc.identifier.reponame
oaire.accessrights
dc.identifier.repourl
oaire.version