Una de las principales tareas en el Análisis de Sentimientos en Twitter es la detección de polaridad, que se resume en clasificar los ‘tweets’ en términos de los sentimientos, opiniones y actitudes que expresan. La detección de polaridad en Twitter mediante métodos de aprendizaje de máquina en general se ve afectada por el uso de características irrelevantes, redundantes, ruidosas o correlacionadas, máxime cuando se usa una representación de alta dimensionalidad en el conjunto de características.
Por lo anterior, se hace necesario de un método de selección de características que permita eliminar aquellas que hacen ineficiente el funcionamiento del algoritmo de clasificación. En este trabajo, se propone un método para la selección de las características basado en el concepto de bagging, con dos modificaciones importantes: i), el uso de arreglos de cobertura para soportar el proceso de definición del número de muestras bootstrap y las características a incluir en cada uno de ellos y ii) el uso del resultado de las técnicas de inducción de reglas (JRIP, C4.5, CART u otro) para generar la representación reducida de los tweets con las características seleccionadas.
Los resultados experimentales muestran que al usar el método propuesto se obtienen resultados similares o superiores a los obtenidos con la representación original (incluye un conjunto de 91 características usadas en trabajos relacionados con detección de polaridad en Twitter) y permite obtener modelos más sencillos y rápidos de procesar. Es así como se identifica un subconjunto de características que permiten soportar mejoras en las futuras propuestas de detección de polaridad en Twitter.
One of the main tasks in analyzing sentiment on Twitter is polarity detection – i.e. the classification of ‘tweets’ in terms of feelings, opinions and attitudes expressed. Polarity detection on Twitter by means of machine learning methods is generally affected by the use of irrelevant, redundant, noisy or correlated features, especially when a high-dimensional representation is used in the feature set.
There is thus a need for a selection method that removes those features that render the classification algorithm inefficient. In this work, we propose a feature selection method based on the concept of bagging, with two important modifications: i) the use of covering arrays to support the process of building bootstrap samples and the characteristics to be included in each of them and ii) the use of the results of rule-induction techniques (JRIP, C4.5, CART or others) to generate the reduced representation of tweets with the features selected.
The experimental results show that on using the method proposed, we obtain similar or better results than those obtained with the original representation (this comprising a set of 91 features used in research related to polarity detection in Twitter), bringing the possibility of simpler and faster process models. A subset of features is thereby identified that can facilitate improvements in future polarity detection proposals on Twitter.