Los wrappers son un tipo de método para la selección de atributos que pretenden encontrar un subconjunto de variables que mejore el desempeño de un Modelo de Aprendizaje Supervisado (MAS) al remover variables redundantes o irrelevantes. Por otro lado, la importancia de variables es una medida que permite cuantificar la relevancia de cada variable de entrada en la explicación de la variable de salida, ambos métodos son utilizados en la minería de datos cuando se realiza el preprocesamiento de los datos y para facilitar la interpretación de los resultados.
Los arreglos de cobertura (CAs), son objetos matemáticos que han sido ampliamente utilizados en la detección de fallas en software y hardware, siendo esta una alternativa viable con mayor cobertura y menor costo, frente a las pruebas exhaustivas. No obstante, hasta el momento en la literatura no se ha evaluado el potencial de utilizar este concepto en el proceso de selección de atributos o importancia de variables, por lo tanto en el presente trabajo se presenta una propuesta para implementar un nuevo wrapper basado en una estrategia de búsqueda que utiliza CAs o arreglos de cobertura incrementales binarios (ICA), y además se plantea un nuevo algoritmo para calcular la importancia de variables, el cual puede ser adaptado a cualquier wrapper. La evaluación de ambas propuestas se realizó utilizando seis MAS, sobre siete conjuntos de datos obtenidos del UCI Machine Learning Repository.
Los resultados sugieren que el uso de CAs e ICAs de fuerza seis en la selección de atributos, mejoran significativamente el desempeño de los MAS y reducen el número de variables requeridas, además en el orden de importancia de variables retienen en las primeras variables una mayor exactitud y consistencia con los resultados del proceso de selección de atributos. La comparación realizada con otros métodos del estado del arte mostró que el wrapper propuesto escoge una cantidad de variables similar a un wrapper basado en algoritmos Genéticos (GA) y a otro basado en Optimización por enjambre de partículas (PSO) pero no los supera en exactitud, y que la propuesta de importancia de variables domina los resultados de los filtros basados en ganancia de información (IG) y radio de ganancia (GR) y supera en la mayoría de los casos los obtenidos con la medida de importancia de variables de Random Forest (RFIV).
Wrappers is a feature selection method that aims to find a subset of variables that improves the performance of a Supervised Learning Model (MAS) by removing redundant or irrelevant variables. On the other hand, the importance of variables is a measure that allows to quantify the relevance of each input variable in the explanation of the output variable, both methods are used in data mining when the data is preprocessed and also facilitates the interpretation of the results.
Covering Arrays (CAs), are mathematical objects that have been widely used in the detection of software and hardware failures, this being a viable alternative with greater coverage and lower cost, compared to the exhaustive tests. However, until now in the literature the potential of using this concept in the process of selecting attributes or importance of variables has not been evaluated. Therefore, in the present work a proposal is presented to implement a new wrapper based on a search strategy that uses CAs or binary incremental coverage arrangements (ICA) for feature selection. In addition, a new algorithm is also proposed in order to calculate a variable importance measure, which can be adapted to any wrapper. The evaluation of both proposals was carried out using six MAS on seven data sets obtained from the UCI Machine Learning Repository.
The results suggest that the use of CAs and ICAs, of force six in the feature selection, significantly improve the performance of the MAS and reduce the number of required variables. In addition, in the order of importance of variables they retain in the first variables a greater accuracy and consistency with the results of the attribute selection process. The comparison made with other state-of-the-art methods showed that the proposed wrapper chooses a number of variables similar to a wrapper based on Genetic Algorithms (GA) and another based on Particle Swarm Optimization (PSO), but does not exceed them in accuracy. Additionally, the proposal of importance of variables dominates the results of the filters based on Information Gain (IG) and Gain Ratio (GR), and in most cases, exceeds those obtained with the Random Forest Variable Importance Measure (RFVI).