Repositorio Universidad del Cauca

Wrapper para la construcción de modelos de aprendizaje supervisado basado en arreglos de cobertura que permite la estimación de la importancia de las variables de entrada y la selección de atributos

Mostrar el registro sencillo del ítem

dc.contributor.author Dorado Betancourt, Hugo Andres
dc.date.accessioned 2019-10-31T19:49:01Z
dc.date.available 2019-10-31T19:49:01Z
dc.date.issued 2019-01
dc.identifier.uri http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1299
dc.description.abstract Los wrappers son un tipo de método para la selección de atributos que pretenden encontrar un subconjunto de variables que mejore el desempeño de un Modelo de Aprendizaje Supervisado (MAS) al remover variables redundantes o irrelevantes. Por otro lado, la importancia de variables es una medida que permite cuantificar la relevancia de cada variable de entrada en la explicación de la variable de salida, ambos métodos son utilizados en la minería de datos cuando se realiza el preprocesamiento de los datos y para facilitar la interpretación de los resultados. Los arreglos de cobertura (CAs), son objetos matemáticos que han sido ampliamente utilizados en la detección de fallas en software y hardware, siendo esta una alternativa viable con mayor cobertura y menor costo, frente a las pruebas exhaustivas. No obstante, hasta el momento en la literatura no se ha evaluado el potencial de utilizar este concepto en el proceso de selección de atributos o importancia de variables, por lo tanto en el presente trabajo se presenta una propuesta para implementar un nuevo wrapper basado en una estrategia de búsqueda que utiliza CAs o arreglos de cobertura incrementales binarios (ICA), y además se plantea un nuevo algoritmo para calcular la importancia de variables, el cual puede ser adaptado a cualquier wrapper. La evaluación de ambas propuestas se realizó utilizando seis MAS, sobre siete conjuntos de datos obtenidos del UCI Machine Learning Repository. Los resultados sugieren que el uso de CAs e ICAs de fuerza seis en la selección de atributos, mejoran significativamente el desempeño de los MAS y reducen el número de variables requeridas, además en el orden de importancia de variables retienen en las primeras variables una mayor exactitud y consistencia con los resultados del proceso de selección de atributos. La comparación realizada con otros métodos del estado del arte mostró que el wrapper propuesto escoge una cantidad de variables similar a un wrapper basado en algoritmos Genéticos (GA) y a otro basado en Optimización por enjambre de partículas (PSO) pero no los supera en exactitud, y que la propuesta de importancia de variables domina los resultados de los filtros basados en ganancia de información (IG) y radio de ganancia (GR) y supera en la mayoría de los casos los obtenidos con la medida de importancia de variables de Random Forest (RFIV). spa
dc.description.abstract Wrappers is a feature selection method that aims to find a subset of variables that improves the performance of a Supervised Learning Model (MAS) by removing redundant or irrelevant variables. On the other hand, the importance of variables is a measure that allows to quantify the relevance of each input variable in the explanation of the output variable, both methods are used in data mining when the data is preprocessed and also facilitates the interpretation of the results. Covering Arrays (CAs), are mathematical objects that have been widely used in the detection of software and hardware failures, this being a viable alternative with greater coverage and lower cost, compared to the exhaustive tests. However, until now in the literature the potential of using this concept in the process of selecting attributes or importance of variables has not been evaluated. Therefore, in the present work a proposal is presented to implement a new wrapper based on a search strategy that uses CAs or binary incremental coverage arrangements (ICA) for feature selection. In addition, a new algorithm is also proposed in order to calculate a variable importance measure, which can be adapted to any wrapper. The evaluation of both proposals was carried out using six MAS on seven data sets obtained from the UCI Machine Learning Repository. The results suggest that the use of CAs and ICAs, of force six in the feature selection, significantly improve the performance of the MAS and reduce the number of required variables. In addition, in the order of importance of variables they retain in the first variables a greater accuracy and consistency with the results of the attribute selection process. The comparison made with other state-of-the-art methods showed that the proposed wrapper chooses a number of variables similar to a wrapper based on Genetic Algorithms (GA) and another based on Particle Swarm Optimization (PSO), but does not exceed them in accuracy. Additionally, the proposal of importance of variables dominates the results of the filters based on Information Gain (IG) and Gain Ratio (GR), and in most cases, exceeds those obtained with the Random Forest Variable Importance Measure (RFVI). eng
dc.language.iso spa spa
dc.publisher Universidad del Cauca spa
dc.rights.uri https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject Wrappers eng
dc.subject Variable Importance Measure spa
dc.subject Genetic algorithms eng
dc.subject Particle Swarm Optimization eng
dc.subject Supervised learning models eng
dc.subject Filters eng
dc.subject Importancia de Variables spa
dc.subject Algoritmos Genéticos spa
dc.subject Optimización por enjambre de partículas spa
dc.subject Modelos de Aprendizaje Supervisado spa
dc.subject Filtros spa
dc.title Wrapper para la construcción de modelos de aprendizaje supervisado basado en arreglos de cobertura que permite la estimación de la importancia de las variables de entrada y la selección de atributos spa
dc.type Tesis maestría spa
dc.rights.creativecommons https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.type.driver info:eu-repo/semantics/masterThesis
dc.type.coar http://purl.org/coar/resource_type/c_bdcc
dc.publisher.faculty Facultad de Ingeniería Electrónica y Telecomunicaciones spa
dc.publisher.program Maestría en Computación spa
dc.rights.accessrights info:eu-repo/semantics/openAccess
dc.type.version info:eu-repo/semantics/publishedVersion
dc.coar.version http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.identifier.instname
dc.identifier.reponame
oaire.accessrights
dc.identifier.repourl
oaire.version


Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

https://creativecommons.org/licenses/by-nc-nd/4.0/ Excepto si se señala otra cosa, la licencia del ítem se describe como https://creativecommons.org/licenses/by-nc-nd/4.0/

Buscar en DSpace


Listar

Mi cuenta