Repositorio Universidad del Cauca

Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest

Mostrar el registro sencillo del ítem

dc.contributor.author Vivas Méndez, Juan Sebastián
dc.date.accessioned 2019-12-02T17:30:43Z
dc.date.available 2019-12-02T17:30:43Z
dc.date.issued 2018-04
dc.identifier.uri http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1751
dc.description.abstract El algoritmo Random Forest (RF) es actualmente uno de los más usados en minería de datos para resolver problemas de clasificación. La literatura señala dos limitaciones importantes de RF: 1) la cantidad de tiempo que toma la fijación manual de los híper parámetros (número de árboles en el bosque y numero de características) y la falta de un proceso más apropiado de selección de características que la sencilla selección aleatoria. En este trabajo se proponen y evalúan diversas variaciones del algoritmo RF en los que se integran arreglos de cubrimiento (Covering Arrays) (CA) de fuerza dos a siete, y Torres de arreglos de cubrimiento (Towers of Covering Arrays) (TCA) binarios de fuerza dos a seis como mecanismo de selección de características, donde, el número de filas del CA o del TCA permite definir el número de árboles a generar. Cada renglón del CA o el TCA define las características que utiliza cada subconjunto bootstrap (muestreo aleatorio con reemplazo del conjunto de datos) en la creación de cada árbol base. Para comparar el desempeño de los algoritmos propuestos, Random Forest con Covering Arrays (RFCA) y Random Forest con Torres de Covering Arrays (RFTCA), se definieron 33 conjuntos de datos (datasets) que representan problemas de clasificación con diferentes niveles de complejidad obtenidos del repositorio de la Universidad de California en Irvine (UCI). Los algoritmos fueron evaluados usando validación cruzada(cross-validation) de 10 folders y se evidencia que RFCA y RFTCA logran obtener el mejor desempeño basado en los resultados de los test estadísticos no paramétricos de Friedman y Wilcoxon. Con los resultados de exactitud del algoritmo RFCA con respecto al algoritmo de referencia originalmente propuesto por Breiman se obtuvieron seis modelos de árboles de decisión (uno para cada fuerza) que facilitaron la identificación de los tipos de conjunto de datos donde la propuesta RFCA tiene una mayor probabilidad de obtener mejores resultados. Los resultados muestran que en general RFCA obtiene mejores resultados que el estado del arte con una mejora entre 0.5% y 2%. spa
dc.language.iso spa spa
dc.publisher Universidad del Cauca spa
dc.rights.uri https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject Random Forest eng
dc.subject Arreglos de cubrimiento spa
dc.subject Clasificación spa
dc.title Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest spa
dc.type Trabajos de grado spa
dc.rights.creativecommons https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.type.driver info:eu-repo/semantics/bachelorThesis
dc.type.coar http://purl.org/coar/resource_type/c_7a1f
dc.publisher.faculty Facultad de Ingeniería Electrónica y Telecomunicaciones  spa
dc.publisher.program Ingeniería de Sistemas spa
dc.rights.accessrights info:eu-repo/semantics/openAccess
dc.type.version info:eu-repo/semantics/publishedVersion
dc.coar.version http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.identifier.instname
dc.identifier.reponame
oaire.accessrights
dc.identifier.repourl
oaire.version


Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

https://creativecommons.org/licenses/by-nc-nd/4.0/ Excepto si se señala otra cosa, la licencia del ítem se describe como https://creativecommons.org/licenses/by-nc-nd/4.0/

Buscar en DSpace


Listar

Mi cuenta