Repositorio Universidad del Cauca

Framework for data quality in knowledge discovery tasks

Mostrar el registro sencillo del ítem

dc.contributor.author Corrales Muñoz, David Camilo
dc.date.accessioned 2022-06-06T15:15:12Z
dc.date.available 2022-06-06T15:15:12Z
dc.date.issued 2018-11
dc.identifier.uri http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/4053
dc.description.abstract The creation and consumption of data continue to grow by leaps and bounds. Due to advances in Information and Communication Technologies (ICT), today the data explosion in the digital universe is a new trend. The Knowledge Discovery in Databases (KDD) gain importance due the abundance of data. For a successful process of knowledge discovery is necessary to make a data treatment. The experts affirm that preprocessing phase take the 50% to 70% of the total time of knowledge discovery process. Software tools based on Knowledge Discovery Methodologies offers algorithms for data preprocessing. According to Gartner 2018 Magic Quadrant for Data Science and Machine Learning Platforms, KNIME, RapidMiner, SAS, Alteryx and H20.ai are the leader tools for knowledge discovery. These software tools provide different techniques and they facilitate the evaluation of data analysis, however, these software tools lack any kind of guidance as to which techniques can or should be used in which contexts. Consequently, the use of suitable data cleaning techniques is a headache for inexpert users. They have no idea which methods can be confidently used and often resort to trial and error. This thesis presents three contributions to address the mentioned problems: (i) A conceptual framework to provide the user a guidance to address data quality issues in knowledge discovery tasks, (ii) a Case-based reasoning system to recommend the suitable algorithms for data cleaning, and (iii) an Ontology that represent the knowledge in data quality issues and data cleaning methods. Also, this ontology supports the case-based reasoning system for case representation and reuse phase. eng
dc.description.abstract Actualmente la explosión de datos es tendencia en el universo digital debido a los avances en las tecnologías de la información. En este sentido, el descubrimiento de conocimiento y la minería de datos han ganado mayor importancia debido a la gran cantidad de datos disponibles. Para un exitoso proceso de descubrimiento de conocimiento, es necesario preparar los datos. Expertos afirman que la fase de preprocesamiento de datos toma entre un 50% a 70% del tiempo de un proceso de descubrimiento de conocimiento. Herramientas software basadas en populares metodologías para el descubrimiento de conocimiento ofrecen algoritmos para el preprocesamiento de los datos. Según el cuadrante mágico de Gartner de 2018 para ciencia de datos y plataformas de aprendizaje automático, KNIME, RapidMiner, SAS, Alteryx, y H20.ai son las mejores herramientas para el descubrimiento del conocimiento. Estas herramientas proporcionan diversas técnicas que facilitan la evaluación del conjunto de datos, sin embargo carecen de un proceso orientado al usuario que permita abordar los problemas en la calidad de datos. Además, la selección de las técnicas adecuadas para la limpieza de datos es un problema para usuarios inexpertos, ya que estos no tienen claro cuales son los métodos más confiables. De esta forma, la presente tesis doctoral se enfoca en abordar los problemas antes mencionados mediante: (i) Un marco conceptual que ofrezca un proceso guiado para abordar los problemas de calidad en los datos en tareas de descubrimiento de conocimiento, (ii) un sistema de razonamiento basado en casos que recomiende los algoritmos adecuados para la limpieza de datos y (iii) una ontología que representa el conocimiento de los problemas de calidad en los datos y los algoritmos de limpieza de datos. Adicionalmente, esta ontología contribuye en la representación formal de los casos y en la fase de adaptación, del sistema de razonamiento basado en casos. spa
dc.language.iso eng
dc.publisher Universidad del Cauca spa
dc.rights.uri https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject Quality issues eng
dc.subject Framework eng
dc.subject Discovery tasks eng
dc.subject Data cleaning eng
dc.subject Problemas de calidad spa
dc.subject Limpieza de datos spa
dc.subject Tareas de descubrimiento spa
dc.title Framework for data quality in knowledge discovery tasks eng
dc.type Tesis doctorado spa
dc.rights.creativecommons https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.type.driver info:eu-repo/semantics/doctoralThesis
dc.type.coar http://purl.org/coar/resource_type/c_db06
dc.publisher.faculty Facultad de Ingeniería Electrónica y Telecomunicaciones spa
dc.publisher.program Doctorado en Ingeniería Telemática spa
dc.rights.accessrights info:eu-repo/semantics/openAccess
dc.type.version info:eu-repo/semantics/acceptedVersion
dc.identifier.instname
dc.identifier.reponame
oaire.accessrights http://purl.org/coar/access_right/c_abf2
dc.identifier.repourl
oaire.version http://purl.org/coar/version/c_ab4af688f83e57aa


Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

https://creativecommons.org/licenses/by-nc-nd/4.0/ Excepto si se señala otra cosa, la licencia del ítem se describe como https://creativecommons.org/licenses/by-nc-nd/4.0/

Buscar en DSpace


Listar

Mi cuenta