Antecedentes: Las habilidades cognitivas son fundamentales para realizar actividades diarias de manera autosuficiente. Normalmente los problemas cognitivos aparecen en la infancia, manifestándose en Trastornos Específicos del Aprendizaje (TEA, en inglés: Specific Learning Disorders - SLD). Los TEA son una condición en la cual las habilidades académicas y cognitivas son significativamente más bajas de lo esperado según la edad, afectando considerablemente el éxito escolar y las actividades diarias a las que el niño está expuesto. La Universidad del Cauca en colaboración con el Instituto Fraunhofer IDMT de Alemania desarrolló el sistema HapHop-Fisio para apoyar las terapias de rehabilitación de niños con TEA a partir de la recopilación de señales fisiológicas y datos de desempeño cognitivo.
Objetivos: El objetivo principal de esta tesis es determinar el desempeño cognitivo en niños con TEA a partir de las señales fisiológicas recolectadas durante las terapias apoyadas por el sistema HapHop-Fisio. Para cumplir con dicho objetivo, en primera instancia, es necesario analizar el conjunto de señales fisiológicas para determinar las señales incompletas. Posteriormente, se deben procesar las señales completas con técnicas de aprendizaje supervisado para el reconocimiento del desempeño cognitivo. Finalmente se debe evaluar el modelo generado a partir de la creación de un índice de confianza en la clasificación.
Métodos: Para alcanzar este objetivo se utilizaron dos metodologías: una para la investigación documental y otra para la etapa de análisis y experimentación. Para la investigación documental se realizó mapeo sistemático y revisión sistemática. En cuanto al análisis y experimentación, se aplicó la metodología CRISP-DM (Cross Industry Standard Process for Data Mining) haciendo un énfasis especial en la etapa de preparación de los datos.
Resultados: Este trabajo de grado produjo tres resultados importantes. En primer lugar, para la imputación de los datos perdidos se realizó una comparación a través de un análisis estadístico de dos técnicas de imputación: uno simple (vecinos cercanos) y uno múltiple (MICE, multiple imputation by chained equations), en el cual se obtuvo que la mejor manera de imputar para este caso es el método simple de vecinos cercanos con tres vecinos. En segundo lugar, durante el entendimiento de los datos se identificaron dos falencias en el conjunto de datos: clases desbalanceadas y alta dimensionalidad. Para balancear las clases se utilizó el algoritmo SMOTE (synthetic minority oversampling technique), el cual permitió entrenar modelos más precisos. Para reducir la dimensionalidad se utilizaron dos aproximaciones: con Wrapper y con filtro, siendo la primera la que mejores resultados presentó, reduciendo significativamente la cantidad de características a analizar sin reducir el desempeño de los modelos de clasificación. Finalmente, para la clasificación se probaron y afinaron tres algoritmos: Bosques aleatorios (Random Forest), Maquinas de vector soporte (SVM, support-vector machines) y perceptrón multicapa (MLP, multilayer perceptron). Para la afinación de estos modelos se utilizó validación cruzada de 10 pliegues observando su exactitud. Una vez afinados los modelos, se evaluaron cuatro métricas en las predicciones con el conjunto de prueba: exactitud, precisión, sensibilidad y medida F1. El clasificador que presento el mejor resultado fue SVM.
Conclusiones: Aunque en la literatura las técnicas de imputación múltiple son más robustas y eficientes, en el caso de este trabajo de grado, la técnica que mejor se ajustó a los datos fue un método simple. No obstante, los datos imputados no tuvieron un impacto positivo en los modelos de clasificación. Con respecto al proceso de limpieza, balancear el conjunto de datos tuvo un impacto positivo en los resultados. Además, aunque el proceso de reducción de dimensionalidad no mejoró los resultados de los clasificadores, sí redujo sustancialmente el tiempo de entrenamiento y predicción. Finalmente, los resultados de este trabajo aportan de manera significativa al trabajo de doctorado de la magíster Carolina Rico, desde la generación de nuevos flujos de trabajo y experimentación, hasta la toma de decisiones sobre la inclusión de otro tipo de señales fisiológicas obtenidas con la pulsera E4 y otros dispositivos wearables.
Background: Cognitive skills are essential to perform daily activities self-sufficiently. Cognitive problems usually appear in childhood, manifesting in Specific Learning Disorders (Specific Learning Disorders - SLD). SLD are a condition in which academic and cognitive skills are significantly lower than expected for age, considerably affecting school success and daily activities to which the child is exposed. The University of Cauca in collaboration with the Fraunhofer IDMT Institute in Germany developed the HapHop-Fisio system to support rehabilitation therapies for children with SLD based on the collection of physiological signals and cognitive performance data.
Objectives: The main objective of this thesis is to determine the cognitive performance of children with SLD from the physiological signals collected during therapies using the HapHop-Physio system. To achieve this objective, in the first instance, it is necessary to analyze the collected physiological signals to identify incomplete signals. Subsequently, complete signals must be processed with supervised learning techniques for the recognition of cognitive performance. Finally, the model generated must be evaluated from the creation of a confidence index in the classification.
Methods: To achieve this objective, two methodologies were used: one for documentary research and another for the analysis and experimentation stage. For the documentary research, systematic mapping and systematic review were carried out. Regarding the analysis and experimentation, the CRISP-DM (Cross Industry Standard Process for Data Mining) methodology was applied, with a special emphasis on the data preparation stage.
Results: This undergraduate thesis produced three important results. Firstly, for the imputation of the missing data, a comparison was made through a statistical analysis of two imputation techniques: a simple one (K nearest neigbors - KNN) and a multiple one (MICE - Multiple Imputation by Chained Equations), in which found that the best way to impute for this case is the simple nearest neighbor method with three neighbors. Second, during the understanding of the data, two main shortcomings were identified in the dataset: unbalanced classes and high dimensionality. To balance the classes, the SMOTE (synthetic minority oversampling technique) algorithm was used, which allowed training more accurate models. To reduce the dimensionality, two approaches were used: with a Wrapper and filter, the first being the one that presented the best results, significantly reducing the number of features to be analyzed without reducing the performance of the classification models. Finally, three algorithms were tested and refined for classification: Random Forest, Support Vector Machines (SVM), and Multilayer Perceptron (MLP). For the tuning of these models, a 10-fold cross-validation was used, observing their accuracy. Once the models were tuned, four metrics were evaluated in the predictions with the test set: accuracy, precision, sensitivity and measure F1. The classifier that presented the best result was SVM.
Conclusions: Although multiple imputation techniques more robust and efficient, the technique that best fitted the data in this project was a simple method. However, the imputed data did not have a positive impact on the classification models. Regarding the cleaning process, even though the class imbalance was not very significant, balancing the dataset had a significant positive impact on the results. Furthermore, although the dimensionality reduction process did not improve the results of the classifiers, it did substantially reduce the number of features to be analyzed and therefore the training and prediction times. Finally, the results of this work contribute significantly to the doctoral thesis of Carolina Rico, from the generation of new workflows and experimentation, to decision-making on the inclusion of other types of physiological signals obtained with the E4 wristband and other wearable devices.