En este documento se presentan los resultados del trabajo de investigación realizado durante una pasantía de 6 meses, el cual fue encaminada a brindar aportes para el diagnóstico de la preeclampsia usando técnicas de Espectrometría de Masas con Ionización-Desorción por Láser Asistida por Matriz acoplado a analizador de Tiempo de Vuelo y herramientas computacionales de Aprendizaje Automatizado para el análisis de datos.
La preeclampsia, es una enfermedad grave que puede causar una morbilidad y mortalidad significativas tanto para la madre como para el bebé si no se trata o diagnostica a tiempo. Esta enfermedad, también conlleva riesgos a largo plazo para la salud de la mujer como mayor riesgo de enfermedades cardiovasculares, entre otras en etapas tardías de la vida. Dadas las consecuencias potencialmente graves de esta afección, la investigación sobre la preeclampsia desde una perspectiva clínica y química es esencial para comprender mejor sus mecanismos subyacentes e identificar los factores de riesgo. Por lo tanto, en este trabajo se propuso comparar el perfil proteómico de 164 muestras de suero sanguíneo de pacientes sanas y con preeclampsia. Las muestras se digestaron con Tripsina por 18 horas a 37 grados centígrados, mediante un método preparativo conocido como preparación de muestras asistida por filtro de exclusión de tamaño de tres kilodalton (3 kDa), recolectando los fragmentos proteicos del sobrenadante, los cuales, fueron secados al vacío y analizados mediante Espectrometría de Masas con Ionización-Desorción láser asistida por Matriz acoplado a analizador de Tiempo de Vuelo. Las condiciones de trabajo fueron estudiadas estadísticamente por un diseño factorial mixto 3x3x2 empleando una re- suspensión de 50 microlitros (uL), una dilución de 1:10 uL y se usó el ácido α-Ciano-4-hidroxicinámico como matriz de ionización depositando la mezcla muestra-matriz en doble capa de sembrado en la placa metálica. El modo de trayectoria de los iones fue lineal. El rango de detección fue de 500 a 6000 relación masa/carga (m/z). Los patrones para la digestión enzimática y el análisis espectrométrico fueron los estándares de suero de albumina bovino y el péptido Vapreotida, respectivamente. Los espectros obtenidos fueron preprocesados en el software Flexanalysis y analizados mediante aprendizaje automático en el Navegador Anaconda utilizando lenguaje Python trayendo modelos de aprendizaje no supervisado (análisis de componentes principales) y supervisado (maquina vector de soporte, regresión logística, bosques aleatorios y refuerzo de gradiente extremo) obteniendo algoritmos de aprendizaje en un 80 % de muestras de entrenamiento y métricas de evaluación como exactitud, precisión y sensibilidad en un conjunto de 20 % de prueba. También se analizaron matrices de confusión con el fin de categorizar los modelos por clases de casos y controles. Se encontró que el mejor modelo fue maquina vectores de soporte con una exactitud del 88 % de predictibilidad.
This paper presents the results of the research work performed during a 6-month internship, which was aimed at providing input for the diagnosis of preeclampsia using Mass Spectrometry techniques with Matrix-Assisted Laser Ionization-Desorption Laser Scanning coupled to Time-of-Flight analyzer and Machine Learning computational tools for data analysis.
Preeclampsia is a serious disease that can cause significant morbidity and mortality for both mother and baby if not treated or diagnosed in time. This disease also carries long-term risks to women's health such as increased risk of cardiovascular disease, among others in later stages of life. Given the potentially serious consequences of this condition, research on preeclampsia from a clinical and chemical perspective is essential to better understand its underlying mechanisms and identify risk factors. Therefore, in this work we set out to compare the proteomic profile of 164 blood serum samples from healthy and preeclampsia patients. The samples were digested with Trypsin for 18 hours at 37 degrees Celsius, using a preparative method known as three kilodalton (3 kDa) size exclusion filter-assisted sample preparation, collecting the protein fragments from the supernatant, which were dried under vacuum and analyzed by Matrix Assisted Laser Ionization-Desorption Mass Spectrometry coupled to a Time-of-Flight analyzer. The working conditions were statistically studied by a 3x3x2 mixed factorial design employing a 50 microliter (uL) re-suspension, 1:10 uL dilution and α-Cyano-4-hydroxycinnamic acid was used as ionization matrix by depositing the sample-matrix mixture in double seeding layer on the metal plate. The ion trajectory mode was linear. The detection range was 500 to 6000 mass-to-charge ratio (m/z). The standards for enzymatic digestion and spectrometric analysis were bovine albumin serum standards and Vapreotide peptide, respectively. The obtained spectra were preprocessed in Flexanalysis software and analyzed by machine learning in Anaconda Browser using Python language bringing unsupervised (principal component analysis) and supervised (support vector machine, logistic regression, random forests, and extreme gradient boosting) learning algorithms in 80 % of training samples and evaluation metrics such as accuracy, precision, and sensitivity in a 20 % test set. Confusion matrices were also analyzed to categorize the models by classes of cases and controls. The best model was found to be support vector machine with an accuracy of 88 % of predictability.