Resumen:
El presente trabajo analiza la búsqueda de patrones en secuencias ADN que evidencien
la presencia de regiones codificantes, con el fin de construir un modelo de predicción de
exones, aprovechando las características estadísticas y fractales presentes en el ADN y
medir la capacidad de dichas características en la clasificación de secuencias codificantes.
Es de vital importancia la identificación de componentes en las secuencias de ADN tales
como, regiones codificantes y no codificantes, regiones promotoras, regiones dadoras, entre
otras señales, con un alto nivel de confianza, ya que dichos componentes son la base de la
expresión genética, la cual permite por técnicas de comparación de genomas eucariotes
completar la información de las secuencias en las Base de Datos genómicas que aun no
están secuenciadas experimentalmente o inferir información de organismos no conocidos
con base en las predicciones realizadas. Pero el problema de predicción de secuencias
codificantes aún no se resuelve a un nivel satisfactorio y cabe aplicar otra clase de
enfoques, que ayuden a construir nuevos caminos de exploración en este tema.
Mediante Minería de Datos se aplica medidas estándar usadas en la predicción de genes
y medidas fractales utilizadas en teoría de la información y sistemas complejos, para
analizar patrones presentes en las secuencias de ADN con el fin discriminar secuencias
codificantes de no codificantes. Con los patrones encontrados se crea un modelo aplicando
técnicas de Aprendizaje de Máquina usadas en Minería de Datos para medir la efectividad
de clasificación de los patrones encontrados entre exones e intrones.
Los patrones encontrados por las medidas estadísticas tienen una efectividad promedio
del 70% de clasificación, las medidas fractales usadas en sistemas complejos tienen una
efectividad del 80% y las medidas aplicadas en la teoría de la información ofrecen
información importante acerca de los genomas estudiados pero no es lo suficientemente
especifica para obtener información de una secuencia de forma independiente. Empleando
sólo las medidas estadísticas como atributos del modelo de clasificación de exones se
obtuvo en promedio 79.8% de efectividad con árboles de decisión (AD), 78% con Redes
Bayesianas (BN) y 77.8% con Redes Neuronales (PM); usando sólo atributos fractales se
obtuvo 88% con AD, 86.3% con BN y 85% con PM; y la combinación de los dos tipos de
atributos se obtuvo un 91.8% con AD, 89% con BN y 89.4% de efectividad con PM.
Los resultados de esta investigación sugieren que las medidas fractales ofrecen un alto
porcentaje de efectividad de clasificación frente a las medidas estadísticas y en
combinación se obtiene un alto nivel de clasificación.
Este trabajo muestra que se deben seguir invirtiendo esfuerzos en la aplicación de
medidas fractales para la búsqueda de patrones o señales en las secuencias de ADN.
Extrapolar estas medidas en la búsqueda de otras señales en genes como regiones
promotoras, regiones terminadoras, entre otras y desarrollar herramientas bioinformáticas
para investigadores científicos.