La definición de la estructura nativa de la proteína a partir de su cadena de aminoácidos es una de los problemas más importantes y desafiantes de la bioinformática, debido a la gran variedad de aplicaciones y nuevos descubrimientos que su solución podría traer. Dada la complejidad de este problema se han intentado buscar soluciones desde diferentes enfoques siendo los computacionales uno de los más utilizados. Los avances actuales de los modelos de predicción de la estructura de las proteínas se han dado gracias al esfuerzo de resolver en primera instancia problemas intermedios de predicción, que aporten a la obtención de estructuras terciarias más precisas. La predicción de mapas de contacto como etapa de predicción intermedia utiliza la definición de contactos entre residuos para generar una representación bidimensional de la estructura de la proteína, que puede ser utilizada para definir el plegamiento tridimensional de la proteína. Si bien han existido avances significativos en los modelos de predicción de mapas de contacto los resultados obtenidos aún no han sido los suficientemente sólidos para ser utilizados en aplicaciones reales. En este proyecto de investigación se realiza un estudio comparativo de técnicas de reducción de dimensión, en donde se observa que el mapeo de las características de entrada a un espacio más compacto (menor número de características) mejora de manera estadísticamente significativa la detección de contactos reales de la proteína en la mayoría de rangos considerados. Esto teniendo en cuenta que la integración de dichos métodos se da con la implementación de un predictor de mapas de contacto que hace uso de una arquitectura presente en el estado del arte actual (basado en aprendizaje profundo).
The definition of protein native structure from its amino acid chain information is one of the most challenging and important problems in bioinformatics, due to the great variety of applications and new discoveries that the solution of this issue would bring. It is because the complexity of this problem that different approaches have been tested included the computational ones, which are being widely used due to high storage and processing capabilities of current computer machines. One of the reasons new computational models advances on protein structure prediction are caused because they are focused on solve intermediate prediction problems that contribute to obtain more accurate tertiary structures. Contact map prediction as an intermediate prediction step uses the definition of contacts between residues to generate a two-dimensional representation of the protein structure that can be used for three-dimensional protein folding definition. Although there have been significant advances in contact map prediction models, the results obtained have not been solid enough yet to be used in real applications. In this research project a comparative study of dimensionality reduction techniques is performed, where it has been observed that the mapping of input features to a more compact space (a smaller number of features) generates statistically significantly improves in the detection of real protein contacts in most of the considered ranges. This taking into account that the integration of these methods is given with the implementation of a contact map predictor that makes use of an architecture present in the current state of the art (based on deep learning).