En esta investigación se desarrollaron e implementaron dos modelos de redes neuronales, un modelo 1, de una sola entrada, la sombra y un modelo 2, con dos entradas la figura y sombra. Estos se evaluaron en 600, 800, 1,000, épocas respectivamente, enfocados en estimar la altura de objetos dentro de una imagen 2D a partir de su sombra. En su desarrollo se utilizaron técnicas de aumento de datos y regularización, para prevenir el sobreajuste y mantener la complejidad del modelo. Estos se diseñaron para predecir alturas dentro de un rango específico (1 a 10 cm) donde ambos modelos tienen un equilibrio entre precisión y capacidad de generalización y tolerancia al error (0,02) en las predicciones. Para ello, se construyó un conjunto de datos con imágenes fotográficas de formas u objetos, así como sus sombras proyectadas desde diferentes ángulos y ubicaciones. La estructura del conjunto de datos está conformada por el nombre de la forma, el nombre de la sombra, la longitud de la sombra, la altura de la forma y el ángulo de la fuente de luz. En este sentido, la investigación se centra en el análisis de la luz y sombras, en diferentes formas geométricas u objetos dentro de una imagen 2D, donde la sombra proyectada es la información a utilizar y con la que se busca determinar la altura de las formas u objetos. El motivo principal de esta investigación está orientado a que, en un futuro, personas que presentan discapacidad visual ya sea total o parcial, puedan mediante un mecanismo táctil, definir o diferenciar un objeto, que ha sido recreado de forma tridimensional a partir de una imagen 2D (fotografía o pintura). Por ello, es fundamental que a partir de una imagen 2D se resalten los objetos a representar en una maqueta 2.5D, donde la altura de los objetos seleccionados será la clave para crear la maqueta. En este sentido, en este documento se presenta un modelo que permite determinar la altura de objetos predefinidos en una imagen bidimensional a partir de su sombra. Se obtuvo un dataset que incluye imágenes fotográficas de formas u objetos con sus sombras proyectadas, un dataframe con la información del conjunto de datos. En los dos modelos (1 y 2) la combinación de las características visuales (figura y sombra) con el dataframe, mejoró notablemente las predicciones en los dos modelos, lo que potencialmente corrige ambigüedades al momento de interpretar la forma de un objeto. A partir de los resultados se realizó una evaluación integral de los dos mismos, que sobresalen por su equilibrio entre precisión y generalización. Estos se analizaron con diferentes métricas de evaluación como MAE, MSE, R², y correlación de Pearson (𝑟) entre otras.
In this research, two neural network models were developed and implemented, a model 1, with a single input, the shadow, and a model 2, with two inputs, the figure and shadow. These were evaluated at 600, 800, 1,000, epochs respectively, focused on estimating the height of objects within a 2D image from their shadow. Data augmentation and regularization techniques were used in their development to prevent over-fitting and maintain model complexity. These were designed to predict heights within a specific range (1 to 10 cm) where both models have a balance between accuracy and generalization capacity and tolerance to error (0.02) in the predictions. For this purpose, a dataset was constructed with photographic images of shapes or objects, as well as their shadows projected from different angles and locations. The structure of the dataset consists of the name of the shape, the name of the shadow, the length of the shadow, the height of the shape and the angle of the light source. In this sense, the research focuses on the analysis of light and shadows, in different geometric shapes or objects within a 2D image, where the projected shadow is the information to be used and with which we seek to determine the height of the shapes or objects. The main reason for this research is oriented to the possibility that, in the future, people with visual impairment, either total or partial, may use a tactile mechanism to define or differentiate an object, which has been recreated in three-dimensional form from a 2D image (photograph or painting). Therefore, it is essential that from a 2D image the objects to be represented in a 2.5D model are highlighted, where the height of the selected objects will be the key to create the model. In this sense, this paper presents a model that allows to determine the height of predefined objects in a two-dimensional image from their shadow. A dataset was obtained that includes photographic images of shapes or objects with their projected shadows, a DataFrame with the information of the dataset. In the two models (1 and 2) the combination of the visual characteristics (figure and shadow) with the DataFrame, significantly improved the predictions in the two models, which potentially corrects ambiguities when interpreting the shape of an object. Based on the results, a comprehensive evaluation of the two models, which stand out for their balance between accuracy and generalization, was performed. These were analyzed with different evaluation metrics such as MAE, MSE, R², and Pearson's correlation (r) among others.