El aguacate se ha convertido en uno de los cultivos más importantes de
Latinoamérica, desempeñando un papel crucial en la economía y la agricultura de la
región. Su versatilidad culinaria, alto contenido nutricional y demanda creciente en
los mercados internacionales han impulsado su producción y comercialización en
países como Colombia. El cultivo de aguacate se ve afectado directamente por
factores meteorológicos cuya alta variabilidad dificulta la predicción de las
condiciones futuras del cultivo y por lo tanto la producción del mismo. En este
sentido, es necesario proponer herramientas que faciliten una estimación precisa
de la producción del cultivo de aguacate. Por ello, en este estudio se implementan
una serie de algoritmos de aprendizaje automático para estimar la producción de
aguacate a partir de datos meteorológicos y la fenología del cultivo.
Inicialmente, se realizó una revisión sistemática de literatura bajo la metodología de
Kitchenham para identificar elementos considerados en otros estudios dirigidos a la
estimación de la producción de aguacate y otros tipos de cultivos. También, se
implementó la metodología CRISP-DM para realizar el proceso de minería de datos,
que permitió el entendimiento y la construcción de conjuntos de datos óptimos para
ser modelados con algoritmos de aprendizaje automático, como la regresión de
bosques aleatorios, máquinas de vectores de soporte, redes neuronales artificiales y
regresiones lineales. Para la evaluación de los modelos se emplearon las métricas
RMSE, R² y MAE bajo un método de validación cruzada de k iteraciones.
El estudio reveló que la altitud y el comportamiento fenológico del cultivo son
factores clave para la estimación de la producción de aguacate. Se encontró que el
algoritmo de bosques aleatorios fue la solución óptima, ya que ofreció un equilibrio
entre rendimiento y explicabilidad.
Este trabajo contribuye al campo de la agricultura al abordar las brechas en la
investigación de la producción de aguacate y al proponer posibles áreas de mejora
para estudios futuros, como el uso de fuentes de datos más precisas y la
exploración de técnicas de aprendizaje profundo para mejorar la estimación de la
producción de aguacate.
Avocado has become one of the most important crops in Latin America, playing a
crucial role in the region's economy and agriculture. Its culinary versatility, high
nutritional content and growing demand in international markets have boosted its
production and marketing in countries such as Colombia. Avocado cultivation is
directly affected by meteorological factors whose high variability makes it difficult to
predict future crop conditions and therefore its production. In this sense, it is
necessary to propose tools that facilitate an accurate estimation of avocado crop
production. Therefore, in this study a series of machine learning algorithms are
implemented to estimate avocado production from meteorological data and crop
phenology.
Initially, a systematic review of the literature was carried out using the Kitchenham
methodology in order to identify elements considered in other studies aimed at
estimating the production of avocado and other types of crops. Also, the CRISP-DM
methodology was implemented to carry out the data mining process, which allowed
the understanding and construction of optimal data sets to be modeled with machine
learning algorithms, such as random forest regression, support vector machines,
artificial neural networks and linear regressions. To evaluate the models, the RMSE,
R² and MAE metrics were used under a k-iteration cross-validation method.
The study revealed that altitude and phenological behavior of the crop are key
factors for estimating avocado production. The random forest algorithm was found to
be the optimal solution as it offered a balance between performance and
explainability.
This work contributes to the field of agriculture by addressing gaps in avocado
production research and proposing possible areas of improvement for future studies,
such as using more accurate data sources and exploring deep learning techniques
to improve the estimation of avocado production.