Backgrounds: The increase in the amount of structured data published using the
principles of Linked Data, means that now it is more likely to find resources
in the Web of Data that describe real life concepts. However, discovering
resources related to any given resource is still an open research area. This
thesis studies Recommender Systems (RS) that use Linked Data as a source for
generating recommendations exploiting the large amount of available resources
and the relationships among them.
Aims: The main objective of this study was to propose a recommendation technique
for resources considering semantic relationships between concepts from
Linked Data. The specific objectives were: (i) Define semantic relationships
derived from resources taking into account the knowledge found in Linked Data
datasets. (ii) Determine semantic similarity measures based on the semantic
relationships derived from resources. (iii) Propose an algorithm to dynamically
generate automatic rankings of resources according to defined similarity
measures.
Methodology: It was based on the recommendations of the Project management
Institute and the Integral Model for Engineering Professionals (Universidad
del Cauca). The first one for managing the project, and the second one for
developing the experimental prototype. Accordingly, the main phases were:
(i) Conceptual base generation for identifying the main problems, objectives
and the project scope. A Systematic Literature Review was conducted for
this phase, which highlighted the relationships and similarity measures among
resources in Linked Data, and the main issues, features, and types of RS based
on Linked Data. (ii) Solution development is about designing and developing
the experimental prototype for testing the algorithms studied in this thesis.
Results: The main results obtained were: (i) The first Systematic Literature Review
on RS based on Linked Data. (ii) A framework to execute and analyze
recommendation algorithms based on Linked Data. (iii) A dynamic
algorithm for resource recommendation based on on the knowledge of Linked
Data relationships. (iv) A comparative study of algorithms for RS based on Linked Data. (v) Two implementations of the proposed framework. One with
graph-based algorithms and other with machine learning algorithms. (vi) The
application of the framework to various scenarios to demonstrate its feasibility
within the context of real applications.
Conclusions: (i) The proposed framework demonstrated to be useful for developing
and evaluating different configurations of algorithms to create novel RS
based on Linked Data suitable to users’ requirements, applications, domains
and contexts. (ii) The layered architecture of the proposed framework is also
useful towards the reproducibility of the results for the research community.
(iii) Linked data based RS are useful to present explanations of the recommendations,
because of the graph structure of the datasets. (iv) Graph-based algorithms
take advantage of intrinsic relationships among resources from Linked
Data. Nevertheless, their execution time is still an open issue. Machine Learning
algorithms are also suitable, they provide functions useful to deal with large
amounts of data, so they can help to improve the performance (execution time)
of the RS. However most of them need a training phase that require to know
a priory the application domain in order to obtain reliable results. (v) A logical
evolution of RS based on Linked Data is the combination of graph-based
with machine learning algorithms to obtain accurate results while keeping low
execution times. However, research and experimentation is still needed to explore
more techniques from the vast amount of machine learning algorithms
to determine the most suitable ones to deal with Linked Data.
Antecedentes: El incremento en la cantidad de datos estructurados, que se encuentran
publicados bajo los principios de los datos enlazados (Linked Data),
demuestra que ahora es más fácil encontrar recursos que describan conceptos
de la vida real en la Web de los datos. Sin embargo, descubrir recursos relacionados
con un recurso determinado es aún un área abierta de investigación.
Esta tesis, estudia los sistemas de recomendación (RS) que utilizan los datos
enlazados como fuente para generar recomendaciones explotando la gran
cantidad de recursos disponibles y las relaciones entre ellos.
Objetivos: El objetivo principal de este estudio fue proponer una técnica de recomendación
que tenga en cuenta las relaciones semánticas entre conceptos de
los datos enlazados (Linked Data). Los objetivos específicos fueron: (i) Definir
relaciones semánticas derivadas de los recursos teniendo en cuenta el conocimiento
encontrado en los conjuntos de datos de Linked Data. (ii) Determinar
las medidas de similitud semánticas derivadas de esos recursos. (iii) Proponer
un algoritmo para generar dinamicamente y automaticamente rankings de
recursos de acuerdo con las relaciones de similitud definidas.
Metodología: la metodología estuvo orientada por las recomendaciones del PMI
(Project Management Institute) y el Modelo Integral para un Profesional en
Ingeniería de la Universidad del Cauca. El primero para gestionar el proyecto,
y el segundo para desarrollar el prototipo experimental. De esta manera las
principales fases fueron: (i) Generación de la base conceptual para identificar
los problemas principales, objetivos, y los alcances del proyectos. Con este
fin, una revisión sistemática de la literatura fue realizada, la cual permitió
determinar as relaciones y medidas de similitud entre recursos de Linked Data,
así como los principales problemas, características y tipos de RS basados en
los datos enlazados. (ii) Desarrollo de la solución en la cual fue diseñado y
desarrollado el prototipo experimental para probar los algoritmos estudiados
en esta tesis.
Resultados: Los principales resultados fueron: (i) La primera revisión sistemática
acerca de RS basados en los datos enlazados. (ii) Un entorno para ejecutar y analizar algoritmos de recomendación basados en los datos enlazados. (iii) Un
algoritmo dinámico para la recomendación de recursos basada en el conocimiento
de las relaciones entre datos enlazados. (iv) Un estudio comparativo de
los algoritmos para RS basados en los datos enlazados. (v) Dos implementaciones
del entorno propuesto. Una con algoritmos basados en grafos y la otra con
algoritmos de aprendizaje supervisado. (vi) La aplicación del entorno a varios
escenarios para demostrar su factibilidad dentro del contexto de aplicaciones
reales.
Conclusiones: (i) El entorno propuesto demostró su utilidad para desarrollar y
evaluar diferentes configuraciones de algoritmos para crear RS novedosos basados
en los datos enlazados adaptados a los requerimientos de los usuarios,
aplicaciones, dominios y contextos. (ii) La arquitectura en capas del entorno
propuesto es también útil para permitir que los resultados puedan ser reproducibles
para la comunidad científica. (iii) Los RS basados en los datos enlazados
son útiles para presentar explicaciones de las recomendaciones debido a la estructura
de grafo que tienen los conjuntos de datos. (iv) Los algoritmos basados
en grafos toman ventaja de las relaciones intrínsecas entre recursos de los datos
enlazados. No obstante sus tiempos de ejecución son aún tema de investigación.
Los algoritmos de aprendizaje supervisado también son adecuados, ellos
proveen funciones útiles para tratar con grandes cantidades de datos, por lo
tanto pueden ayudar a mejorar el rendimiento (tiempo de ejecución) de los RS.
Sin embargo, ellos necesitan una fase de entrenamiento que requiere conocer a
priori el dominio de aplicación para obtener resultados confiables. (v) Una evolución
lógica de los RS basados en LD es la combinación de algoritmos basados
en grafos y los de aprendizaje supervisado para obtener resultados confiables
mientras mantienen bajos tiempos de ejecución. Sin embargo, aún es necesario
llevar a cabo experimentación e investigación para explorar más técnicas de
la gran cantidad de algoritmos de aprendizaje supervisado y determinar los
más aptos para tratar con los datos enlazados aplicados a la recomendación
de recursos.