Este proyecto de investigación se enfoca en el campo de recuperación de información en la Web. Presenta un modelo de meta buscador Web que integra el filtrado colaborativo (basado en ítems) a la propuesta [1] de Massimo Melucci fundamentada en proyectores sobre planos que se originan en la información del contexto del usuario.
El modelo obtenido fue implementado en una aplicación Web, denominada MyBestMetaWebSearch, que usa una arquitectura multi-capa basada en Servicios Web XML que permite re-ordenar y filtrar los resultados entregados por los buscadores tradicionales Google, y Bing como fuente inicial de la búsqueda. Esta aplicación Web contempla los siguientes pasos generales: (1) Registrarse e ingresar al sistema, (2) ingresar la consulta basado en palabras clave, (3) pre-procesar la consulta, (4) expandir la consulta, (5) recuperar los documentos de los buscadores tradicionales, (6) filtrar la Información, (7) visualizar y calificar resultados y (8) Modificar información del contexto e información de feedback para la comunidad. Finalmente se presenta el proceso de evaluación del modelo propuesto con medidas clásicas del área de la recuperación de la información, satisfacción del usuario y relevancia, para lo cual se usó en primera instancia una colección cerrada de textos denominada CACM, posteriormente se calculó la Curva de Precision-Recuerdo, Mean Average Precision (MAP), Precisión en K resultados ordenados y el estadístico Kappa, y se compararon los resultados con los entregados originalmente por los buscadores tradicionales donde se muestra que en algunas ocasiones son mejores que los entregados por los buscadores Web tradicionales más usados hoy en día, Google y Bing, aunque dicha mejora no es significativa.
This research project focuses on the field of information retrieval on the Web. A model of a meta search Web engine that integrates collaborative filtering (based on items) is proposed. It builds on the Massimo Melucci’s proposal [1] based on projectors on planes that originate from the user context information in order to provide more relevant results to users.
The obtained model was implemented in a Web application called MyBestMetaWebSearch, which uses a multi-layered architecture based on XML Web Services that allows re-sort and filter the results delivered by traditional search engines Google, Yahoo! and Bing as an initial source searching. This Web application provides the following general steps: 1) Registering and logging in, 2) entering the query based on keywords, 3) pre-processing the query, (4) query expansion, (5) retrieving documents traditional search engines, (6) filtering the information, (7) visualizing and describing results and (8) Modifying background information and feedback information to the community. Finally, the evaluation of the proposed model with classical measures in the area of information retrieval, user satisfaction and relevance were presented. For this, a closed collection of texts called CACM was used primarily. Then, the Precision-recall curve, Mean Average Precision (MAP), precision at K and Kappa statistic were calculated. The results were compared with those originally delivered by traditional search engines (Google, Yahoo! and/or Bing) which shows that results reported by the model are slightly more relevant than those reported by the compared systems.