Algoritmo en línea eficiente para mejorar la precisión de consultas similares en un sistema de recuperación de la información

	Sobre el software DSpace

	Página de inicio

Listar
	Comunidades
	Fecha Publicación
	Autor
	Título
	Materia

Servicios
	Alertas
	Mi DSpace usuarios autorizados
	Editar perfil


	Sobre DSpace

Repositorio Digital - Sistema de Bibliotecas Universidad del Bio-Bio (SIBUBB) >
PUBLICACIONES DIGITALES >
MEMORIAS: Proyectos de Título de Pregrado >
Facultad de Ciencias Empresariales >
Ingeniería Civil en Informática >

Por favor, use este identificador para citar o enlazar este ítem: http://repobib.ubiobio.cl/jspui/handle/123456789/3190

Título :	Algoritmo en línea eficiente para mejorar la precisión de consultas similares en un sistema de recuperación de la información
Autor :	Gutiérrez Soto, Claudio Orlando Villa Saldías, Andrea Macarena -- andrea.villasaldias@gmail.com Mella Paredes, Gaspar Adolfo -- gasparm.paredes@gmail.com Universidad del Bío-Bío. Departamento de Sistemas de Información (Chile)
Palabras clave :	ALGORITMOS EN LINEA-USOS SISTEMAS DE ALMACENAMIENTO Y RECUPERACION DE INFORMACION ALGORISMO EN LINEA CONSULTAS PAGADAS SISTEMA DE RECUPERACION DE INFORMACION
Fecha de publicación :	2017
Resumen :	La recuperación de información (RI) es la búsqueda de material, generalmente documentos, de naturaleza no estructurada, usualmente texto, que satisface una necesidad de información desde una gran colección, generalmente almacenada en computadoras. Un sistema de recuperación de información (SRI) tiene como propósito representar y almacenar grandes cantidades de información. En un SRI común se pueden encontrar dos procesos principales: indexación y matching. El proceso de indexación corresponde a las representaciones y almacenamiento de documentos, que deben ser eficientes no sólo en el almacenamiento sino también en el acceso. El matching tiene la intención de estimar si un documento es relevante para responder una consulta realizada por un usuario. Esta coincidencia se suele representar a través de una puntuación. Cuando se aplica el proceso de similitud, un conjunto de documentos se devuelve al usuario como una lista clasificada por puntuación decreciente. Las mejoras en los SRI aparecieron a finales de los años 50. Las mejoras en la RI más importantes están relacionadas con la evaluación del SRI. La comunidad de la RI se ha beneficiado de la evaluación de las colecciones. Un ejemplo particular es proporcionado por las conferencias TREC (de las siglas en inglés, Text REtrieval Conferences), que organiza anualmente un taller. Estos talleres han ofrecido a los investigadores la oportunidad de medir la eficacia del sistema y comparar enfoques. Diferentes enfoques en la RI se ocupan de la indexación, las funciones de comparación, los modelos formales y la retroalimentación de relevancia. Sin embargo, pocos enfoques aprovechan las búsquedas realizadas previamente por los usuarios. Las búsquedas pasadas proporcionan una fuente de información que puede ser útil para los nuevos usuarios (nuevas consultas). Por ejemplo, un usuario que busque un tema nuevo podría beneficiarse de las búsquedas pasadas realizadas por usuarios anteriores sobre el mismo tema. Debido a la falta de colecciones adecuadas para la RI, hasta la fecha, existe un débil interés de la comunidad de la RI en el uso de los resultados de búsqueda anteriores. De hecho, la mayoría de las colecciones de la RI existentes se componen de consultas independientes. Estas colecciones no son apropiadas para evaluar enfoques enraizados en consultas anteriores porque no recogen información de consultas similares debido a la falta de juicios de relevancia. Por lo tanto, no hay una manera fácil de evaluar la conveniencia de estos enfoques. Además, la elaboración de estas colecciones es difícil debido al costo y tiempo necesarios. Por eso, una alternativa factible es simular tales colecciones. Los documentos relevantes de consultas anteriores similares podrían utilizarse para responder a una nueva consulta. Este principio podría ser útil mediante la agrupación de búsquedas anteriores según sus similitudes. Dos categorías principales de agrupación pueden ser fácilmente identificables: agrupación estática y agrupación posterior a la recuperación. Por un lado, el agrupamiento estático es la aplicación tradicional de este método en una colección de documentos. Por otro lado, la agrupación posterior a la recuperación incluye información de la consulta en el agrupamiento de documentos. Normalmente, para la agrupación estática se utiliza la función de similitud de distancia de coseno. Sin embargo, estas funciones no consideran el contexto específico bajo el cual se juzga la similitud de dos objetos. Por otro lado, hay aportes en el uso de técnicas y algoritmos probabilísticos con el objetivo de mejorar los resultados del proceso de recuperación. Dos tipos principales de investigación pueden ser fácilmente categorizados, técnicas de aprendizaje y optimización. Los enfoques basados en las técnicas de aprendizaje implican el uso de las Redes Bayesianas y sus variantes, mientras que las técnicas de optimización implican el uso de Algoritmos Genéticos. Las redes bayesianas proporcionan una representación de alto nivel, que es un modelo que representa el dominio del problema, esta representación se obtiene como resultado de un proceso de minería de datos, que podría ser complejo de adquirir en esfuerzo y tiempo. Por otra parte, los resultados aceptables de Algoritmos Genéticos requieren una función adecuada y una población inicial adecuada. Por lo tanto, una elección incorrecta de la función de aptitud así como la población inicial puede implicar altos recursos en tiempo computacional. En resumen, los recursos humanos y computacionales pueden llegar a ser altos en el tiempo. Por el contrario, las soluciones simples para implementar y representar pueden ser propuestas a través de algoritmos aleatorios. Finalmente, en este Proyecto de título se implementa y evalúa un marco para simular enfoques ad hoc basados en resultados de búsquedas pasadas. Así, se propone y se evalúa un algoritmo, denominado Algoritmo 2.1, para mejorar la precisión y tiempo de respuesta a nuevas consultas, contrastando los resultados con otro algoritmo, denominado Algoritmo 2.0.
Descripción :	Memoria (Ingeniero Civil en Informática) -- Universidad del Bío-Bío. Concepción, 2017.
URI :	http://repobib.ubiobio.cl/jspui/handle/123456789/3190
Aparece en las colecciones:	Ingeniería Civil en Informática

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Villa Saldías, Andrea Macarena.pdf		2,1 MB	Adobe PDF	Visualizar/Abrir

View Statistics