20154cp2g8: Sistema de Recuperación

Recuperación de Información

El objetivo principal de la Recuperación de Información es satisfacer la necesidad de información planteada por un usuario en una consulta en lenguaje natural especificada a través de un conjunto de palabras claves, también llamadas descriptores. En general, este proceso hacia la recuperación de documentos relevantes a la consulta presentada, no es un proceso simple debido a la complejidad semántica del vocabulario.
La Recuperación de Información o Information Retrieval es la representación, almacenamiento, organización y acceso a ítems de información [Baeza et al., 1999]. Es un proceso mediante el cual se obtiene un conjunto de documentos que se adecuen a una demanda de información. La representación y organización de los ítems de información no son un problema simple de resolver, al igual que la caracterización de la necesidad de información del usuario tampoco lo es. Un ejemplo típico de un sistema de recuperación de información son los catálogos interactivos de las bibliotecas, donde una entrada del catálogo es ejemplo de un documento. Otro ejemplo es la web, donde cada página web representa un documento.
Un usuario puede desear recuperar un documento concreto o un conjunto de éstos. El usuario, debe traducir su necesidad de información en una consulta para luego ser procesada, en base a esta consulta, el objetivo primordial de un sistema de Recuperación de Información es recuperar información que sea útil o relevante para el usuario. Para la búsqueda, los usuarios suelen describir los documentos deseados mediante un conjunto de palabras claves. Por ejemplo, se puede utilizar la palabra clave “bases de datos relacionales” para buscar información sobre este tema.
Los documentos tienen un conjunto de palabras claves asociado. Los sistemas de recuperación de información recuperan aquellos documentos cuyos conjuntos de palabras claves contengan las proporcionadas por el usuario.
Entonces, un sistema de Recuperación de Información debe, de alguna manera, interpretar el contenido de los elementos de información o documentos de la colección y ordenarlos de acuerdo con el grado de relevancia para la consulta del usuario. La dificultad no está solo en conocer como extraer esta información sino también cómo utilizarla para decidir la relevancia de cada documento.
Según [Baeza et al., 1999], el modelo de Recuperación de Información se caracteriza formalmente como una cuádrupla ( D , Q , F , R ) donde D es una representación de la colección de documentos; Q es una representación de la información que necesita el usuario (consulta); F es el entorno de trabajo para modelar la colección de documentos, las consultas y las relaciones que hay entre ellos; y R(qi , dj) es una función que devuelve un número real que permite asociar la consulta qi (qi pertenece a Q) y la representación de la colección de documentos dj (dj pertenece a D).

Recuperación de Información versus Recuperación de Datos

La meta principal de un sistema de Recuperación de Información es recuperar información que podría ser útil o importante para el usuario, y no sólo datos que satisfagan una consulta dada.
Un sistema de recuperación de datos, tal como una base de datos relacional, trata con datos que tienen una estructura y una semántica bien definidas. Un sistema de recuperación de datos permite recuperar todos los objetos que satisfacen las condiciones especificadas en una expresión regular o en una expresión del álgebra relacional. Por ejemplo, si se consulta por la palabra “cáncer” un sistema de recuperación de este tipo recuperará solamente aquellos objetos que contengan exactamente dicha palabra. Entonces, un sistema de recuperación de datos sólo recupera los datos que coinciden exactamente con el patrón ingresado por el usuario.
Un sistema de recuperación de información recupera datos relevantes que hagan la mejor coincidencia parcial con el patrón dado. Esto se debe a que la recuperación de información generalmente trata con texto en lenguaje natural, el cual no está siempre bien estructurado y podría ser semánticamente ambiguo. Por ejemplo, si se realiza una consulta por el término “cáncer” en un sistema de recuperación de información, además de obtener como resultado los documentos que contengan este término, se debería obtener también los documentos en que aparezca ”neoplasma”, ”carcinoma”, “cancerígeno”, etc..
[Blair, 1990: 2-4] clasifica las diferencias entre recuperación de datos (data retrieval) y recuperación de información (information retrieval) de la forma siguiente:

Componentes de un Sistema de Recuperación de Información

En la figura siguiente se grafican los componentes de un sistema de recuperación de información.

http://etherpad.proyectolatin.org/up/7f12f367b670b940fbaa6c7986d903ce.JPG

Se posee una colección o cuerpo de documentos. El sistema de recuperación de información (Sistema de IR en la figura) trabaja con estos documentos realizando operaciones sobre los textos, tales como remoción de palabras no significativas y stemming; para construir un índice invertido (o archivo invertido) de palabras con punteros a los documentos. Este tema se amplía en el Apartado 6.

Una Interface de usuario maneja la interacción con el usuario permitiéndole el ingreso de la consulta (query), y la visualización de los resultados. El Sistema de Recuperación de Información realiza operaciones de transformación de la query para mejorar la recuperación, por ejemplo, la expansión de la consulta utilizando recursos lingüísticos o usando feedback de relevancia. Así, el sistema recupera los documentos que contienen los términos que están en el índice invertido. Este tema se amplía en el Apartado 5.
El resultado se muestra al usuario con un orden (ranking) de todos los documentos recuperados de acuerdo a una métrica de relevancia. Este tema se amplía en el Apartado 4.
Por lo recién descripto, existe un conjunto de tareas involucradas en los sistemas de recuperación de información que permiten cumplir con el objetivo de estos sistemas. Estas tareas son: la categorización (automática) de documentos para poder clasificarlos; el filtrado de información que permite descartar la información no relevante; el clustering automático de documentos para poder generar grupos de documentos afines; la extracción de información; y la integración de información.
De aquí, se advierte la existencia de varias áreas relacionadas con la recuperación de información. A continuación se describe brevemente la incumbencia de cada área relacionada en los aportes que brinda a la Recuperación de Información.

Areas relacionadas con la Recuperación de Información

La primer área de interés es el gestionamiento de Bases de Datos (Database Management) que se enfoca en los datos estructurados almacenados en tablas relacionales más que en texto sin formato; y se focaliza en el procesamiento eficiente de consultas bien-definidas en un lenguaje formal (SQL). También tiene una semántica clara para los datos y las consultas. Recientemente se ha volcado a los datos semi-estructurados (XML) y esto lo ha llevado más cerca de la Recuperación de Información.
El área de las Ciencias de la Información (Library and Information Science) se focaliza en los aspectos del usuario humano de la Recuperación de Información, entre los que se destacan la interacción humano-computadora, la interface de usuario, la visualización. Esta área se enfoca en la preparación de una estrategia de búsqueda. Los temas concernientes a esta área son el análisis de citación y la bibliometría. Los trabajos recientes sobre bibliotecas digitales acercan a esta área a las áreas de Ciencias de la Computación y de Recuperación de Información.
La Inteligencia Artificial (Artificial Intelligence) se focaliza en la representación del conocimiento, razonamiento y acción inteligente. Utiliza formalismos para representar el conocimiento y las consultas; por ejemplo la lógica de predicados de primer orden. El trabajo reciente en ontologías de la web y agentes de información inteligentes la lleva más cerca de la Recuperación de Información.
El Procesamiento de Lenguaje Natural (Natural Language Processing) se focaliza en el análisis sintáctico y semántico de texto en lenguaje natural. La habilidad para analizar sintaxis (esto es la estructura de la frase) y semántica (esto es significado de la frase) podría permitir la recuperación basada en significado más que enkeywords. Esta área desarrolla métodos para determinar el sentido de una palabra ambigua basada en su contexto (WSD - word sense disambiguation), y desarrolla métodos para identificar piezas específicas de información en un documento (esto es: colabora con la tarea de extracción de información).
El Machine Learning se focaliza en el desarrollo de sistemas computacionales que mejoren su performance con la experiencia. Permite realizar la clasificación automática de documentos basada en conceptos aprendidos a partir de ejemplos etiquetados de entrenamiento. Colabora en la categorización de texto (Text Categorization) utilizada, por ejemplo, por Yahoo para realizar la clasificación automática de jerarquías; y en el agrupamientode texto (Text Clustering), para el agrupamiento de resultados de una consulta de la Recuperación de Información. Otra actividad que facilita es el minado de textos (Text Mining).

Recuperación de Información en la Web

Los motores de búsqueda recolectan páginas de la web, las indexan, buscan en los índices las palabras claves ingresadas en la consulta, utilizan algoritmos de ranking para ordenar los resultados y muestran al usuario los documentos resultantes.
Una página web corresponde a un documento en la recuperación de información tradicional. La recuperación de información en la web considera como una colección de documentos la parte de la web que está públicamente indexada, excluyendo las páginas que no puedan ser indexadas por ser muy dinámicas o por ser privadas.
Los motores de búsqueda están potenciados por técnicas de recuperación de información. Algunos ejemplos de estos motores de búsqueda son: Google (www.google.com), Yahoo! (www.yahoo.com), Bing (www.bing.com), entre otros.
Uno de los problemas que surgen con los motores de búsqueda de la web es que los usuarios no tienen el tiempo y el conocimiento para seleccionar el o los motores más adecuados para su necesidad de información. Una solución posible a esto son los motores de meta búsqueda, tal como MetaCrawler (www.metacrawler.com), que son servidores web que envían la consulta a varios motores de búsqueda; recopilan estos resultados y los unifican, uniéndolos y presentándoselos a los usuarios.

20154cp2g8

lunes, 19 de octubre de 2015

Sistema de Recuperación

Recuperación de Información

Recuperación de Información versus Recuperación de Datos

Componentes de un Sistema de Recuperación de Información

Areas relacionadas con la Recuperación de Información

Recuperación de Información en la Web

No hay comentarios:

Publicar un comentario

Archivo del blog