WooRank of recuperacioninformacion2011.blogspot.com

Recuperación de información

lunes, 7 de marzo de 2011

RECUPERACIÓN DE INFORMACIÓN Vs INTRODUCCIÓN A LA RECUPERACIÓN DE INFORMACIÓN

RECUPERACIÓN DE INFORMACIÓN
•La R.I se basa en la utilización de términos índice para indexar y recuperar documentos.
•Recuperar puede consistir en especificar un conjunto de términos que deben hallarse entre los índices de un documento, estableciendo un ranking de relevancia.
•El problema de la RI será, pues, la manera de predecir la relevancia de los documentos y su grado de relevancia (ranking)
RECUPERACIÓN DE INFORMACIÓN/ DATOS
•Recuperación de Datos ( Dataretrieval)
No resuelve el problema de la RI. Sólo devuelve datos sobre un tema. Es estructurado y nada ambiguo en cuanto a las consultas.
•Recuperación de Información (Information retrieval-RI)
SRI
•SRI: Sistema de información, generalmente automatizado, que tiene por finalidad exclusiva el almacenamiento, el procesamiento, la recuperación y la difusión de la información.
•Esta información podrá ser de todo tipo: texto, imágenes, audio, vídeo y otros objetos multimedia
•Sistema Automatizado: conjunto de componentes informáticos (tanto hardware como software).

EXTRACCIÓN DE INFORMACIÓN
La extracción de la información (IE en inglés Information Extraction) es la búsqueda manual o automática de palabras, párrafos o trozos de textos que contengan información relevante buscada y presentarla de forma estructurada.
TRANSFORMACIÓN DE LENGUAJES

•Es el proceso de estandarizar ó normalizar una consulta para que sea entendida por una maquina

Involucra transformar la necesidad de información.
TIPOS DE REPRESENTACIÓN DE LA INFORMACIÓN

LENGUAJE NATURAL HUMANO: el lenguaje que empleamos de forma cotidiana para comunicarnos.
–Ventajas:
•Es comprensible para un gran número de usuarios.
•Permite expresar cualquier concepto o significado.
•Es tolerante a fallos.
–Inconvenientes:
•Es muy poco conciso.
•Presenta muchas ambigüedades.
•Es difícilmente interpretable por parte de un computador

LENGUAJENATURAL RESTRINGIDO: Es un Subconjunto del lenguaje natural *(Términos Controlados) Lenguaje Controlado
–Las listas
–Los anillos de sinónimos
–Las taxonomías
–Los tesauros.
Ventajas

•Este lenguaje restringido es una parte del lenguaje natural limitando el vocabulario que se puede emplear y las reglas sintácticas que se pueden aplicar a dicho vocabulario.


INDIZACIÓN

Permite elaborar índices o estructuras de acceso a los documentos (representación alterna) a partir de las palabras (términos) que contienen.
Indexar un documento puede consistir en sustituir su contenido por un conjunto de términos índices que lo representan.

Estructura de Ficheros (Índices)

Los índices de estructura de datos de un SRI permiten realizar operaciones de búsqueda mediante técnicas que comparan o equiparan los enunciados que han utilizado los usuarios con los términos almacenados en los índices del sistema.

Estructura de Ficheros (Índices)

•Un SRI, puede determinar si usa ó no Índices
•Un archivo Invertido es un tipo de documento índice en cuya estructura de ítems encontraremos: palabra clave,Id-Doc,Id-Campo.
•Algunos sistemas incluyen información sobre la localización en el documento del párrafo y frase de los términos buscados


Archivos Invertidos

•Es un mecanismo orientado al término para indexar una colección.
•Se compone de:

Vocabulario (conjunto de palabras que aparecen en un texto).
Ocurrencias  (lista de las apariciones de cada palabra en el texto, una por cada palabra).
•Posiciones de palabras (facilitan las búsquedas de proximidad y de frases)
•Posiciones de caracteres (facilitan los accesos a las posiciones de los textos)

LA NECESIDAD DE INFORMACIÓN
•El proceso de satisfacer la necesidad de información concluye cuando se consigue una claridad suficiente.
•El problema es que no se sabe de antemano exactamente la cantidad de información que lleva a la consecución de claridad.

No hay comentarios:

Publicar un comentario