Almacenamiento y recuperación de información

Page 1

Unidad II Enfoques contemporáneos de los sistemas de recuperación Técnico: se requiere Conductual: se refiere a todos los trastornos, oposiciones, conductas que la gente va a tomar hacia los sistemas de información o cambio en los mismos. Socio técnico: que se refiere a una manera de equilibrio entre todas las partes involucradas en el sistema, dándole importancia a la institución pero también al individuo.

Sistemas de información en dos partes •

Sistemas de acceso a bases de datos. •

se limita a traducir la solicitud de usuarios, a un lenguaje ADECUADO PARA EL Sistema de Gestión de Base de Datos (SGBD) (módulo encargado de mantener y proteger los datos almacenados), enviarle la consulta, recoger la información devuelta por el SGBD, y presentarla en algún formato adecuado.

Sistemas de recuperación de información. •

No sólo es capaz de acceder a la información almacenando previamente a las bases de datos (BD) sino que puede aplicar distintas funciones sobre los datos recuperados, como parte del proceso de la solicitud qie ha sido realizada por el usuario.

Objetivo de un SRI: resolver la consulta del usuario. Se busca facilitar la interacción efectiva del usuario con los objetivos apropiados de información (elementos de la fuente de conocimiento). Pasos: •

Presentar el problema de necesidad de información del usuario (consulta)

Presentar y organizar el contenido de la fuente de conocimiento

Comprar la consulta con los componentes del contenido

Presentar los resultados al usuario para que interactué


¿Qué es Recuperación de Información? Es la disciplina encargada de la representación almacenamiento y organización de la información, y su posterior acceso y recuperación para responder a las necesidades de un usuario (Salto).

Similitud es el concepto básico en R.I. •

Los documentos utilicen vocabulario similar porque tienden a ser relevante.

En la representación del contenido de los documentos mediante términos o palabras clave (indexación).

En la descripción de la necesidad de información por parte de usuario (expresada mediante una consulta).

Similitud puede medirse de múltiples formas: •

Comparación de cadenas

Uso del mismo vocabulario

Probabilidad de que el documento provenga de un modelo

Igual significado de texto

RI VS bases de datos Datos

Estructurados

No estructurados

Campos

Semántica

No hay campos (solo texto)

Consultas

Definida (SGML, algebra, Testo libre (lenguaje etc.) natural, booleano)

Recuperación

Crítica (control concurrencias, etc.)

Comparación

Exacta

de Minimizar Imprecisa


¿Qué es un sistema de recuperación de información? Es el software que implementa un modelo de recuperación de información.

Operaciones básicas que debe soportar un SRI •

Introducción

Modificación

Almacenamiento y

Eliminación de documentos, debe también contar con un método de localización de los documentos para presentarlos posteriormente.

Modelos de R. I. Es la especificación sobre cómo representar documentos consulta, y como comparar unos de otros.

CLASIFICACIÓN DE LOS SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN

Modelo conceptual

Estructura de consulta

Operaciones de consulta

Operaciones sobre términos

Operaciones sobre documentos

Booleano

Fichero plano

Reutilización

Stemming

Visualización de documentos

Booleano extendido

Fichero inverso

Parsing

Ponderación por pesos

Rango

Probabilística

Patrones de bits

Booleanas

Listas de palabras vacías

Ordenación

Búsqueda por cadenas

Árbol PAT

Clustering

TRUNCAMIENTO

Enmascaramiento


Espacio vectorial

Grafos

Indización

Asignación Ids.

Base de datos documental Es un conjunto de datos, de naturaleza tradicionalmente textual, aunque la evolución tecnológica ha proporcionado la aparición de documentos multimedia, incorporándose al texto fotográfico, ilustraciones gráficas, videos animados, audio, etc. El subsistema de consulta: está compuesto por la interfaz que permite al usuario formular sus consultas y por un analizador sintáctico que toma la consulta escrita por el usuario y la desglosa en sus partes integrantes. El mecanismo de emparejamiento y evaluación: tenemos una representación del contenido de los documentos en nuestra base documental y también una representación de las consultas que queremos.

El subsistema de evaluación Es el encargado en resolver la selección de los documentos que se consideran relevantes, de entre los documentos que se forman la base documental, de acuerdo con los criterios de nuestra consulta.

Definiciones según modelo conceptual •

Es la forma lógica en que está organizada la información.

Modelo booleano •

Modelo clásico basado en la teoría de conjuntos y el álgebra de Boole.

Es el modelo más simple.

Los documentos se representan por conjuntos de términos contenidos en ellos.

Las consultas se expresan como expresiones booleanas con la semántica clara.

Adoptado por muchos de los SRI.


Booleano extendido •

Fue introducida en 1983 por Salton, Fox.

Se basa en la idea de que la relevancia de un documento para una consulta con un único término dependerá del peso del término en el documento.

Sin embargo cuando se utilizan expresiones booleanas en la consulta, es necesario calcular la relevancia atendiendo a los pesos de distintos términos.

Booleano extendido: sobre este modelo se han desarrollado extensiones del booleano puro. Probabilística: son agrupamientos por medio del uso de estos modelos es posible asignar una probabilidad a un documento dentro de un conjunto de documentos recuperados para ser ordenados por este y según un cierto orden de importancia. Se utiliza normalmente el modelo de independencia de términos binarios de: •

Esto en pocas palabras es contestado una pregunta •

P(rel)=n/N

Búsquedas por cadenas: son por parte de texto según por medio o por cadenas de caracteres. Espacio vectorial: es la distribución de frecuencias de un término y se usa dentro del contexto de algunos modelos estadísticos. •

Ejemplo de modelo de recuperación vectorial o

Asignando pesos no binarios a los términos de preguntas y de los documentos

o

Es la construcción de una Matriz (tabla) de términos y documentos donde Té=(1,2,3) Hay=(1,2)

Estructura de ficheros


Es una decisión fundamental al tomar durante el diseño de los sistemas de recuperación de información es que tipo de estructura de fichero pertenece. •

Fichero plano: es cuando uno o más documentos son almacenados en un fichero esto se realiza por patrones de texto.

Fichero inverso: es un tipo de fichero índice donde en la estructura de cada (ítem) generalmente palabra clave. Es único para cada documento.

Fichero de patrones de bits: contiene líneas de dígitos de 0 y 1 que representan los caracteres, existen varias formas de construir estos patrones de bits y un método común se dividen en bloque lógicos el contenido de cada uno de ellos.

La búsqueda se realiza mediante la comparación que se establece entre los patrones de bit de las interrogantes con los patrones de bits de los documentos de la base de datos. •

Grafos: son colecciones ordenadas de nuevos conectores por arcos se usan para recuperar documentos de diversas formas. Ejemplo:

RED SEMANTICA: ya que representan las relaciones semánticas que establece con el texto. •

1. Es un conjunto de Nodos y Arcos

2. Es una representación gráfica del conocimiento.

3. Es una representación gráfica del conocimiento pero por jerarquías.

Árbol PAT Es una estructura de datos que almacena un conjunto de strings. Permite encontrar un string dentro del conjunto en tiempo proporcional a lo largo del string.

Operación sobre consulta

Parsing: es definido como un programa que analiza una porción de texto para determinar su estructura lógica: la fase de parsing en un compilador toma el texto de un program,a y produce un árbol sintáctico que representa la estructura del programa.


Reutilización (feedback): consiste en la reutilización de una búsqueda anterior, ente efectuado. Así los términos de documentos relevantes encontrado en una consulta previa pueden añadirse a la consulta actual.

Clustering: es la agrupación de documentos similares en el espacio documental.

Booleano: estas deben ser divididas en sus correspondiente términos de indización o palabras claves y los operadores asociados a ellas para formular la expresión formal de la consulta.

Operación sobre términos

Stemming: esta palabra es anglosajona, que proviene de “stem” (raíz), se define el procedimiento por el cual varias palabras se pueden reducir a una forma común, una sola de igual o parecido significado. Por ejemplo, si escribo help me entrega el buscador tutorial, guide, etc.

Lista de palabras vacías: es una relación de términos considerados como valores no indeseables, usados para eliminar potenciales términos no necesarios.

Truncamiento: es otro proceso de corte de palabras pero realizado de forma manual por el usuario en los procesos de recuperación de información.

Ponderación de términos: en términos a estos se les puede asignar un valor numérico basado en su distribución estadística, o sea la frecuencia con la que los términos aparecen en el documento, dependiendo de la búsqueda.

Indización: es el resultado de creación de índices cuya finalidad es presentar los conceptos, las relaciones entre conceptos, las referencias u ocurrencias necesarias para describir los documentos y permitir su recuperación.

Operaciones sobre documentos •

Visualización de documentos: es la operación de mostrar tanto a la salida impresa de los documentos como a su visualización en la pantalla del ordenador.

Rango: es la distribución de frecuencias de los términos es posible asignar una probabilidad de relevancia a cada documento dentro de un conjunto recuperado.


Ordenación: se refiere que los documentos estén relacionados en orden relevancia.

Enmascarmiento: es brindar protección a nuestro documento. Candados

Asignación de Ids: para tener un buen control de la base de datos y así poder optimizar los recursos.

Evaluación de los SRI •

Eficiencia en el lugar (tiempo)

Eficiencia en el almacenamiento (espacio)

Efectividad de recuperación (lo que yo quiero)

Eficiencia en la ejecución. •

Es el tiempo que se toma un sistema o una parte de un sistema para realizar la operación. •

Es en el parámetro más importante en los SRI

Eficiencia del almacenamiento •

Es el espacio general, es el tamaño del índice de los ficheros además de los tamaños de los archivos del documento.

Efectividad de recuperación •

Se basa en la relevancia de los documentos consultados, lo cual representa: •

Se han realizado varios propuestas la más conocidas son la de repetir llamada y la de precisión.

Medidas propuestas para world wide web •

Composición de los índices

Capacidad de búsqueda


Ejecución de la respuesta de información

Esfuerzo del usuario

Composición de índices •

Afecta de forma muy directa la calidad de la respuesta de información

Destacan tres componentes importantes: •

Cobertura

Frecuencia de actualización

Porción de página (diseño y contenido)

Capacidad de búsqueda •

Un motor ha de poseer operadores booleanos, búsquedas por expresiones lineales, truncamiento de términos y facilidades de acotar una búsqueda en un determinado campo.

Ejecución de la respuesta de información •

Pregunta de examen.

Cuál es el objetivo del sistema de operación de recuperación de información : resolver la consulta del usuario

Unidad I Gestión del conocimiento


Datos: hechos, información estadística o similares tanto históricos como derivados de cálculo o experimentación.

Información: conocimiento comunicado o recibido concerniente a hechos o circunstancias, particulares. Cualquier conocimiento adquirido mediante comunicación, investigación, sinónimos: dato, hecho, inteligencia, consejo.

Conocimiento: aprehensión de hechos, verdades o principios como resultado de estudio, investigación o erudición general. Familiaridad con un tema particular o rama del saber.

Que es la gestión del conocimiento •

Es el arte de crear valor mediante el afianzamiento de los activos intangibles. Para ello usted tiene que ser capaz de visualizar su organización como algo que no es más que conocimiento y flujos de conocimiento. Karl Eric Sveiby.

Tiene que ver con elevar conductividad de la elevación para mejorar nuestra capacidad para enlazar con el mundo exterior y nuestros clientes. Esto requiere crear el lugar, el tiempo y el ambiente para promover un trabajo reflexivo y la efectividad de nuestras interacciones. Charles Armstron.

Está relacionado con el uso de la información estratégico para seguir los objetivos de negocio. La gestión del conocimiento es la actividad organizacional de creación de entorno social e infraestructura para que el conocimiento pueda ser accedido compartido y creado. Robert K. Logan.

Tiene que ver con el uso de los ordenadores y comunicaciones para ayudar a la gente para recopilar y ampliar sus datos, información conocimiento y sabiduría colectiva con el fin de tomar mejores, más rápida y más efectivas decisiones. Gene Meieran

Es la transformación del conocimiento en negocios, aprendiendo mediante la transformación de información en conocimientos. Matthias Bellan.

Categoría del conocimiento El conocimiento tiene su origen en la mente de los individuos como síntesis de diversos componentes: creencias, experiencias, inteligencia, intuiciones, juicios, etc. •

Conocimiento táctico

Conocimiento explicito


Conocimiento táctico •

Es el conocimiento personal, almacenado en las cabezas de los individuos, difícil de formalizar, registrar y articular y que se desarrolla mediante el proceso de prueba y error.

Conocimiento explicito •

Es el conocimiento almacenado en medios físicos llámense bases de datos, esquemas, webs correos electrónicos, etc.

Proceso del conocimiento •

Partiendo de la existencia de las personas

Creación

Captura almacenamiento

Clasificación

Organización

Recuperación

Utilización

Por parte del gather group •

Crear

Capturar

Organizar

Acceder

Utilizar

Captura


Una vez localizado el conocimiento, es preciso evaluar su utilidad y está íntimamente 0ligado a quien lo posee, de tal forma que se procede a codificarlo. Tomando el cuadro de clasificación de Sydney Vinter de la universidad de Pennsylvania.

Dimensiones de codificación del conocimiento Tacito

Articulable

No enseñable

Enseñable

No articulado

Articulado

No observable en uso

Observable en uso

Rico

Esquemático

Complejo

Simple

No documentado

Documentado

Necesidad de la información. Se debe a la velocidad reflejada en los conocimientos universitarios a así como de las nuevas tecnologías de información. La habilidad de las personas y/o empresas de aprender y adaptarse a la tecnología y los nuevos modelos de negocios, lo cual constituye una ventaja competitiva.

¿Qué es lo que retenemos?


Lo que dicen los especialistas

Proverbio chino

10% de lo que leemos 20% de lo que nos dicen

“Lo que ves, lo recuerdas,

30% de lo que nos muestran 50% de lo que nos dicen y muestran a la vez 70% de lo que nos dicen, nos muestran y respondemos 90% de lo que nos dicen, muestran, Lo que haces, aprendes” respondemos y ponemos en práctica o implica personalmente

Aprendizaje digital (e-learning) •

Es la expresión de la tecnología internet y su derivaciones intranet extranet, acopladas en el campo de formación. •

Su fortaleza es que, son adaptables a las distintas formas de aprendizaje y a las necesidades de los usuarios.

Reduce distancias, tiempos y costos

Soporta aplicaciones en líneas, email, foros, chats, videoconferencias, etc. Esta tecnología no suple al profesor sino que facilita su tarea.

¿Qué es la administración del conocimiento?

La administración del conocimiento implica la conversión del conocimiento tácito (el que sabe un trabajador específico) en explícito (conocimiento documentado y replicable) para convertirlo en un activo estratégico de la organización.



Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.