Almacén de Datos

Page 1

Descubrimiento de Conocimiento en Base de Datos (KDD) Fase de Integración y Recopilación •

Introducción

Almacén de Datos (Data Warehouse).

Almacén de Datos (DW) Ventajas.

Almacén de Datos (DW) Desventajas.

Procesamiento de Transacciones en Línea (OLPT) versus Almacén de Datos (DW).

DataMart.

DataMart (Tipos).

DataMart versus Almacén de Datos (DW).

Almacén de Datos (DW) Objetivos.

Almacén de Datos (DW) Arquitectura.

Almacén de Datos (DW) Procesos.

Almacén de Datos (DW) Diseño.

Almacén de Datos (DW) Diseño Pasos.

Almacén de Datos (DW) Diseño Modelo de Datos.

Almacén de Datos (DW) Diseño Modelo Multidimensional.

MOLAP – OLAP Multidimensional.

ROLAP – OLAP Relacional.

HOLAP – OLAP Hibrido.

Elaborado por: Ing. Jean Sánchez, EPE


Introducci贸n Los Almacenes de Datos (DataWarehouse) es la clave que permitir谩 a los usuarios del sistema efectuar sobre los datos: 1) Cualquier pregunta (las preguntas que pueden hacer los usuarios). 2) Cualquier momento (el acceso de los usuarios a los datos). 3) Cualquier dato (la cantidad de datos y detalles que el usuario puede tener sobre estos).


Introducción Hoy en día toda empresa necesita depositar mucha confianza en la toma de decisiones sobre los negocios, para tomar dichas decisiones se requiere hechos y cifras, sabemos que la competencia crece en todo momento entonces las decisiones que debemos tomar en nuestra empresa deben ser mas aceleradas; pero que pasa si tenemos una montaña de información la cual debe ser analizada, lógicamente pensamos que necesitaríamos mucho tiempo. Los Almacenes de Datos son un proceso, no un producto. El DW es un conjunto de procesos y acciones, es una colección de datos orientados a un tema, integrados y no volátiles en el soporte al proceso de toma de decisiones de la gerencia.


Introducción Almacenes de Datos (DW) motivación

disponer de Sistemas de Información de apoyo a la toma de decisiones (DSS)

disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización objetivos

análisis de la organización

previsiones de evolución

diseño de estrategias


Introducción ¿Cómo trabaja el Almacén de Datos? • • •

Extrae la información operacional. Transforma la operación a formatos consistentes. Automatiza las tareas de la información para prepararla a un análisis eficiente.

¿En que puede ser usado? • Manejo de relaciones de marketing. • Análisis de rentabilidad. • Reducción de costos.

¿Por qué usarlo? • Obtiene respuestas en tiempos razonables. • Analiza desde una perspectiva en el tiempo con la información histórica que se brinde. • Nos permite tener fuentes externas para ayudar a nuestra información. • La información proveniente de fuentes operacionales es transformada y limpiada para lograr consistencia.


Introducción Objetivo: Analizar y extraer información útil de los datos

Necesidad: disponer de los datos.

Proceso de recopilación .- Diversidad de fuentes .- Tamaño de las fuentes

Archivo simple

Qué fuentes .- Internas .- Externas Cómo se van a organizar

Cómo se van a mantener en el tiempo Cómo se va a poder extraer .- Total / parcialmente .- Agregados / en detalle

Los almacenes de datos no son estrictamente necesarios para realizar minería de datos pero sí son muy útiles si se trabaja con grandes volúmenes de datos, que varían en el tiempo y donde se desea realizar tareas de minería de datos variadas, abiertas y cambiantes.


Introducción ¿Cómo se usan los Almacenes de Datos? y ¿cuáles son sus requerimientos? ETAPA 1

ETAPA 2

ETAPA 3

de Informes

de Análisis

de Predicción

QUÉ pasó?

POR QUÉ pasó?

QUÉ PUEDE pasar si..?

Consultas pre-definidas Preguntas ad hoc Modelamiento predictivo


Almacén de Datos (DW) • Inmon[MicroSt96] (considerado el padre de las B.D.) en 1992: “Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”. • En 1993, Susan Osterfeldt[MicroSt96] publica una definición que sin duda acierta en la clave del DW: "Yo considero al DW como algo que provee dos beneficios empresariales reales: integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico".


Almacén de Datos (DW) Un Almacén de Datos o DataWarehouse es esencialmente una replica de la información existente estructurada de tal forma que permita acceder y representar grandes volúmenes de datos de la organización, sean estos estratégicos, tácticos y operativos, posibilitando la explotación de su contenido, proporcionando información vital para la toma de decisiones. Un DataWarehouse es: – Orientada a un objetivo (subject-oriented), – integrada, – Variable en el tiempo, – No volátil.


Almacén de Datos (DW) DW: Orientado hacia a un objetivos, la información relevante de la organización

Se diseña para consultar eficientemente información relativa a las actividades (ventas, compras, producción, ...) básicas de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, entre otros).

Base de Datos Transaccional CURSO ... REUNION ...

PAÍS ...

GAMA ...

VENTA ... PROTOTIP O ...

PRODUCTO ...

Información Necesaria


Almacén de Datos (DW) Integra todos los datos recogidos de los diferentes sistemas operacionales de la organización, además de fuentes externas.

DW: Integrado

Fuente de Datos 1 texto

Base de Datos Transaccional 1

Fuentes Internas Base de Datos Transaccional 2

Fuente de Datos 3 HTM L

Fuentes Externas

Almacén de Datos

Fuente de Datos 2


Almacén de Datos (DW) DW: Variable en el tiempo

Tiempo

Datos

01/2007

Datos de Enero

02/2007

Datos de Febrero

03/2007

Datos de Marzo

Los datos son relativos a un período de tiempo y deben ser incrementados periódicamente.

Los datos son almacenados como fotos (snapshots) correspondientes a períodos de tiempo.


Almacén de Datos (DW) Los datos almacenados no son actualizados, sólo son incrementados.

DW: No volátil

Carga Bases de datos operacionales

INSERT

READ

Almacén de Datos

READ

UPDATE DELETE

El período de tiempo cubierto por un DW varía entre 2 a 15 años.


Almacén de Datos (DW) ¿QUÉ ES?

¿QUÉ NO ES?

Un sistema que permite un rápido y fácil Un almacén de todos los datos operacionales de acceso a la información vital para la empresas. la empres. Un sistema de información que proporciona Una puerta a los sistemas operacionales. acceso a datos históricos y detallados. Un sistema donde la información es recogida Un sistema que permite el acceso a todos los de múltiples fuentes. datos y sistemas de la empresa. Un sistema de análisis diseñado para diferentes Un sistema transaccional. tipos de usuarios.


Almacén de Datos (DW) Ventajas Almacén de Datos ventajas para las organizaciones

rentabilidad de las inversiones realizadas para su creación

aumento de la competitividad en el mercado

aumento de la productividad de los técnicos de dirección


Almacén de Datos (DW) Desventajas Almacén de Datos desventajas

Sub-valoración del esfuerzo necesario para su diseño y creación

privacidad de los datos

Sub-valoración de los recursos necesarios para la captura, carga y almacenamiento de los datos

incremento continuo de los requisitos de los usuarios


Procesamiento de Transacciones en Línea (OLPT) versus Almacén de Datos (DW) OLPT

DW

Almacena datos actuales.

Almacena datos históricos.

Almacena datos de detalle.

Almacena datos de detalle y datos agregados a distintos niveles.

Los datos son dinámicos (actualizables).

Los datos son estáticos.

Soporta decisiones diarias.

Soporta decisiones estratégicas.

Base de datos medianas (100 Mb – 100 Gb).

Base de datos grandes (100 Gb – 100 Tb).

Una herramienta puede informar al vendedor Una herramienta puede informar de los factores sobre el número total de libros vendidos para una que influyen en la venta de los libros. región determinada en un trimestre determinado. Las transacciones son repetitivos.

Las transacciones no son previsibles.

El número de transacciones es elevado.

El número de transacciones es bajo o medio.

El tiempo de respuesta pequeño (segundos).

El tiempo de respuesta variable (segundos-horas)

Dedicado al procesamiento de transacciones.

Dedicado al análisis de datos.

Orientado a los procesos de la organización.

Orientado a la información relevante.

Sirve a muchos usuarios.

Sirve a técnicos de la dirección.


DataMart Es el almacén de datos relacional que contiene las tablas a partir de las cuales se construye el cubo dimensional. Además, es un repositorio parcial de datos de la empresa, donde se almacenan datos tácticos y operativos, con el objeto de obtener información táctica. Por otra parte, es un conjunto de hechos y datos organizados para soporte decisional basados en la necesidad de un área o departamento específico. Los datos son orientados a satisfacer las necesidades particulares de un departamento dado teniendo sólo sentido para el personal de ese departamento y sus datos no tienen porque tener las mismas fuentes que los de otro DataMart. Con su implementación se consigue: • Programas y procedimientos para extraer, transformar y cargar datos. • Instalar herramientas de acceso a los datos. • Poblar el DW con los datos necesarios. • Poblar el catálogo de metadatos con los datos necesarios. • Técnicas de uso y soporte el almacén


DataMart (Tipos) 1.- Data Marts Finanzas. 2.- Data Marts Comercial. 3.- Data Marts LogĂ­stica. 4.- Data Marts Recursos Humanos.


DataMart versus Almacén de Datos (DW) DataMart

DW

Se usa en un proceso, departamento o Se usa en toda la empresa. área especifica. Requiere de 3 a 6 meses para su Requiere de 1 a 3 años para su desarrollo. desarrollo. Base de datos medianas (100 Mb – Base de datos grandes (100 Gb – 100 100 Gb). Tb).


Almacén de Datos (DW) Objetivos Posibilitar a Ejecutivos de la empresa, de nivel superior y medio, y analistas, generar, a partir de la información disponible, el conocimiento necesario para orientar, readecuar o fortalecer mejores y más rápidas decisiones ejecutivas, a través de sistemas como: Sistema de información ejecutiva (EIS), herramientas que posibilitan la entrega de información estratégica a los ejecutivos a través de: reportes varios, reportes comparativos y cuadros de mando multi-dimensionales. Sistema de asistencia a las decisiones (DSS), herramientas que proporcionan asistencia para la toma de decisiones. Adiciona ciertas reglas de decisión y análisis de datos no predefinidos en las capacidades de un EIS .


Almacén de Datos (DW) Arquitectura Los principales resultados del desarrollo de la arquitectura DW incluyen: • El modelo de datos fuente. • El modelo de datos conceptual DW. • Arquitectura tecnológica DW. • Estándares y procedimientos DW. • El plan de implementación incremental para el DW.


Almacén de Datos (DW) Arquitectura Organización (Externa) de Los Datos… Las herramientas de explotación de los almacenes de datos han adoptado un modelo multidimensional de datos.

Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.


Almacén de Datos (DW) Arquitectura

Marca Descripción

Semana

Categoría Departamento

Mes

Nro_producto

Trimestre

Día Año

Tipo

importe unidades Almacén Ciudad Tipo Región


Almacén de Datos (DW) Arquitectura Dimensiones (puntos de vista) desde los que se puede analizar la actividad. Marca Semana

Descripción Categoría

Mes

Departamento

Trimestre

Día

Nro_producto

Año

Tipo

importe unidades Almacén

Actividad que es objeto de análisis con los indicadores que interesa analizar

Ciudad

Tipo

Región


Almacén de Datos (DW) Procesos Los procesos que conforma el DataWarehouse son: • Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del DW, realizando: – Extracción de los datos. – Filtrado de los datos: limpieza, consolidación, etc. – Carga inicial del almacén: ordenación, agregaciones, etc. – Refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos. • Repositorio Propio de Datos: – Información relevante: corresponde a la mirada temporal de los datos (mezcla de “fotos” de los datos) y las agregaciones correspondientes) – Metadatos (datos con respecto a los datos), que son almacenados para indicar el significado y uso de los datos propiamente tal.


Almacén de Datos (DW) Procesos • Interfaz: permiten acceder a los datos y sobre ellos se conectan otro tipo de herramientas más sofisticadas • Herramientas de Consulta: corresponde a software especializado en el análisis y consulta de grandes volúmenes de datos (OLAP, EIS, Minería de Datos). • Sistemas de Integridad: se encargan de un mantenimiento global (actualizaciones y calidad de información) • Seguridad: encargado de realizar las copias de seguridad, recuperación, entre otros.


Almacén de Datos (DW) Diseño El desarrollo de la tecnología de Almacenes de Datos se caracteriza por: 1) Temprano desarrollo industrial provocado por las demandas de los usuarios. 2) Uso de metodologías de diseño, donde la atención se ha centrado en mejorar la eficiencia en la ejecución de consultas. Se diseñan los Almacenes de Datos sabiendo que: 1) Modelo de datos utilizado que de cuenta de la necesidad de almacenamiento de información histórica y orientada a análisis. 2) Búsqueda de eficiencia en el almacenamiento y extracción de información, así como de herramientas de análisis. 3) Compromiso entre el nivel de detalle requerido y la utilidad y costo de ellos .


Almacén de Datos (DW) Diseño Recogida y análisis de requisitos

Diseño conceptual

Diseño lógico específico

Diseño físico

Implementación


Almacén de Datos (DW) Diseño Recogida y análisis de requisitos Análisis Diseño conceptual

Diseño lógico

Diseño físico

Implementación

Discernimiento de fuentes necesarias del sistema de información de la organización (OLTP) y las externas

Requisitos de usuario (consultas de análisis necesarias, nivel de agregación, …)

Diseño Conceptual


Almacén de Datos (DW) Diseño Recogida y análisis de requisitos

Diseño conceptual

Diseño lógico

Diseño Lógico

Modelado multidimensional (MR)

Diseño físico Esquemas estrella Implementación


Almacén de Datos (DW) Diseño Recogida y análisis de requisitos

Diseño conceptual

Diseño Físico

Diseño lógico Definición del esquema ROLAP o MOLAP Diseño físico Diseño del ETL Implementación


Almacén de Datos (DW) Diseño Recogida y análisis de requisitos

Diseño conceptual

Implementación

Diseño lógico Carga del AD (ETL) Diseño físico Preparación de las vistas de usuario (herramienta OLAP) Implementación


Almacén de Datos (DW) Diseño Pasos Paso 1. Elegir un “proceso” de la organización para modelar. Paso 2. Decidir el gránulo (nivel de detalle) de representación del proceso. Paso 3. Identificar las dimensiones que caracterizan el proceso. Paso 4. Decidir la información a almacenar sobre el proceso.


Almacén de Datos (DW) Diseño Pasos Paso 1. Elegir un “proceso” de la organización para modelar. Proceso: actividad de la organización soportada por un OLTP del cual se puede extraer información con el propósito de construir el almacén de datos. Pedidos (de clientes). Compras (a suministradores). Facturación. Envíos. Ventas. Inventario.


Almacén de Datos (DW) Diseño Pasos Paso 2. Decidir el gránulo (nivel de detalle) de representación. Gránulo: es el nivel de detalle al que se desea almacenar información sobre la actividad a modelar. El gránulo define el nivel atómico de datos en el almacén de datos. El El gránulo determina el significado de las tuplas de la tabla de hechos. El gránulo determina las dimensiones básicas del esquema • transacción en el OLTP. • información diaria. • información semanal. • información mensual.


Almacén de Datos (DW) Diseño Pasos Paso 3. Identificar las dimensiones que caracterizan el proceso. Dimensiones: dimensiones que caracterizan la actividad al nivel de detalle (gránulo) que se ha elegido. Tiempo (dimensión temporal: ¿cuándo se produce la actividad?) Producto (dimensión ¿cuál es el objeto de la actividad?) Almacén (dimensión geográfica: ¿dónde se produce la actividad?) Cliente (dimensión ¿quién es el destinatario de la actividad?) De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad. Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año)


Almacén de Datos (DW) Diseño Pasos Paso 4. Decidir la información a almacenar sobre el proceso. Hechos: información (sobre la actividad) que se desea almacenar en cada tupla de la tabla de hechos y que será el objeto del análisis. Precio Unidades Importe Nota: algunos datos que en el OLTP coincidirían con valores de atributos de dimensiones, en el almacén de datos pueden representar hechos. (Ejemplo: el precio de venta de un producto).


Almacén de Datos (DW) Diseño Modelo de Datos El Modelo de Datos para representar historia y diseño del Almacén de Datos esta basado en el compromiso de: a) Repetir una foto temporal de los datos, así como aquellos elementos descriptivos (dimensiones). b) Orientación hacia el análisis y descubrimiento, así como identificar aquellos valores a ser requeridos (hechos).

Tiempo


Almacén de Datos (DW) Diseño Modelo Multidimensional • Modelo Multidimensional representa la actividad que es analizada (hecho) y las dimensiones que caracterizan la actividad (dimensiones). • La información del hecho (actividad) se representan por indicadores (medidas o atributos de hecho). • La información de cada dimensión se representan por atributos (de dimensión). Los tipos del Modelo Multidimensional son: • Esquema de Estrella (Star schema): Un hecho está en medio del conjunto de dimensiones • Esquema de Copo de Nieve (Snowflake schema): Un refinamiento del anterior, donde alguna jerarquía dimensional es normalizada en un conjunto de pequeñas dimensiones. • Constelación de Hechos: Tablas de múltiples hechos, vistas como una colección de estrellas.


Almacén de Datos (DW) Diseño Modelo Multidimensional (Esquema) Este esquema multidimensional recibe varios nombres: – Estrella: si la jerarquía de dimensiones es lineal proyecto

tiempo

PERSONAL equipo

– Estrella jerárquica o copo de nieve: si la jerarquía no es lineal. tiempo producto lugar

VENTAS


Almacén de Datos (DW) Diseño Modelo Multidimensional en Estrella Lineal Producto

Producto

Local

ID_Producto <pi> I <M> NombreProducto VA20

ID_Local <pi> I <M> Dirección VA30

ID_Producto <pi>

ID_Local <pi>

Realizada

Contiene

(Cantidad, Valor) Ventas Cantidad I Valor I

Durante

Día Local

Día <M> Numero <pi> I Mes VA20 <M> Año I <M> Numero <pi>


Almacén de Datos (DW) Diseño Modelo Multidimensional en Estrella Jerárquico Categoria

• En este caso existen dimensiones que tienen la posibilidad de extender su descripción vía jerarquía. • El caso de la dimensión tiempo se extiende en dos jerarquías.

Comuna

ID_Categoria <pi> I <M> NombreCategoria VA40

<pi> I <M> ID_Comuna NombreComuna VA30

ID_Categoria <pi>

ID_Comuna <pi>

Pertenece

Agrupa Local

Producto

ID_Local <pi> I <M> Dirección VA30

ID_Producto <pi> I <M> NombreProducto VA20

ID_Local <pi>

ID_Producto <pi>

Realizada

Contiene

Ventas Cantidad I Valor I

Durante Día Numero <pi> I <M> NombreDia VA20 <M> Numero <pi>

Posee Mes ID_Mes <pi> I <M> Nombre VA30 ID_Mes <pi>

Compone Año NumeroAño <pi> I <M> NumeroAño <pi>

Corresponde TipoDia ID_TipoDia <pi> I <M> NombreTipoDia VA30 ID_TipoDia <pi>


MOLAP - OLAP Multidimensional • Los datos origen y sus agregaciones están en una estructura multidimensional. • Los objetos dimensionales son procesados para incorporar cambios de los datos operacionales • Existe latencia. tiempo comprendido entre procesamientos • Características: – Provee excelente rendimiento y compresión de datos. – Mejor tiempo de respuesta, depende de las las agregaciones. – Estructura optimizada para maximizar las consultas. – Apropiado para cubos de rápida respuesta.


ROLAP - OLAP Relacional • La información del cubo, sus datos, su agregación, sumas son almacenados en una base de datos relacional. • No copia la BD original, accede a las tablas origen. • Es más lenta que las otras estrategias (MOLAP o HOLAP). • Se utiliza para ahorrar espacio de almacenamiento en grandes DB de baja frecuencia de consulta. • Usos comunes: – Cuando los clientes desean ver los cambios inmediatamente. – Cuando contamos con grandes conjuntos de datos que no son frecuentemente buscados


HOLAP – OLAP Híbrido • Combina atributos de MOLAP y ROLAP. • Las agregaciones se almacenen en una estructura multidimensional y los detalle, en la BD original. • Cubos más pequeños q’ MOLAP y más rápidos q’ ROLAP. • Usos comunes: – Cubos que requieren rápida respuesta – Cuando existen sumarizaciones basadas en una gran cantidad de datos de origen. – Solución de compromiso para bajar el espacio ocupado sin perjudicar totalmente el rendimiento de las consultas.


Características MOLAP Almacenamiento de Modelo las Agregaciones Multidimensional Almacenamiento de Modelo los datos Multidimensional Facilidad de Sencillo Creación

ROLAP Base de datos relacional Base de datos relacional

HOLAP Modelo Multidimensional Base de datos relacional

Muy Sencillo

Sencillo Buena para consultas que posean agregaciones, Regular para datos de bajo nivel

Velocidad de respuesta

Buena

Regular o Baja

Escalabilidad

Problemas de escalabilidad

Son más escalables

Recomendados para

Cubos con uso frecuente

Datos que no son frecuentemente usados

Si el cubo requiere una rápida respuesta


Ventajas y Desventajas Ventajas

Desventajas

MOLAP

Duplica el almacenamiento Mejor performance en los de datos (ocupa más tiempos de respuesta espacio)

ROLAP

Ahorra espacio de almacenamiento. El tiempo de respuesta a Útil cuando se trabaja con consultas es mayor. muy grandes conjuntos de datos.

HOLAP

Buen tiempo de respuesta Volúmenes de datos más sólo para información grandes en la base de datos sumarizada relacional


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.