Apoyo para la toma de decisiones M.C. Juan Carlos Olivares Rojas
Apoyo para la toma de decisiones • Entre más información se tiene mayor es la ventaja obtenida. • Se necesitan de diseño especiales para almacenar grandes cantidades de datos. Estos diseños son los Datawarehouse y los Datamarts.
Datawarehouse • Los almacenes de datos son del mismo tipo, no volátiles y variantes en el tiempo. • Es una base de datos limpia ya que no están todas las transacciones. • Un almacén de datos debe tener más de 500GB y una tasa de crecimiento del 50% anual.
Datamarts • Son almacenes de datos más pequeños utilizados generalmente para reportes o usos más genéricos. • La carácterística principal es que es volátil; es decir, los valores de los datos pueden ser modificados para realizar simulaciones de escenarios del tipo: ¿que pasaría si…?
Datamarts • Para el análisis de almacenes de datos se utilizan técnicas OLAP. • Los almacenes de datos necesitan de un diseño óptimo para su correcto funcionamiento. • Existen diversos métodos de diseño, siendo los más populares: estrella y copo de nieve.
Esquema de estrella • También llamado dimensional, contiene una tabla de hechos que es aquella que contiene toda la información y tiene varias tablas de dimensiones que contienen el catálogo de la información. • Se asemeja mucho a un base de datos normalizada, entonces ¿Cuál es la diferencia?
Esquema de estrella • Los almacenes de datos son base de datos históricas (más de consulta que de transacción). • Las bases de datos se normalizan sobretodo para no tener tanta información redundante. • El esquema de estrella sólo tiene un nivel.
Esquema de estrella • El tener todos los hechos juntos y las dimensiones separadas permite que las “juntas” sean mínimas ocupando menos tiempo las consultas. • La tabla de hechos es más grande en atributos y tuplas que las de dimensiones. • El diseño es ad hoc y es difícil de cambiar.
Esquema de copo de nieve • Es una variante del esquema de estrella, el cual normaliza toda las tablas de dimensiones. • Tiene algunas mejoras de espacio pero en ocasiones las consultas son mås lentas.
OLAP • Procesamiento analítico en línea. • Proceso interactivo de crear, mantener, analizar y elaborar informes sobre datos. • En muchas ocasiones se hacen consultas similares con valores diferentes, lo que trae como consecuencia muchas consultas independientes y más retraso.
OLAP • SQL3 define tres operadores para GROUP BY: GROUPING SETS, ROLLUP y CUBE. • Las tablas en un almacén de datos se consideran hipercubos dependiendo de sus dimensiones. • Existen dos tipos de OLAP: ROLAP (Relacional) y MOLAP (multidimensional).
Minería de datos • Se define como un análisis de datos exploratorio. • El propósito es buscar patrones interesantes en los datos. Se aplican muchas técnicas estadísticas para buscar estos patrones. • Se pretende buscar reglas de asociación entre las dimensiones de una tabla.
Minería de datos • Al conjunto de todas las transacciones se le llama población. • Cualquier regla de asociación tiene un nivel de soporte y uno de confianza. • Soporte es el fragmento de la población que satisface la regla.
Minería de datos • El soporte es la fracción de la población, en la cual se cumple el antecedente, también se cumple el consecuente. • Se pueden encontrar en otro tipo de patrones: “Si un cliente compra zapatos es probable que compre calcetines no necesariamente en la misma transacción”
Referencias • C. Date, “Introducción a los sistemas de base de datos”, 7a. Edición, Pearson educación, México, 2001, ISBN: 968-444419-2, pp. 709-725.
多Preguntas?