ANÁLISIS DE FUNCIONALIDAD Y DESEMPEÑO DE LA HERRAMIENTA PENTAHO COMO UNA ESTRATEGIA PARA LA...

Page 1

ANÁLISIS DE FUNCIONALIDAD Y DESEMPEÑO DE LA HERRAMIENTA PENTAHO COMO UNA ESTRATEGIA PARA LA IMPLEMENTACIÓN DE HERRAMIENTAS DE INTELIGENCIA DE NEGOCIOS DE SOFTWARE LIBRE EN LA UNIVERSIDAD DE NARIÑO PARA EL SOPORTE A LA TOMA DE DECISIONES

Informe final de investigación

Universidad de Nariño Facultad de Ingeniería Programa de Ingeniería de Sistemas Grupo de Investigación GRIAS-KDD San Juan de Pasto 2013

1


PENTAHO: Es una herramienta de inteligencia de negocios desarrollada bajo la filosofía del software libre para la gestión y toma de decisiones empresariales.

Estudiantes Carlos German Chaucanes Montenegro Cristian David Aguirre Pérez

Director Ricardo Timarán Pereira Ph.D.

Universidad de Nariño Facultad de Ingeniería Programa de Ingeniería de Sistemas Grupo de Investigación GRIAS-KDD San Juan de Pasto 2013

2


”Las ideas y las conclusiones aportadas en el presente trabajo son responsabilidad exclusiva de sus autores”

Artículo 1, acuerdo No. 324 de octubre 11 de 1966, emanado por el Honorable Consejo Directivo de la Universidad de Nariño.

3


AGRADECIMIENTOS

A LA VICERRECTORÍA DE INVESTIGACIONES Y POSTGRADOS VIPRI POR EL APOYO FINACIERO DE ESTE PROYECTO

4


RESUMEN

En este documento se presenta el proyecto de investigación que tiene como objetivo Analizar el desempeño y funcionalidad de la herramienta PENTAHO bajo los conceptos del procesamiento analítico en línea, para conocer sus ventajas y desventajas, e impulsar su utilización en un área de la Universidad de Nariño en el soporte a la toma de decisiones. La metodología contempla siete fases. En la primera fase, se Investigará en diversas fuentes bibliográficas sobre las Herramientas OLAP e Inteligencia de Negocios Pentaho y sus sitios de descarga. En la segunda fase, se escogerá la herramienta Pentaho más apropiada en sus versiones estables para hacer el análisis de funcionalidad. En la tercera fase, se descargará e instalará la herramienta Pentaho y se validará su funcionalidad. En la cuarta fase, se obtendrán repositorios de datos de prueba en la web para el análisis de la herramienta. En la quinta fase, se estudiará y analizará la funcionalidad de la herramienta Pentaho, y se determinarán sus ventajas y desventajas. En la sexta fase, se implantará la herramienta Pentaho en una dependencia de la Universidad de Nariño y con datos reales se generarán consultas y reportes. Finalmente en la séptima fase, se evaluarán los resultados obtenidos.

5


ABSTRACT

This document presents the research project which aims to analyze the performance and functionality of the tool under the concepts Pentaho online analytical processing, to know its advantages and disadvantages, and promote their use in an area of the University of NariĂąo (Colombia) in supporting the decision making. The methodology includes seven phases. In the first phase, we investigate in various literature sources on the Tools OLAP and Business Intelligence Pentaho and download sites. In the second phase, we will choose the most appropriate tool Pentaho stable versions for functionality analysis. In the third phase, it will download and install the tool Pentaho and validate its functionality. In the fourth phase will be obtained test data repositories on the web for the analysis of the tool. In the fifth phase, study and analyze the functionality of the tool Pentaho, and identify their advantages and disadvantages. In the sixth phase, Pentaho tool will be implemented in a unit of the University of NariĂąo and real data queries and reports are generated. Finally in the seventh phase will assess the results.

6


INDICE GENERAL

Contenido GLOSARIO .......................................................................................................................................... 12 INTRODUCCION ................................................................................................................................. 13 TÍTULO DEL PROYECTO...................................................................................................................... 14 LÍNEA DE INVESTIGACIÓN ................................................................................................................. 14 ALCANCE Y DELIMITACIÓN ................................................................................................................ 14 PROBLEMA OBJETO DE ESTUDIO ...................................................................................................... 14 FORMULACIÓN DEL PROBLEMA........................................................................................................ 15 OBJETIVO GENERAL ........................................................................................................................... 16 OBJETIVOS ESPECÍFICOS .................................................................................................................... 16 JUSTIFICACION .................................................................................................................................. 17 1. CONCEPTOS PRELIMINARES .......................................................................................................... 17 2. DATA WAREHOUSE (BODEGA DE DATOS). .................................................................................... 19 2.1 CONCEPTO. .............................................................................................................................. 19 2.2 CARACTERÍSTICAS DE UN DATA WAREHOUSE. ....................................................................... 19 2.3 ARQUITECTURA DE UN DATA WAREHOUSE. .......................................................................... 20 2.4 DATA WAREHOUSING ............................................................................................................. 21 2.5 METODOLOGÍA DE RALPH KIMBALL PARA EL DISEÑO DE DATA WAREHOUSE. ..................... 21 2.6 MODELADO CONCEPTUAL DE UN DATA WAREHOUSE. .......................................................... 22 2.6.1 Esquema en estrella. ........................................................................................................ 22 2.6.2 Esquema de constelación. ................................................................................................ 23 2.6.3 Esquema de copo de nieve ........................................................................................... 23 3. TECNOLOGÍA OLAP. ....................................................................................................................... 25 3.2 DESCRIPCIÓN DEL PROCESO DE ANÁLISIS EN LÍ

7


3.4.1 Estructura. ....................................................................................................................... 28 3.4.2 Operaciones de usuario................................................................................................... 29 3.4.3 Operaciones de selección y proyección. .......................................................................... 31 4. DATA MARTS UNIVERSIDAD DE NARIÑO. .................................................................................... 33 4.1 DISEÑO. ................................................................................................................................... 33 4.1.1 Dimensión Tiempo. .......................................................................................................... 33 4.1.2 Dimensión Geográfica. ..................................................................................................... 33 4.1.3 Dimensión Estudiante. ..................................................................................................... 34 4.1.4 Dimensión Estado............................................................................................................. 35 4.1.5 Dimensión Colegio............................................................................................................ 35 4.1.6 Dimensión Académica. ..................................................................................................... 35 4.1.7 Dimensión Materia. .......................................................................................................... 36 4.1.8 Dimensión Nota................................................................................................................ 36 4.1.9 Dimensión Clase Nota. ..................................................................................................... 37 4.1.10 Esquema Multidimensional............................................................................................ 37 4.2 DISEÑO RELACIONAL DE LOS DATA MART. ............................................................................. 39 4.3 UTILIZANDO ETL. ..................................................................................................................... 40 4.3.1 Transformación dimensión tiempo (figura 27). ............................................................... 41 4.3.2 Transformación Dimensión Geográfica (figura 28). ......................................................... 41 4.3.3 Transformación Dimensión Estudiante (figura 29). ......................................................... 42 4.3.4 Transformación Dimensión Estado (figura 31)................................................................. 43 4.3.5 Transformación Dimensión Colegio (figura 32). .............................................................. 44 4.3.6 Transformación Dimensión Académica (figura 33). ......................................................... 44 4.3.7 Transformación Dimensión Materia (figura 34). ............................................................. 45 4.3.8 Transformación Dimensión Nota (figura 35). .................................................................. 45 4.3.9 Transformación Dimensión Clase Nota (figura 36). ......................................................... 46 4.3.10 Transformación Hecho Estudiantes_Ingresos (figura 37). ............................................ 47 4.3.11 Transformación Hecho estudiantes_notas (figura 38). ................................................. 48 5. PENTAHO SCHEMA WORKBENCH (Crea Cubos multidimensionales). .......................................... 49 5.1 INSTALACIÓN Y CONFIGURACION. .......................................................................................... 50 5.2 CUBO CANTIDAD DE ESTUDIANTES 1(Implementación Datamart )........................................ 51 5.3 CUBO CANTIDAD DE ESTUDIANTES 2 (Implementación Datamart)........................................ 57 8


6. PENTAHO BI SUITE COMMUNITY EDITION.................................................................................... 62 6.1 PRUEBA 1................................................................................................................................. 66 6.2 PRUEBA 2................................................................................................................................. 67 7. REPORT DESIGNER (RESULTADOS). ............................................................................................... 69 7.1 DEFINICION.............................................................................................................................. 69 7.2 CARACTERÍSTICAS.................................................................................................................... 70 7.3 ESTRUCTURA DE LOS REPORTES. ............................................................................................ 70 7.4 REPORTES(EJEMPLOS). ............................................................................................................ 72 7.4.1 Reporte de estudiantes por año en cada facultad. .......................................................... 72 7.4.2 Reporte de estudiantes que perdieron materias en cada facultad en un año dado. ...... 74 7.4.3 Reporte de notas por año en cada facultad. .................................................................... 77 7.4.4 Reporte de estudiantes en cada facultad de acuerdo a un estado dado. ....................... 79 7.4.5 Reporte de estudiantes por año en cada facultad con un rango de ingresos dado. ....... 82 RESULTADOS. .................................................................................................................................... 85 CONCLUSIONES. ................................................................................................................................ 86 ANEXOS. ............................................................................................... ¡Error! Marcador no definido. REFERENCIAS ..................................................................................................................................... 87

9


INDICE DE FIGURAS Figura 1: Flujo de información BI. ..................................................................................................... 18 Figura 2: Arquitectura de un data warehouse. ................................................................................. 20 Figura 3: Esquema en estrella. .......................................................................................................... 23 Figura 4: Esquema de constelación. .................................................................................................. 23 Figura 5: Esquema de copo de nieve................................................................................................. 24 Figura 6: Cubo de datos multidimensional. ...................................................................................... 24 Figura 7: Modelo de ambiente OLAP. ............................................................................................... 25 Figura 8: Arquitectura ROLAP. .......................................................................................................... 26 Figura 9: Arquitectura MOLAP. ......................................................................................................... 27 Figura 10: Estructura Multidimensional. ........................................................................................... 29 Figura 11: Aplicación operaciones roll-up y drill-down sobre un cubo de datos. ............................. 30 Figura 12: Operación Slice. ................................................................................................................ 31 Figura 13: Operación Pivot. ............................................................................................................... 32 Figura 14: Modelo dimensión temporal............................................................................................ 33 Figura 15: Modelo dimensión geográfica......................................................................................... 34 Figura 16: Modelo dimensión estudiante ......................................................................................... 34 Figura 17: Modelo dimensión estado. .............................................................................................. 35 Figura 18: Modelo dimensión colegio. .............................................................................................. 35 Figura 19: Modelo dimensión académica. ........................................................................................ 36 Figura 20: Modelo dimensión materia. ............................................................................................. 36 Figura 21: Modelo dimensión nota. .................................................................................................. 37 Figura 22: Modelo dimensión clase nota. ......................................................................................... 37 Figura 23: Esquema multidimensional 1. .......................................................................................... 38 Figura 24: Esquema multidimensional 2. .......................................................................................... 38 Figura 25: Datamart cantidad estudiantes 1. ................................................................................... 39 Figura 26: Datamart cantidad estudiantes 2. ................................................................................... 40 Figura 27: Transformación dimensión tiempo. ................................................................................. 41 Figura 28: Transformación Dimensión Geográfica. ........................................................................... 42 Figura 29: Transformación Dimensión Estudiante. ........................................................................... 42 Figura 30: Resultado de una transformación. ................................................................................... 43 Figura 31: Transformación Dimensión Estado. ................................................................................. 43 Figura 32: Transformación Dimensión Colegio. ................................................................................ 44 Figura 33: Transformación Dimensión Académica............................................................................ 44 Figura 34: Transformación Dimensión Materia. ............................................................................... 45 Figura 35: Transformación Dimensión Nota. .................................................................................... 45 Figura 36: Transformación Dimensión Clase Nota. ........................................................................... 46 Figura 37: Transformación Hecho Estudiantes_Ingresos. ................................................................. 47 10


Figura 38: Transformación Hecho estudiantes_notas. ..................................................................... 48 Figura 39: Schema workbench. ......................................................................................................... 49 Figura 40: Conexión a base de datos universidad de Nariño. .......................................................... 50 Figura 41: Cubo cantidad de estudiantes. ......................................................................................... 51 Figura 42: Implementación Dimensión académica. .......................................................................... 52 Figura 43: Dimensión colegio. ........................................................................................................... 52 Figura 44: Tabla datos dimensión colegio. ........................................................................................ 53 Figura 45: Dimensión Estado............................................................................................................. 53 Figura 46: Datos Consulta discriminado por estado. ........................................................................ 54 Figura 47: Implementación dimensión estudiante. .......................................................................... 54 Figura 48: Tabla de datos dimensión estudiante. ............................................................................. 55 Figura 49: Implementación dimensión geográfica. ........................................................................... 55 Figura 50: Tabla de Datos dimensión geográfica. ............................................................................. 56 Figura 51: Implementación Dimensión Temporal. ............................................................................ 57 Figura 52: Tabla de dato dimensión temporal. ................................................................................. 57 Figura 53: Implementación de Datamart 2. ...................................................................................... 58 Figura 54: Dimensión nota. ............................................................................................................... 59 Figura 55: Tabla de datos dimensión nota. ....................................................................................... 59 Figura 56: Dimensión clase nota. ...................................................................................................... 60 Figura 57: Tabla de datos de dimensión clase nota. ......................................................................... 61 Figura 58: Implementación Dimensión materia................................................................................ 61 Figura 59: tabla de datos de dimensión materia. ............................................................................. 62 Figura 60: Plataforma BI Pentaho. .................................................................................................... 63 Figura 61: Saiku Analytics. ................................................................................................................. 64 Figura 62: Prueba 1 saiku. ................................................................................................................. 65 Figura 63: Prueba 2 saiku. ................................................................................................................. 66 Figura 64: cruce de dimensiones 1. .................................................................................................. 67 Figura 65: Cruce de dimensiones 2. .................................................................................................. 68 Figura 66: Estructura reportes en Pentaho report designer. ............................................................ 71 Figura 67: Reporte de estudiantes por año en cada facultad. .......................................................... 73 Figura 68: Grafico pastel de estudiantes que perdieron materias por año en cada facultad. ......... 74 Figura 69: Reporte de estudiantes que perdieron materias en cada facultad en un año. ............... 76 Figura 70:Grafico Pastel de estudiantes por año en cada facultad que perdieron materias. .......... 77 Figura 71: Reporte de notas por año en cada facultad. .................................................................... 78 Figura 72:Grafico pastel de notas obtenidas en cada facultad. ........................................................ 79 Figura 73: Reporte de estudiantes en cada facultad con estado desconocido. ............................... 81 Figura 74: Grafico pastel cantidad de estudiantes por facultad. ...................................................... 82 Figura 75: Reporte de estudiantes por año en cada facultad con ingresos menor a 2850000 ........ 83 Figura 76: Gráfico pastel cantidad de estudiantes por ingresos en cada facultad. .......................... 84

11


GLOSARIO DATA WAREHOUSE (BODEGA DE DATOS): Colección de datos orientados al tema, integrados, temporales y no volátiles para la toma de decisiones. DATAMART: Almacén de datos. Data Warehouse a menor escala. DICE (RESTRINGIR): Operación OLAP de restricción de los datos del cubo. DIMENSION: Categorías descriptivas de un cubo de datos. DRILL DOWN (TALADRAR): Operación detalle de los datos del cubo.

OLAP

para aumentar el nivel del

HIERARCHY (JERARQUÍA): Es como se organizan las dimensiones. Una dimensión puede contener distintas jerarquías. HOLAP: Hybrid OLAP. Clasificación de OLAP en donde se hace uso de SGBD relacionales y SGBD multidimensionales. LEVEL (NIVEL): Es cada una de las sub ramas de las jerarquías. MEASURES (MEDIDAS): Valores cuantitativos de un cubo, a los que se pueden operar aritméticamente. MEMBER (MIEMBRO): Corresponde al elemento de una jerarquía que proporciona una característica a cada uno de los datos del cubo. MOLAP: Variante de OLAP en donde los datos se los toma de un SGBD multidimensional. OLAP: Acrónimo de Procesamiento Analítico en Linea (On-line Analythical Proccesing). PIVOT (PIVOTE): Operación perspectiva.

OLAP

para cambiar la vista del cubo a otra

ROLAP: Relational OLAP. Clasificación de OLAP para SGBD relacionales. ROLL UP (ENROLLAR): Operación OLAP para disminuir el nivel del detalle de los datos del cubo. SLICE (REBANAR): Operación OLAP para agregar o quitar una dimensión en el análisis del cubo. ETL: Extracción, transformación y carga de datos. 12


INTRODUCCION

Los analistas financieros suelen desear obtener una imagen amplia del negocio para ver las tendencias más relevantes basadas en los datos agregados, así como para ver estos datos desglosados mediante cualquier número de variables. La inteligencia empresarial es el proceso de extracción de los datos a partir de una base de datos existente para luego ser procesada en línea través de las herramientas OLAP (Proceso analítico en línea) y, a continuación, analizarlos para buscar información que pueda usar con el fin de tomar decisiones razonadas y emprender acciones.Las bases de datos del procesamiento analítico en línea OLAP facilitan las consultas de la inteligencia empresarial. OLAP es una tecnología de base de datos que se ha perfeccionado para efectuar consultas e informes, en vez de procesar transacciones. Para ello, este proyecto propone el análisis de funcionalidad y rendimiento de la herramienta de software libre Pentaho, la cual proporciona acceso a capacidades de Inteligencias comerciales poderosas para el buen manejo y análisis de los datos que puede ser utilizada, de manera gratuita, para soportar las decisiones en las diferentes dependencias tanto administrativas como académicas de la Universidad de Nariño. En este proyecto se utilizó el repositorio de los estudiantes de la Universidad de Nariño, con los cuales se realizó la base de datos repositorio_dwh que contiene dos Data Mart con la información de los estudiantes relacionada con los ingresos que estos obtienen y con las diferentes notas, además para desarrollar las dimensiones y tablas de hechos, se tomó en cuenta diferentes condiciones en la que se encuentran los estudiantes como el nivel del sisben, estado_civil, lugar de origen entre otros, para que la información que se carga en los Data Mart se útil para estudiar los diferentes estados de los estudiantes y así poder tomar decisiones para mejorar el trabajo que se está realizando en la Universidad de Nariño y poder mejorar aspectos, para brindar mejores oportunidades a los estudiantes. Para cargar los Data Mart se utilizaron procesos de extracción, transformación y carga ETL de los datos, ya que la base de datos de origen albergaba información con datos nulos o con datos que no ayudan a tomar decisiones y que interfieren en el rendimiento de las consultas u obtención de información, obteniendo así datos limpios para poder mejorar la calidad de los datos con los que se cuentan. De igual forma se realizaron cubos de información OLAP que me permiten ver los datos y realizar consultas de una forma más fácil y rápida. Finalmente se crean los reportes que permiten al usuario final interactuar de una manera sencilla y rápida. Se realizaron cinco reportes que me permiten saber la cantidad de estudiantes por facultad que cumplen una condición que el usuario puede seleccionar, además de mostrar los datos en forma organizada en una tabla, se grafica los datos en un diagrama circular para una mejor visualización y estudio. Además se dan a conocer los resultados obtenidos durante el desarrollo del proyecto y las conclusiones.

13


TÍTULO DEL PROYECTO Análisis de funcionalidad y desempeño de la herramienta pentaho como una estrategia para la implementación de herramientas de inteligencia de negocios de software libre en la universidad de nariño para el soporte a la toma de decisiones.

LÍNEA DE INVESTIGACIÓN El presente trabajo se encuentra inscrito bajo la línea de software y manejo de información. Se enmarca dentro del área de las Bases de Datos. ALCANCE Y DELIMITACIÓN La investigación de análisis de funcionalidad y desempeño de la herramienta pentaho contempla los siguientes ítems: 

Se creará los Data Mart necesarios, que contengan la información académica de los estudiantes de la Universidad de Nariño, para la creación de indicadores de gestión, para la evaluación de patrones de deserción de tal manera que se logren mejores prácticas para la administración de la información.

Implementar sobre la herramienta libre de Inteligencia de Negocios (Pentaho) la solución, para definir y administrar la información académica de los estudiantes de la universidad de Nariño.

Como resultado se obtendrán modelos dimensionales que permitirán la creación de cubos OLAP, que serán la fuente de los Reportes e Indicadores que muestren la información para la toma de decisiones estratégicas de la universidad.

PROBLEMA OBJETO DE ESTUDIO

Desde hace buen tiempo, la información ha pasado a ser uno de los principales activos empresariales, sin embargo; recopilar, integrar, transformar, analizar y presentar los datos que genera dicha información para la universidad es un proceso que causa muchos problemas, conllevando a la toma de decisiones lentas y a veces con poco acierto.

14


Actualmente la Universidad de Nariño dentro de los procesos que se llevan a cabo en sus dependencias no presenta un manejo adecuado de la información, lo que lleva a retrasos y dificultad para la toma de decisiones. A pesar de que la Universidad cuenta con una infraestructura tecnológica, esta no se aprovecha al máximo, ya que fácilmente esta podría soportar herramientas que faciliten el manejo de la información, de tal manera que los usuarios que operan en los diferentes procesos puedan hacer labores de consulta, de explotación, modelado, evaluaciones y toma de decisiones con mayor facilidad a través de estadísticas y gráficas que ofrece la herramienta de inteligencia de negocios (Pentaho) y así brindando un espacio más cómodo para las personas tanto administrativos como cualquier otra persona que desee crear reportes para su respecto análisis y así poder tomar una decisión más confiable basada en representaciones estadísticas de los datos que se deseen evaluar. Algunas herramientas de análisis multidimensional tales como OLAPX, OLAPBrowser instantOLAP, necesitan de la adquisición de costosas licencias para su utilización. Este hecho limita a las pequeñas y medianas empresas y organizaciones, al acceso de herramientas OLAP para la toma de decisiones, que inciden directamente en la obtención de mayores ganancias y en el aumento de su competitividad. En este proyecto se pretende analizar la funcionalidad y rendimiento de la herramienta de software libre Pentaho, con el fin de conocer las diferentes opciones para realizar procesamiento analítico en línea, sus ventajas y desventajas, y finalmente apropiar este conocimiento, para convertir a los investigadores en expertos en ella y que posteriormente sirvan de soporte técnico a la parte administrativa y académica de la Universidad de Nariño en el uso de Pentaho para soportar la toma de decisiones.

FORMULACIÓN DEL PROBLEMA

¿Cómo analizar el desempeño y funcionalidad de la herramienta PENTAHO bajo los conceptos fundamentales del procesamiento analítico en línea, para conocer las ventajas y desventajas de esta herramienta, e impulsar su utilización en la parte administrativa y académica de la Universidad de Nariño en el soporte a la toma de decisiones?

15


OBJETIVO GENERAL

Analizar el desempeño y funcionalidad de la herramienta PENTAHO bajo los conceptos fundamentales del procesamiento analítico en línea, con el fin de conocer las ventajas y desventajas de esta herramienta, e impulsar su utilización en la parte administrativa y académica de la Universidad de Nariño en el soporte a la toma de decisiones.

OBJETIVOS ESPECÍFICOS 

Apropiarse del proceso analítico en línea (OLAP)

Identificar, escoger y descargar la herramienta Pentaho en versiones estables existentes en el mercado bajo software libre para su respectivo análisis.

Instalar la herramienta Pentaho seleccionada y probarla.

Analizar la funcionalidad y desempeño de la herramienta Pentaho y determinar sus ventajas y desventajas con repositorios de datos de prueba.

Implementar la herramienta Pentaho en una dependencia de la Universidad de Nariño y generar consultas y reportes multidimensionales.

Analizar y evaluar los resultados obtenidos en la decisiones.

16

mejora a la toma de


JUSTIFICACION

Las herramientas de inteligencia de negocios existentes en el mercado para el soporte a la toma de decisiones son en su gran mayoría software propietario, es decir de carácter privado solo para las PYMES que se encuentran en la capacidad de adquirir estos tipos de tecnologías. La utilización de Pentaho, como una herramienta de inteligencia de negocios, bajo licencia pública, le permitirá a la universidad de Nariño, mejorar la toma de decisiones. La importancia del presente proyecto de investigación radica en agilizar y automatizar todo el proceso de gestión de la información con el objetivo de brindar un servicio de calidad con una herramienta que cumpla las expectativas de la Universidad de Nariño, con ello eliminar las deficiencias en tiempo en el entorno administrativo y técnico con un manejo rápido y eficaz de la información, para ir acorde con el crecimiento de la calidad de la educación. 1. CONCEPTOS PRELIMINARES Sistemas operacionales: Son los sistemas operacionales de registros que capturan las transacciones del negocio. Pueden ser muchos sistemas con diferentes bases de datos y/o archivos planos.

ETL: Los datos son enviados a través de un proceso de extracción, transformación y carga (ETL) a una área para ser limpiado y cambiado antes de cargarlos en el data warehouse. Esta área es conocida como Staging Area. Su principal labor es evitar que el proceso de limpiado se haga en el momento que se cargan los datos de los sistemas operacionales.

Data Warehouse: Es considerado como el repositorio de la organización, en el cual la información se califica en base a los intereses de una empresa y se encuentra integrada, lo que permite que los datos se puedan visualizar de diversas maneras.

17


Figura 1: Flujo de información BI.

DataMarts: Hay dos tipos de data marts:  

Dependientes: que obtiene sus datos del data warehouse. Independientes: que obtiene sus datos de fuentes separadas.

Fuentes de datos Operacional(Operational Data Source ODS): Es usado para la toma de decisiones tácticas, tiene una historia mínima y muestra el estado de la entidad tan cerca del tiempo real como lo sea posible y además los datos pueden ser volátiles o actualizables.

Cubos: Son estructuras multidimensionales que contienes datos pre-calculados.

18


Metadata: Es la descripción de que es cada campo, de donde viene, y como es usado. 

Metadata técnico: describe la estructura física y el proceso que mueve y transforma datos en el ambiente.

Metadata de negocio: describe la estructura de datos, reglas del negocio.

Reportes: Recopilan los datos de las tablas o consultas para permitir su impresión o análisis, facilitando la individualización de los datos más importantes y su representación.

2. DATA WAREHOUSE (BODEGA DE DATOS).

Un correcto análisis de los datos permite lograr una toma de decisiones acertada y generar mejores beneficios para las empresas, por esta razón se hace necesaria la utilización de herramientas que ayuden a llevar a cabo este tipo de actividades. En esta sección de este documento se realiza una breve introducción a los conceptos de DATA WAREHOUSE.

2.1 CONCEPTO.

Inmon propuso el término “Data Warehouse” y sugirió que la finalidad de éstos es hacer datos precisos, consistentes y que sean accesibles por los usuarios de forma eficiente. Una definición de Data Warehouse sería la siguiente: “Un Data Warehouse es una colección de datos orientados al tema, integrados, temporales y no volátiles para la toma de decisiones” [1].

2.2 CARACTERÍSTICAS DE UN DATA WAREHOUSE.

     

Es orientada al tema. Está organizada en torno a los datos más importantes de la empresa. Mediante filtros elimina información poco importante. La información se la obtiene desde distintas fuentes. La información obtenida y almacenada es consistente [2]. Maneja elevados volúmenes de información. 19


2.3 ARQUITECTURA DE UN DATA WAREHOUSE.

Un sistema de Data Warehouse consta de componentes esenciales, como lo son las fuentes de información, encapsuladores e integradores [3]. En la figura 2 se presenta la arquitectura de un Data Warehouse.

Figura 2: Arquitectura de un data warehouse.

Entre las fuentes de información se encuentran bases de datos transaccionales y bases de datos no convencionales (bases de conocimiento, bases de datos documentales, HTML, XML, etc).

El sistema encapsulador se compone de dos módulos: el primero se encarga de trasladar los datos hacia el repositorio y el segundo se encarga de monitorear la fuente de información y de informar si se producen cambios en las fuentes de conocimientos.

El integrador se encarga de filtrar y unificar la información proveniente de los encapsuladores, de forma que se encuentre disponible en el Data Warehouse. [3]. 20


2.4 DATA WAREHOUSING

Las compañías al intentar implementar un modelo de Data Warehouse se dieron cuenta que no se trataba de una pieza de software que se pudiera adquirir, sino más bien un proceso de reingeniería de la información que se forma con la organización [1], es por esta razón que algunos autores introdujeron el término de Data Warehousing y lo definen como un proceso para construir Data Warehouse, además de que implica la existencia de funciones que den soporte a la creación y mantenimiento de acceso a los usuarios finales para obtener datos completos y consistentes de la empresa con el propósito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora. Es en este punto donde surge uno de los principales enfoques tecnológicos orientado a la toma de decisiones empresariales: OLAP (On-line Analythical Proccesing). 2.5 METODOLOGÍA DE RALPH KIMBALL PARA EL DISEÑO DE DATA WAREHOUSE.

La metodología de Ralph Kimball está orientada a que exista una mejor calidad en proyectos de Data Warehouse. Kimball ha establecido ciertos pasos para llevar al éxito un proceso de creación de un Data Warehouse, estos pasos son:

Planeación y administración del proyecto. En esta etapa se plantea, lo que se pretende lograr con la creación de un Datamart.

Análisis de Requerimientos. En este proceso se entrevista al personal de la organización y se analiza las diferentes fuentes de datos externas o internas de la organización. Es importante documentar los requerimientos obtenidos y comunicarlos a los usuarios para adquirir su aprobación y compromiso.

Modelado Dimensional. Es el modelo conceptual de datos más amplio para el desarrollo de Data Warehouse. Este modelo proporciona una interfaz intuitiva para los usuarios, permitiendo a estos trabajar de forma interactiva. Se compone de dos elementos: las medidas o tablas de hechos y las dimensiones. Las tablas de hechos contienen variables de medida y se asocian a las tablas de dimensión para la descripción de los hechos. En estas tablas se utilizan operaciones de agregación como promedio, conteo, suma, etc., por lo cual las métricas a utilizar deben contener en lo posible valores numéricos. Las dimensiones describen los hechos de una manera general o detallada, por ejemplo si los hechos son ventas, las dimensiones podrían ser tiempo, ubicación, clientes y productos [7].Es evidente comprobar que las métricas en las tablas de hechos responden a valores cuantitativos, mientras que las dimensiones responden a valores cualitativos o de descripción. 21


Entre los puntos a tener en cuenta en el modelo multidimensional están: elegir el proceso del negocio, establecer el nivel de detalle o granularidad, elegir las dimensiones, identificar las medidas y tablas de hechos, diseñar las dimensiones y tablas de hechos.

Procesos de Extracción, transformación y carga. Este es un proceso muy delicado y es el que demanda más esfuerzo, requiere aproximadamente la mitad del esfuerzo. Existe un sistema especializado para realizar esta tarea, denominado ETL (extraction, transformation, load). El sistema ETL es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformarlos, limpiarlos, y cargarlos en otra base de datos o Data Warehouse para el análisis de la información [8].

Selección e instalación de productos. Para la selección de la herramienta se debe hacer un análisis riguroso de cada una de ellas. Además siempre se debe tener en cuenta cuales son los requerimientos de los usuarios y del negocio, teniendo en cuenta las limitaciones del hardware, entre otros puntos importantes. Una aplicación de usuario final, provee un diseño y estructura para reportes tomando como base los datos del Data Warehouse. Mantenimiento y crecimiento de un Data Warehouse. En un proyecto de Data Warehouse se debe pensar en el mantenimiento posterior a la implementación, pues estas soluciones de inteligencia de negocios tienen gran tendencia a crecer a medida que crece la información dentro de la organización. Es bueno aclarar que aunque la inversión en el Data Warehouse es bastante importante, esta herramienta retorna la inversión que se le hace.

2.6 MODELADO CONCEPTUAL DE UN DATA WAREHOUSE.

Esta sección debe tenerse en cuenta en el modelado mencionado anteriormente en la metodología de Ralph Kimball.

Dimensional

2.6.1 Esquema en estrella. Se basa en una tabla de hechos central conectado con un conjunto de tablas o relaciones de dimensiones y es una técnica de modelado que sirve para representar la información de manera multidimensional como se muestra en la figura 3.

22


Figura 3: Esquema en estrella.

2.6.2 Esquema de constelación. Este es una extensión del esquema en estrella y está constituido por múltiples tablas de hechos relacionadas con las tablas de dimensión (Figura 4).

Figura 4: Esquema de constelación.

2.6.3 Esquema de copo de nieve. Es una variante del esquema en estrella, donde algunas tablas de dimensiones están normalizadas (Figura 5).

23


Figura 5: Esquema de copo de nieve.

Para el almacenamiento y optimización debe tenerse en cuenta el concepto de Cubo, el cual está formado por casillas, las cuales tienen medidas, por ejemplo valores numéricos como las cantidades de ventas unitarias. Cada casilla es un hecho que se describe a través de las dimensiones, para agrupar estos valores [7]. El cubo de datos mostrado en la Figura 6 da un ejemplo claro de un cubo multidimensional, aunque se puede conocer como hipercubo, si conceptualmente tiene un número ilimitado de dimensiones.

Figura 6: Cubo de datos multidimensional.

24


3. TECNOLOGÍA OLAP.

Definición de OLAP. “OLAP es una categoría de tecnología software que permite a los analistas, directivos y ejecutivos acceder a los datos de forma rápida, consistente e interactiva a través de una amplia variedad de vistas de la información que han sido obtenidas de datos sin procesar para reflejar la dimensionalidad real de la empresa como la entiende el usuario” [4]. Los servicios OLAP constituyen un ambiente de proceso equivalente a las bases de datos y almacenamiento de datos, porque al igual que ellos, se encarga de recolectar, organizar y presentar la información de acuerdo con un modelo que facilite su explotación, requiriendo de un motor semejante a los manejadores de base de datos denominado “servidor OLAP” , encargado de brindar una función de sistema de soporte a las decisiones (SSD) a partir del análisis multidimensional de datos que satisfacen los requerimientos de una amplia variedad de usuarios. Se caracteriza por poseer criterios de rapidez, capacidad de análisis, facilidad de compartir, perspectiva multidimensional y valor de la información que debe cumplir.

3.2 DESCRIPCIÓN DEL PROCESO DE ANÁLISIS EN LÍNEA OLAP.

Como se puede apreciar en la Figura 7, el ambiente OLAP se compone de estructuras de datos y motores encargados de su administración y explotación. El flujo de operación inicia con la extracción de la información registrada en el depósito para organizarla en una estructura denominada almacén OLAP, a partir de ella se producen las “tablas pivote” cuyo contenido y formato está adaptado a facilitar los tipos de consulta que el usuario espera realizar. Es el programa que provee los servicios de análisis de información a través de la definición de una serie de parámetros que especifican el modelo de almacén de datos OLAP, la estructura de las tablas pivote y los procesos que responden a los planteamientos del tomador de decisiones.

Figura 7: Modelo de ambiente OLAP.

25


El modelo de almacenamiento OLAP es el área donde se organiza la información de acuerdo a un modelo cúbico de diversas dimensiones, que procura optimizar la respuesta a cierto tipo de requerimientos de explotación.

3.3 CLASES DE ARQUITECTURA OLAP.

3.3.1 ROLAP. La implementación de herramientas ROLAP débilmente acopladas con un SGBD se hace a través de SQL integrado en el lenguaje anfitrión del motor ROLAP. Los datos residen en el SGBD y son leídos registro por registro a través de ODBC, JDBC o de una interfaz de cursores SQL. La ventaja de esta arquitectura es su portabilidad. Sus principales desventajas son la escalabilidad y el rendimiento. El problema de escalabilidad consiste en que las herramientas y aplicaciones bajo este tipo de arquitectura, cargan todo el conjunto de datos en memoria, lo que las limita para el manejo de grandes cantidades de datos. El bajo rendimiento se debe a que los registros son copiados uno por uno del espacio de direccionamiento de la base de datos al espacio de direccionamiento de la aplicación ROLAP. Estas operaciones de entrada/salida cuando se manejan grandes volúmenes de datos son bastante costosas, a pesar de la optimización de lectura por bloques presente en muchos SGBD (Oracle, DB2, Informix, PostgreSQL.) donde un bloque de tuplas puede ser leído al tiempo (figura 8).

; Figura 8: Arquitectura ROLAP.

26


3.3.2 MOLAP. A diferencia de los sistemas ROLAP, el OLAP multidimensional es un modelo de datos de propósito especial, en cual las operaciones se hacen directamente sobre bases de datos multidimensionales (MDDs), que proporcionan un rendimiento muy alto en las consultas (figura 9). Otra ventaja del MOLAP respecto a ROLAP es la de tener operaciones nativas de OLAP, con un servidor de bases de datos multidimensional es fácil hacer pivot, roll-up, dril-down, con esto no es necesario recurrir uniones complejas y subconsultas del modelo relacional [3].

Figura 9: Arquitectura MOLAP.

3.3.3 HOLAP OLAP hibrido, este sistema une las ventajas de los dos sistemas anteriores, en el siguiente sentido, se utilizaría un esquema MOLAP para almacenar las regiones más densas definidas en cada datacubo. Las dispersas se almacenarían en un esquema ROLAP. Otra forma de realizar la hibridación seria, utilizar la estructura multidimensional como el cache de los datos del sistema de base de datos 27


relacional. Con esto se busca responder rápidamente a las consultas OLAP con los datos en cache, en el caso de no encontrar los datos en chache, se construiría la consulta SQL para recuperar los datos del sistema de base de datos relacional

3.4 MODELO MULTIDIMENSIONAL.

Cuando se creó el modelo relacional en los 80‟s, no se pensó en que sería utilizado para las aplicaciones de procesamiento analítico en línea, como reconoce su creador Codd en su artículo ([Cod93]), el modelo relacional cumple con las expectativas que despertó en su momento en lo concerniente al almacenamiento y acceso eficiente de los datos, pero no para el tipo de consultas y análisis de un sistema OLAP. Es por esto que surgió este modelo de una necesidad básica para estos sistemas que es el procesamiento de gran cantidad de consultas en un tiempo más o menos corto, para que permitiera trabajar de forma interactiva con los usuarios. Desde que surgió este modelo se ha tratado de realizar una formalización del mismo lo que ha conllevado a que surja no solo una, sino varias formalizaciones del modelo multidimensional entre los cuales se tiene:

3.4.1 Estructura. El modelo multidimensional está compuesto por dos elementos que son medidas o métricas y dimensiones: 3.4.1.1 Medidas o hechos. Contienen medidas del negocio que se está analizando: ventas, compras, producción, etc. Por lo general los datos que componen las medidas deben ser numéricos todo esto para que facilite las operaciones de agregación. 3.4.1.2 Dimensiones: Las dimensiones permiten definir un punto dentro del espacio multidimensional, además con ellas puedo elegir el nivel de detalle de las medidas que se esté analizando, todo esto debido a que cada dimensión puede tener uno o más niveles jerárquicos como ejemplo se tiene la figura 10.

28


Figura 10: Estructura Multidimensional.

En esta figura se puede observar tres dimensiones: tiempo, producto, lugar. Si se escoge la dimensión tiempo se puede tener los siguientes niveles: año, mes, semana, fecha; de igual forma, en la dimensión producto se tiene categoría y producto; en la dimensión lugar se encuentra estado y ciudad; de esta forma es posible moverse entre los diferentes valores de las jerarquías en las dimensiones, todo esto para ver información con mayor o menor detalle.

3.4.2 Operaciones de usuario. Con base a la estructura jerárquica de las dimensiones que se definieron anteriormente (figura 10), las operaciones que se puedan realizar sobre el modelo son: Operación Roll-up. Con esta operación se logra subir en la jerarquía, esto significa, aumentar el tamaño del grano al que están definidos los hechos. Al aplicar esta operación se necesita resumir información para adaptar el nivel de detalle de los hechos. En este proceso de resumen se utilizarán operadores de agregación, en la figura 11 se puede observar el resultado de aplicar esta operación.

29


Figura 11: Aplicación operaciones roll-up y drill-down sobre un cubo de datos.

Operación Drill-down: Esta operación es lo contrario de roll-up, ahora lo que se pretende es reducir el nivel de grano obteniendo un mayor nivel de detalle. Esto se traduce en cambiar el nivel de definición de los hechos a niveles inferiores de las jerarquías, en la figura 11 se puede observar el resultado de aplicar esta operación.

30


3.4.3 Operaciones de selección y proyección. En algunos análisis puede que no se utilicen todos los valores (selección) de todas las dimensiones (proyección), las operaciones slice y dice cumplen con estas funcionalidades.

Operación slice: Esta operación consiste en reducir la dimensionalidad del esquema eliminando alguna dimensión. Aplicar esta operación implica perdida de detalle en los hechos (se aumenta la granularidad) por lo que se tendrá que utilizar operadores de agregación para la obtención de los nuevos, en la figura 12 se puede observar el resultado de aplicar esta operación.

Figura 12: Operación Slice.

31


Operación dice: Con esta operación lo que se hace es restringir los valores que se consideran en las dimensiones según alguna condición. No se modifica la estructura del cubo de datos en cuanto a las dimensiones y niveles de estas, sino restringiendo los valores que se considere. En este caso, no se modifica el nivel de detalle de los hechos pero si su número, dado que aquellos que tuvieran como coordenadas valores no considerados deben ser eliminados.

Operación de pivotaje: Esta operación lo que persigue no es la modificación de la definición de la estructura de los cubos de datos. En realidad lo que se realiza es un cambio en el orden de las dimensiones, en la figura 13 se puede observar el resultado de aplicar esta operación.

Figura 13: Operación Pivot.

32


4. DATA MARTS UNIVERSIDAD DE NARIÑO.

Los Data Mart fueron diseñados adoptando el modelo conceptual en estrella definido anteriormente. Se acogió este modelo debido a que no se utilizó información de sub áreas correspondientes a tablas de la base de datos académica de la Universidad de Nariño 4.1 DISEÑO.

En esta sección se da a conocer todos los elementos multidimensionales que hicieron parte de la solución. Para el modelado de la solución se tomó como base el repositorio de la Universidad de Nariño, del cual con un previo análisis, se derivan los requerimientos para las dimensiones que se dan a conocer a continuación: 4.1.1 Dimensión Tiempo. Tiempo es la dimensión que determina a que año y periodo(A o B) pertenecen los datos cargados dentro del Data Mart y sobre los cuales se realizan las consultas en función del tiempo(Figura 14).

Figura 14: Modelo dimensión temporal.

4.1.2 Dimensión Geográfica. Geográfica es la dimensión que determina a qué lugar pertenecen los estudiantes de la Universidad de Nariño y los datos que se cargan en el Data Mart y sobre los cuales se realizan las consultas en función de la localización geográfica(Figura 15).

33


Figura 15: Modelo dimensión geográfica.

4.1.3 Dimensión Estudiante. Estudiante es la dimensión que determina a que estudiante pertenecen los datos cargados en el Data Mart y sobre los cuales se realizan las consultas en función de los estudiantes (Figura 16).

Figura 16: Modelo dimensión estudiante

34


4.1.4 Dimensión Estado. Estado es la dimensión que determina en qué condiciones se encuentra un estudiante si esta graduado, egresado etc. Y sobre los cuales se realizan las consultas en función de un estado asociado a los estudiantes (Figura 17).

Figura 17: Modelo dimensión estado.

4.1.5 Dimensión Colegio. Colegio es la dimensión que determina de qué institución provienen los estudiantes de la Universidad de Nariño, además me permite conocer qué tipo de colegio es privado o público etc. Y me permite realizar las consultas en función de los colegios o instituciones a las cuales pertenecieron (Figura 18).

Figura 18: Modelo dimensión colegio.

4.1.6 Dimensión Académica. Académica es la dimensión que me permite conocer la facultad y el programa que pertenecen los estudiantes de la Universidad de Nariño, además me permite realizar consultas en función de los programas y las facultades (Figura 19).

35


Figura 19: Modelo dimensión académica.

4.1.7 Dimensión Materia. Materia es la dimensión que me da a conocer a que materia pertenecen los datos que se cargan en el Data Mart y me permite realizar consultas en función de las materias que se dictan en la Universidad de Nariño (Figura 20).

Figura 20: Modelo dimensión materia.

4.1.8 Dimensión Nota. Nota es la dimensión que me da a conocer a que calificación pertenecen los datos que se cargan en el Data Mart y me permite realizar consultas en función de las notas dadas a un estudiante. Además me da a conocer a que estado pertenece si aprobó o no (Figura 21).

36


Figura 21: Modelo dimensión nota.

4.1.9 Dimensión Clase Nota. Clase Nota es la dimensión que me permite conocer que las notas que se ingresan al Data Mart como se obtuvieron si es habilitada, repetida etc. Y me permite realizar consultas en función de la clase de nota obtenida (Figura 22).

Figura 22: Modelo dimensión clase nota.

4.1.10 Esquema Multidimensional. A continuación se muestran los esquemas multidimensionales que se definieron para la construcción de los cubos de información (Figura 23 y 24).

37


Figura 23: Esquema multidimensional 1.

Figura 24: Esquema multidimensional 2.

38


4.2 DISEÑO RELACIONAL DE LOS DATA MART.

Las figuras (25 y 26) a continuación representan los diagramas relacionales de las estructuras relacionales usadas para la creación del modelo multidimensional usado para la construcción de los cubos. Para el diseño de los Data Mart se utilizó el esquema tipo estrella, ya que a diferencia del copo de nieve, se gana simplicidad en el diseño y velocidad de acceso para obtener las distintas jerarquías y se facilita el trabajo con la herramienta de modelado de cubos. .

Figura 25: Datamart cantidad estudiantes 1.

39


Figura 26: Datamart cantidad estudiantes 2.

4.3 UTILIZANDO ETL.

En esta seccion se explica los pasos seguidos para realizar la extracción, transformación y carga de los datos dentro de los Data Mart, desde las fuentes de datos externas a la plataforma. Se referirá a la extracción, transformación y carga como ETL de aquí en adelante.Este proceso gestiona las transformaciones y procesos intermedios a ejecutarse para realizar la carga de los datos requeridos en las diferentes tablas que representan las dimensiones y tablas de hechos de los Data Mart y posterior mente realizar los cubos de información. Para cargar los datos en una tabla utilizando procesos ETL , en Data Integration utilizamos Table Input para realizar la consulta de los datos que deseamos ingresar y Table Output que me permite ingresar los datos a una tabla deseada.A continuación se detallan los procesos creados:

40


4.3.1 Transformación dimensión tiempo (figura 27).

Figura 27: Transformación dimensión tiempo.

Esta transformación crea una tabla en la base de datos repositorio_dwh llamada dim_temporal . Para realizar esta transformacion se utilizó Generate Row en dos ocaciones, en la primera para generar 12 datos que me representaran los años de 2004 a 2015 y el segundo que me permitira generar dos datos que me representaran los periodos academicos 1 y 2 que se manejan en un año. Ademas se utiliza Add Sequence en dos oportunidades uno me genera una sequencia desde 2004 aumentado en uno, hasta 20015 y el segundo me genera los números 1 y 2, en seguida se utiliza Join Rows que me permite combinar la secuencia de años , para obtener 24 datos, dividiendo a cada año en dos periodos. Se utiliza Concat Fields el cual me permite unir los años con los periodos, tomando asi como un ejemplo 20041 y 20042. Luego se utiliza Value Mapper para cambiar los números de los periodos 1 a A y 2 a B , utilizando el ejemplo anterior se obtendria 2004A y 2004B. En seguida se utiliza Calculator que me permite cambiar el formato en que se encuentran los datos al deseado, en este caso los datos los convertimos a integer. Y poe ultimo cargamos los datos a la dim_temporal.

4.3.2 Transformación Dimensión Geográfica (figura 28).

41


Figura 28: Transformación Dimensión Geográfica.

Esta transformación crea una tabla con la informacion del lugar de recidencia de los estudiantes en la base de datos repositorio_dwh llamada dim_geografica, se utiliza Calculator que me permite cambiar el formato de los datos al deseado. 4.3.3 Transformación Dimensión Estudiante (figura 29).

Figura 29: Transformación Dimensión Estudiante.

Esta transformación crea una tabla en la base de datos repositorio_dwh llamada dim_estudiante, para realizar este proceso se utilizó dos Table Input que permiten obtener los datos de la base de datos sisben y estado_civil correspondientes a cada estudiante. Ademas se utilizó dos Data Grid que me permitieron generar las letras para los generos masculino(M) y femenino (F) , como tambien el identificador de los rangos de ingreso que poseen los estudiante de acuerdo a la siguiente tabla (figura 30): 42


Figura 30: Resultado ingresos por rangos.

Luego se utilizó combine que permite combinar los diferentes datos que se obtienen en las cuatro entradas de acuerdo a una caracteristica en común . En seguida con Calculator se cambia el formato de los datos a uno deseado, a continuación se hace uso de String Operations aumento los digitos de uno a dos cifras de algunos campos que luego me serviran para obtener el identificador de la dimension estudiante. Despues con Value Mapper convierto las letras del genero en números M a 1 y F a 2 . En seguida utilizando Concat Fields concateno los valores del sisben,estado civil,genero e ingresos, utilizando sus identificadores númericos con los cuales formo el ID de la dimension estudiante, con Calculator se combierten los datos a tipo entero y se ingresan los datos a la dim_estudiante. 4.3.4 Transformación Dimensión Estado (figura 31).

Figura 31: Transformación Dimensión Estado.

Esta transformación crea una tabla con la informacion del estado en que se encuentra un estudiante en la base de datos repositorio_dwh llamada dim_estado, se utilizó Calculator para cambiar el formato de los datos al que se desea ingresar en la tabla.

43


4.3.5 Transformación Dimensión Colegio (figura 32).

Figura 32: Transformación Dimensión Colegio.

Esta transformación crea una tabla con la información del colegio que provienen los estudiantes en la base de los datos repositorio_dwh llamada dim_colegio, se utiliza Calculator para cambiar el formato de los datos al que se desea ingresar en la tabla.

4.3.6 Transformación Dimensión Académica (figura 33).

Figura 33: Transformación Dimensión Académica.

Esta transformación me crea una tabla con la información del programa y la facultad que pertenecen los estudiantes en la base de datos repositorio_dwh llamada dim_academica, se utiliza calculator para cambiar el formato de los datos al que se desea ingresar en la tabla.

44


4.3.7 Transformación Dimensión Materia (figura 34).

Figura 34: Transformación Dimensión Materia.

Esta transformación me crea una tabla con la informacion de las materias en la base de datos repositorio_dwh llamada dim_materia, se utiliza Calculator para cambiar el formato de los datos al que se desea ingresar en la tabla. 4.3.8 Transformación Dimensión Nota (figura 35).

Figura 35: Transformación Dimensión Nota.

Esta transformación me crea una tabla con la información de las notas de 0 a 5 en la base de datos repositorio_dwh llamada dim_nota, se utiliza Generate Rows que me permite generar 51 datos, luego con Add Sequence para generar una secuencia de datos de 0 a 50 incrementándose de uno en uno. Utilizando Formula en primer lugar divido cada campo de la secuencia entre 10 para obtener datos decimales y en seguida con la segunda Formula se coloca el estado de la nota si es mayor a 3.0 aprobó (A) y si es menor de 3.0 reprobó (R). Y finalmente se ingresan los datos a la tabla de dim_nota.

45


4.3.9 Transformación Dimensión Clase Nota (figura 36).

Figura 36: Transformación Dimensión Clase Nota.

Esta transformación me crea una tabla con la información de las clases de notas en la base de datos repositorio_dwh llamada dim_clase_nota, se utiliza Calculator para cambiar el formato de los datos al que se desea ingresar en la tabla.

46


4.3.10 Transformación Hecho Estudiantes_Ingresos (figura 37).

Figura 37: Transformación Hecho Estudiantes_Ingresos.

Esta transformación me crea una tabla de hechos en la base de datos repositorio_dwh llamada fac_cantidad. Para esta transformación se utilizó Replace in String para poder separar del campo de la consulta del periodo el año y el periodo , como ejemplo 2004B los separamos en 2004 y B. Con Value Mapper se coloca valores numericos a los semestres en el año al A como 1 y B como 2. Ahora con Concat Fields uno el campo del año con el campo del semestre representado numericamente, por ejemplo 2004B lo representamos como 20042. Con Value Mapper se coloca valores numericos al genero a M el 1 y a F el 0. Con Formula coloco un valor numerico a los diferentes rangos de ingresos que presentan los estudiantes de acuerdo a la tabla de la figura 30. Se utiliza Calculator para cambiar el formato de los datos al que se desea ingresar en la tabla. Sort Rows que permite ordenar los datos de acuerdo al los campos de sisben, estado civil, género e ingresos. Se utilizó Combination Lookup/Update para generar las claves subrogadas de la tabla de hechos en base al sisben, estado civil, género e ingreso de los estudiantes. Sort Rows que permite ordenar los datos de acuerdo al los campos de ciudad, colegio, estado, programa, estudiante y periodo. Se utilizó Group By para agrupar los datos a ingresar de 47


acuerdo a los campos de la consulta ciudad, colegio, estado, programa, estudiante y periodo. Se utiliza Calculator para cambiar el formato de los datos al que se desea ingresar en la tabla. 4.3.11 Transformación Hecho estudiantes_notas (figura 38).

Figura 38: Transformación Hecho estudiantes_notas.

Esta transformación me crea una tabla de hechos en la base de datos repositorio_dwh llamada fac_notas. Para esta transformación se utilizó Replace in String para poder separar del campo de la consulta del periodo el año y el periodo , como ejemplo 2004B los separamos en 2004 y B. Con Value Mapper se coloca valores numericos a los semestres en el año al A como 1 y B como 2. Ahora con Concat Fields uno el campo del año con el campo del semestre representado numericamente, por ejemplo 2004B lo representamos como 20042. Con Value Mapper se coloca valores numericos al genero a M el 1 y a F el 0. Con Formula coloco un valor numerico a los diferentes rangos de ingresos que presentan los estudiantes de acuerdo a la tabla de la figura 30. Se utiliza Calculator para cambiar el formato de los datos al que se desea ingresar en la tabla. Se utilizó Combination Lookup/Update para generar las claves subrogadas de la tabla de hechos en base al sisben, estado civil, género e ingreso de los estudiantes. . Sort Rows que permite ordenar los datos de acuerdo al los campos de ciudad, colegio, 48


estado, programa, estudiante, periodo y nota. Se utilizó Group By para agrupar los datos a ingresar de acuerdo a los campos de la consulta ciudad, nota, programa, estudiante, periodo, clase nota y materia. Con Formula multiplico la nota por 10 para obtener un valor de decimal a entero, el cual se utilizará como el identificador de la dimension nota. Se utiliza Calculator para cambiar el formato de los datos al que se desea ingresar en la tabla.

5. PENTAHO SCHEMA WORKBENCH (Crea Cubos multidimensionales). En la plataforma Open Source de PENTAHO se incluye la herramienta OLAP Mondrian, que permite crear cubos de información para análisis multidimensional. Dichos cubos se componen de archivos XML y en ellos se definen las Dimensiones y las conexiones de los datos. Los archivos XML por lo general son complejos de realizar manualmente por lo que es común utilizar herramientas gráficas para realizar la edición de estos. Como ejemplo de estas herramientas Open Source Pentaho tenemos a Cube Designer para la Creación de cubos y el Workbench para la edición de los mismos. Estas herramientas las podemos descargar directamente desde el sitio web de Pentaho [6].Para nuestra investigación utilizaremos Workbench (Figura 39) para la implementación de los datamarts que se elaboró sobre la base de datos de la Universidad de Nariño que a continuación se explicara con detalle.

Figura 39: Schema workbench.

49


5.1 INSTALACIÓN Y CONFIGURACION.

Lo primero que debemos hacer es descargar Mondrian Schema Workbench (a.k.a Pentaho Schema Workbench -PSW-) .Una vez que se haya descargado el archivo, procedemos a descomprimirlo en algún lugar apropiado. Se lo puede descargar de la carpeta principal de Pentaho. Configuración. Una de las primeras cosas que se debe configurar al utilizar PSW, es la ubicación de los .jar que se emplearán en las conexiones con las distintas Bases de Datos.Para el caso de postgres es “postgresql-9.2-1002.jdbc4.jar”, el cual será ubicado en la carpeta "drivers" que se encuentra en la carpeta raíz en donde se instaló PSW (la carpeta por defecto se llama “schema-workbench”). Acceso. Luego se debe iniciar PSW en Windows: entrar en la carpeta del programa y ejecutar “workbench.bat”. Automáticamente se iniciará una ventana de Ms-dos y lanzará el programa en otra ventana. Conexión. Una vez que ingresamos a PSW, se podrá establecer la conexión con nuestra base de datos tal como se muestra en la siguiente imagen.

Figura 40: Conexión a base de datos universidad de Nariño.

50


5.2 CUBO CANTIDAD DE ESTUDIANTES 1(Implementación Datamart ).

En la figura 41 se puede observar el Datamart antes visto, implementado sobre la herramienta schema workbench. En el cual hemos definido una tabla de hechos llamada fac_cantidad, la cual tendrá las llaves foráneas que se conectan con las llaves primarias de las dimensiones tales como: dim_academica, dim_colegio,dim_estado,dim_estudiante,dim_geografia y dim temporal , las cuales tendrán información más detallada que más adelante explicaremos.

Figura 41: Cubo cantidad de estudiantes.

Sobre la tabla de hechos fac_cantidad, hemos definido una métrica (measure_cantidad), sobre la cual se harán las consultas. Ahora se analizara con más detalle el cubo(cube_udenar) en cuanto a sus Jerarquías y niveles. Habitualmente deseamos tener la información agrupada, y no siempre la queremos al mismo nivel de detalle. Para cubrir esta necesidad, dentro de una dimensión, disponemos de jerarquías, que nos permiten conseguir este objetivo,

51


agrupando la información a distintos niveles de detalle. A continuación se describen cada una de las dimensiones. • En la Estructura dimensión académica, se puede observar su jerarquía (Hierarchy_academica) con sus respectivos niveles, tales como programa y facultad (Figura 42). Con esta podemos saber o consultar la cantidad de estudiantes discriminado por programa y facultad.

Figura 42: Implementación Dimensión académica.

• En la dimensión colegio, se puede observar su jerarquía (Hierarchy_colegio) con sus respectivos niveles, tales como nombre de colegio(level_colegio) y tipo de colegio. Este es el máximo nivel de detalle a que se puede llegar con esta dimensión (Figura 43). Con esta podemos saber o consultar la cantidad de estudiantes discriminado por colegio y tipo de colegio.

Figura 43: Dimensión colegio.

52


Figura 44: Tabla datos dimensión colegio.

• En la dimensión estado, se puede observar su jerarquía (Hierarchy_estado) con sus respectivos niveles, tales como nombre del estado (level_estado) y tipo de colegio. Este es el máximo nivel de detalle a que se puede llegar con esta dimensión (figura 45). Con esta podemos saber o consultar la cantidad de estudiantes discriminado por estados.

Figura 45: Dimensión Estado.

53


Figura 46: Datos Consulta discriminado por estado.

• En la dimensión estudiante, se puede observar su jerarquía (Hierarchy_estudiante) con sus respectivos niveles, tales como género, estado civil e ingreso. Este es el máximo nivel de detalle a que se puede llegar con esta dimensión (figura 47). Con esta podemos saber o consultar la cantidad de estudiantes discriminados por género, estado civil e ingreso.

Figura 47: Implementación dimensión estudiante.

54


Figura 48: Tabla de datos dimensión estudiante.

• En la dimensión geográfica, se puede observar su jerarquía (Hierarchy_geografica) con sus respectivos niveles, tales como municipio, departamento y país. Este es el máximo nivel de detalle a que se puede llegar con esta dimensión (figura 49). Con esta podemos saber o consultar la cantidad de estudiantes discriminado por municipio, departamento y país.

Figura 49: Implementación dimensión geográfica.

55


Figura 50: Tabla de Datos dimensión geográfica.

• En la dimensión temporal, se puede observar su jerarquía (Hierarchy_temporal) con sus respectivos niveles, tales como año(level_year) y periodo(level_semester_per). Este es el máximo nivel de detalle a que se puede llegar con esta dimensión (figura 51). Con esta podemos saber o consultar la cantidad de estudiantes discriminado por año y periodo.

56


Figura 51: Implementación Dimensión Temporal.

Figura 52: Tabla de dato dimensión temporal.

5.3 CUBO CANTIDAD DE ESTUDIANTES 2 (Implementación Datamart).

En la figura 53 se puede observar el segundo Datamart que habíamos diseñado anteriromente implementado sobre la herramienta schema workbench .En el cual 57


hemos definido una tabla de hechos llamada fac_notas, la cual tendrá las llaves foráneas que se conectan con las llaves primarias de las dimensiones tales como: dim_academica,dim_colegio,dim_estudiante,dim_geografia, dim _temporal, dim_clase_nota ,dim_nota, dim_materia las cuales tendrán información más detallada que más adelante explicaremos.

Figura 53: Implementación de Datamart 2.

58


Sobre la tabla de hechos fac_notas, hemos definido una métrica (measure_cantidad), sobre la cual se harán las consultas. Ahora se analizara con más detalle el cubo(cube_notas_cantidad) en cuanto a sus Jerarquías y niveles. En este apartado solo explicaremos las dimensiones que fueron adicionadas (dim_clase_nota, dim_nota, dim_materia) ya que las demás son compartidas por los dos cubos que hemos elaborado y que habíamos explicado anteriormente. • En la dimensión nota, se puede observar su jerarquía (Hierarchy_nota) con sus respectivos niveles, tales como nota y estado de la nota (Figura 54). Con esta podemos saber o consultar la cantidad de estudiantes discriminados por nota y su estado.

Figura 54: Dimensión nota.

Figura 55: Tabla de datos dimensión nota.

59


• En la dimensión clase nota, se puede observar su jerarquía (Hierarchy_clase_nota) con su respectivo nivel (level_descripción). Con esta podemos saber o consultar la cantidad de estudiantes discriminados por el nombre de la clase de nota que en este caso es la descripción (figura 56).

Figura 56: Dimensión clase nota.

60


Figura 57: Tabla de datos de dimensión clase nota.

• En la dimensión materia, se puede observar su jerarquía (Hierarchy_materia) con su respectivo nivel (level_descripción), el cual corresponde al nombre de la materia. Con esta podemos saber o consultar la cantidad de estudiantes discriminados por materias matriculadas (Figura 58).

Figura 58: Implementación Dimensión materia.

61


Figura 59: tabla de datos de dimensión materia.

6. PENTAHO BI SUITE COMMUNITY EDITION.

Nos permitirá crear complejas soluciones a los problemas empresariales. El servidor Pentaho de código abierto de la comunidad es un grupo extraordinario de personas con muchos talentos diferentes que se dedican a la entrega de un bien integrada y completa gama de alta calidad de software de Business Intelligence. Después de un largo trabajo de diseño, de carga e implementación de los Datamart, proseguimos a visualizar los resultados en el servidor Pentaho y asi poder analizar su funcionalidad y desempeño. Al final de este proceso se elaboró dos cubos mondrian, los cuales fueron publicados en esta plataforma de BI. (Figura 14). Las pruebas se realizan en un prototipo funcional implementado en postgresql9.2.4-1, y los datos se visualizan en la herramienta Pentaho(Figura 60). Cabe

62


resaltar que la información utilizada contiene datos de estudiantes de 2004 hasta 2013.

Figura 60: Plataforma BI Pentaho.

SAIKU ANALYTICS: Herramienta para una mejor visualización de los resultados, permite presentar información dependiendo de lo que el usuario requiera, es decir se podrá realizar diferentes cruces de información de tal forma que se pueda discriminar por diferentes puntos de vista la información (Figura 61).

63


Figura 61: Saiku Analytics.

Ahora mediante la interfaz de saiku, realizamos nuestra primera prueba con una consulta sobre la cantidad de estudiantes discriminado por estado y programa a que pertenecen los estudiantes. (Figura 62).

64


Figura 62: Prueba 1 saiku.

Ahora efectuamos nuestra segunda prueba, obteniendo la cantidad de estudiantes inscritos, discriminados por programa y aĂąo (figura 63).

65


Figura 63: Prueba 2 saiku.

Analizando los resultados obtenidos en la figura 63 puede observarse por ejemplo que el número de admitidos en 2004 del programa de administración de empresas es menor que el número de admitidos en 2005 del mismo programa, además también el número de inscritos también es menor en 2004 del programa de arquitectura y mayor en 2007 del mismo programa, en gran medida a comparación con otros años.

6.1 PRUEBA 1.

La figura 64 nos muestra la cantidad de estudiantes de un programa que aprobaron y reprobaron materias en un año determinado. Para obtener este resultado cruzamos niveles pertenecientes a las dimensiones (dim_academica, dim_temporal,dim_nota y dim_materia).

66


Figura 64: cruce de dimensiones 1.

6.2 PRUEBA 2.

La figura 65 nos muestra la cantidad de estudiantes discriminados por facultad y estado civil .Las dimensiones que utilizamos para generar este resultado fueron: dim_estudiante y dim_academica.

67


Figura 65: Cruce de dimensiones 2.

Y asĂ­ nosotros podremos cruzar las dimensiones que deseemos y generar resultados cada vez mĂĄs detallada, gracias a las jerarquĂ­as y niveles que se establecieron en cada una de las dimensiones.

68


7. REPORT DESIGNER (RESULTADOS). 7.1 DEFINICION.

El Pentaho Report Designer es una herramienta independiente que forma parte de la unidad de reportes de Pentaho (Pentaho Reporting), que simplifica el proceso de generación de reportes, permitiendo a los diseñadores de reportes crear rápidamente informes sofisticados y ricos visualmente basados en el proyecto de reportes de Pentaho JFreeReport. El diseñador de reportes ofrece un entorno gráfico familiar, con herramientas Intuitivas y fáciles de utilizar, y una estructura de reporte bastante acertada y flexible para darle libertad al diseñador de generar reportes que se adapten totalmente a su gusto y necesidad. Los reportes permiten visualizar de forma rapida y llamativa los datos generados en una consulta, la finalidad es ayudar a las organizaciones a tomar mejores deciciones , al mostrar los diferentes datos organizados y con utilizacion de graficas estadisticas, que permiten comparar los diferentes fenomenos y la frecuencia en que se producen, para poder crear estrategias de mejoramiento, sobre los sectores que mas lo necesiten. Pentaho nos permite trabajar con PDI(Pentaho Report Designer) para la creacion de reportes. Para realizar los reportes se siguieron los siguientes pasos: 

Se configuró la fuente de datos en la cual se agregan las conexiones a la base de datos y demas configuraciones.

Se asigna la conexión a la base de datos donde se encuentra cargado el Data martes.

Se realiza la consulta SQL sobre el Data Mart con la información que se desea para el reporte.

Se seleccionan las columnas que interesen para mostrar en el reporte.

Luego se pasa a la etapa de personalizar el reporte que se desea mostrar en la cual le damos color,formato a los datos, fuente etc.

Por ultimo se publica el reporte para ser mostrado dentro del servidor pentaho.

69


7.2 CARACTERÍSTICAS.

Diseñador gráfico basado en “arrastrar y soltar” (drag & drop) que provee completo control de acceso a los datos, agrupaciones, cálculos, gráficas, formato, etc. para reportes de alta resolución.

Asistente paso a paso integrado que guía a los diseñadores de reportes durante el proceso de diseño.

Plantillas de reportes aceleran el proceso de generación, proporcionando un aspecto consistente y atractivo.

Opciones de salida flexibles incluyendo los populares formatos Adobe PDF, HTML, Microsoft Excel, entro otros.

7.3 ESTRUCTURA DE LOS REPORTES.

Un reporte como definicion general, consiste en un conjunto de secciones que definen las disposiciones y el contenido de la información dentro de este, las secciones son: 

Cabecera y pie del reporte: Los datos son impresos al comienzo y pie del reporte.

Cabecera y pie de pagina: Los datos son impresos al inicio y fin de cada página.

Cabecera y pie de grupo: Son impresos al inicio y fin de cada grupo respectivamente. Un grupo en general, contiene el nombre de una columna y su respectivo valor.

Contiene los datos que se desean mostrar y que se obtubieron de una consulta. Estos valores se repiten tantas veces como los devuelva en la consulta.

Sección de funciónes y expresiónes: Permite realizar diferentes calculos de valores, como un ejemplo, permite calcular el total de un valor que pertenece a un grupo.

70


Figura 66: Estructura reportes en Pentaho report designer.

AcontinuaciĂłn se dan a conocer los reportes que se desarrollaron con los datos sobre los estudiantes de la Universidad de NariĂąo

71


7.4 REPORTES(EJEMPLOS).

7.4.1 Reporte de estudiantes por año en cada facultad.

Este reporte, permite visualizar la cantidad de estudiantes que pertenece a cada facultad , estos datos son arojados al seleccionar el año que se dese consultar entre 2004 y 2013, los cuales se pueden locallizar en la parte superior del reporte. El reporte esta compuesto por seis partes: 

La cabecera de página que contiene el nombre de la universidad, el nombre de la facultad y del programa, como tambien el año que se desea consultar. Se presentan dos imágenes en cada extremo el logo de la Universidad de Nariño a la derecha y el logo del programa de sistemas a la izquierda.

La cabecera del reporte que contiene el nombre con el cual se identificará el reporte que se va a mostrar.

La cabecera del grupo que contiene el nombre de las columnas que se desean mostrar.

El detalle que contiene los datos que se desean mostrar en este caso el nombre de la facultad y la cantidad de estudiantes en ella.

El pie del grupo que contiene el total de estudiantes que se encuentran en todas las facultades.

El pie del reporte contiene los datos de la consulta a mostrar representado en una grafica estadistica.

72


Figura 67: Reporte de estudiantes por aĂąo en cada facultad.

73


Figura 68: Grafico pastel de estudiantes que perdieron materias por año en cada facultad.

7.4.2 Reporte de estudiantes que perdieron materias en cada facultad en un año dado.

Este reporte, permite visualizar la cantidad de estudiantes que perdieron materias por facultad , estos datos son arojados al seleccionar el año que se dese consultar entre 2004 y 2013, los cuales se pueden locallizar en la parte superior del reporte. El reporte esta compuesto por seis partes: 

La cabecera de página que contiene el nombre de la universidad, el nombre de la facultad y del programa, como tambien el año que se desea consultar. Se presentan dos imágenes en cada extremo el logo de la Universidad de Nariño a la derecha y el logo del programa de sistemas a la izquierda.

La cabecera del reporte que contiene el nombre con el cual se identificará el reporte que se va a mostrar.

La cabecera del grupo que contiene el nombre de las columnas que se desean mostrar.

74




El detalle que contiene los datos que se desean mostrar en este caso el nombre de la facultad y la cantidad de estudiantes que perdieron materias en ella.



El pie del grupo que contiene el total de estudiantes que se encuentran en todas las facultades que perdieron materias.



El pie del reporte contiene los datos de la consulta a mostrar representado en una grafica estadistica.

75


Figura 69: Reporte de estudiantes que perdieron materias en cada facultad en un aĂąo.

76


Figura 70:Grafico Pastel de estudiantes por año en cada facultad que perdieron materias.

7.4.3 Reporte de notas por año en cada facultad.

Este reporte, permite visualizar la cantidad de notas que se encuentra dentro de un rango que se puede escoger en la parte suoerior del reporte con nota inicio, que representa el inicio del rango a consultar y nota final, el cual es el límite del rango a consultar, por ejemplo la cantidad de notas por facultad que se obtubieron en un año determinado que se encuentre entre 2 y 3. Estos datos son arojados al seleccionar el año que se dese consultar entre 2004 y 2013, los cuales se pueden locallizar en la parte superior del reporte. El reporte esta compuesto por seis partes: 

La cabecera de página que contiene el nombre de la universidad, el nombre de la facultad y del programa, como tambien el año que se desea consultar. Se presentan dos imágenes en cada extremo el logo de la Universidad de Nariño a la derecha y el logo del programa de sistemas a la izquierda.

La cabecera del reporte que contiene el nombre con el cual se identificará el reporte que se va a mostrar.

77


La cabecera del grupo que contiene el nombre de las columnas que se desean mostrar.

El detalle que contiene los datos que se desean mostrar en este caso el nombre de la facultad y la cantidad de notas que se encuentran en el rango dado .

El pie del grupo que contiene el total de notas que se encuentran en todas las facultades que cumplen con el rango dado.

El pie del reporte contiene los datos de la consulta a mostrar representado en una grafica estadistica.

Figura 71: Reporte de notas por año en cada facultad.

78


Figura 72:Grafico pastel de notas obtenidas en cada facultad.

7.4.4 Reporte de estudiantes en cada facultad de acuerdo a un estado dado.

Este reporte, permite visualizar la cantidad de estudiantes que tienen el estado por el cual se desea consultar organizados por facultad , estos datos son arojados al seleccionar el año que se dese consultar entre 2004 y 2013, y el estado que se desea los cuales se pueden locallizar en la parte superior del reporte. El reporte esta compuesto por seis partes: 

La cabecera de página que contiene el nombre de la universidad, el nombre de la facultad y del programa, como tambien el año que se desea consultar. Se presentan dos imágenes en cada extremo el logo de la Universidad de Nariño a la derecha y el logo del programa de sistemas a la izquierda.

La cabecera del reporte que contiene el nombre con el cual se identificará el reporte que se va a mostrar. 79


La cabecera del grupo que contiene el nombre de las columnas que se desean mostrar.

El detalle que contiene los datos que se desean mostrar en este caso el nombre de la facultad y la cantidad de estudiantes que tienen un estado dado.

El pie del grupo que contiene el total de estudiantes que se encuentran en todas las facultades que tienen el estado que se desea consultar.

El pie del reporte contiene los datos de la consulta a mostrar representado en una grafica estadistica.

80


Figura 73: Reporte de estudiantes en cada facultad con estado desconocido.

81


Figura 74: Grafico pastel cantidad de estudiantes por facultad.

7.4.5 Reporte de estudiantes por año en cada facultad con un rango de ingresos dado.

Este reporte, permite visualizar la cantidad de estudiantes de acuerdo a un rango de ingresos dado, que se puede seleccionar en la parte superior del reporte organizado por facultad , estos datos son arojados al seleccionar el año que se dese consultar entre 2004 y 2013, los cuales se pueden locallizar en la parte superior del reporte. El reporte esta compuesto por seis partes: 

La cabecera de página que contiene el nombre de la universidad, el nombre de la facultad y del programa, como tambien el año que se desea consultar. Se presentan dos imágenes en cada extremo el logo de la Universidad de Nariño a la derecha y el logo del programa de sistemas a la izquierda.

La cabecera del reporte que contiene el nombre con el cual se identificará el reporte que se va a mostrar. 82


La cabecera del grupo que contiene el nombre de las columnas que se desean mostrar.

El detalle que contiene los datos que se desean mostrar en este caso el nombre de la facultad y la cantidad de estudiantes de acuerdo a un rango de ingresos dado .

El pie del grupo que contiene el total de estudiantes que se encuentran en todas las facultades que se encuentran dentro del rango de ingreso dado.

El pie del reporte contiene los datos de la consulta a mostrar representado en una grafica estadistica.

Figura 75: Reporte de estudiantes por año en cada facultad con ingresos menor a 2850000

83


Figura 76: Grรกfico pastel cantidad de estudiantes por ingresos en cada facultad.

84


RESULTADOS. 

Se identificó y se instaló la herramienta Pentaho BI (Inteligencia de Negocios) con sus diferentes módulos, seleccionada para su evaluación en este proyecto, además se obtuvo los repositorios de datos de prueba en la web, para analizar su desempeño y utilizar sus diferentes módulos. Con las actividades anteriores, se realizó un manual de implementación de la herramienta Pentaho biserver-ce en el sistema operativo Windows 7. (Anexo 1_software y Anexo 6_manuales).

Se obtuvo la base de datos del repositorio de los estudiantes de la Universidad de Nariño en postgresql (anexo 2_scripts/repositorio dwh Y revisar https://sites.google.com/site/rspentaho donde se encuentra el diccionario de datos) .

Se realizó dos Data Mart uno de estudiantes_ingresos y otro de estudiantes_notas de la Universidad de Nariño dentro de la base de datos repositorio_dwh (Revisar sección 4. DATA MARTS UNIVERSIDAD DE NARIÑO). (Anexo2_scripts/datamartUdenar).

Se realizaron procesos de extracción, transformación y carga ETL, para alimentar las diferentes dimensiones y tabla de hechos de los Data Mart. (Anexo 5_archivos_etl y sección 4.3 UTILIZANDO ETL.)

Se desarrollaron dos cubos OLAP acorde a los Data Mart desarrollados (ver Anexo 4_cubos ).

Se desarrollaron cinco reportes utilizando Report Designer (ver sección 7. REPORT DESIGNER y anexo 7_reportes).

Se tiene aceptado la participación del proyecto como poster en Manizales en el evento EIISI 2013 (ver anexo 8).

Se desarrolló un documento final en el cual se da a conocer las diferentes etapas de la investigación y la información pertinente a nuestro caso de estudio.

85


CONCLUSIONES. 

Con este proyecto , la Universidad de Nariño cuenta con la implementación de dos Datamart con información académica, los cuales permitirán contar con información histórica, clara y confiable de toda la información académica de la Universidad. Combinando esta tecnología con herramientas de análisis multidimensional, se puede descubrir nuevas estrategias que mejoren la toma decisiones en el área académica de la institución.

El proceso que de transformación de los datos necesita de mucho cuidado, la dificultad de este proceso depende de la organización de acuerdo a la cantidad de información que maneje y que tan compleja y diversa se encuentre dentro de las bases de datos fuente, sin embargo en nuestro caso de estudio disminuyó en un cierto grado la dificultad, porque ya se había realizado algunos procesos de limpieza y transformación de los datos.

Seleccionar una herramienta para el desarrollo de una bodega de datos DW no es fácil, por los aspectos que se deben tener en cuenta, uno de ellos, es verificar que procesos me permiten realizar tareas de ETL (extracción, transformación, carga) y aprovechamiento de los datos para generar procesos futuros. En nuestro caso de estudio se seleccionó Pentaho el cual cuenta con diversas herramientas y módulos que me permiten utilizar y trabajar los datos de una manera más eficiente y eficaz.

La documentación de conceptos de inteligencia de negocios y sobre Pentaho BI Server , permitió el apropiamiento de la terminología y definiciones necesarias para la implementación de este proyecto.

86


El uso de una interfaz BI de reportes de Pentaho, permite un manejo sencillo a los usuarios finales para generar sus reportes y análisis acorde a las necesidades de la organización o negocio, a diferencia a otras herramientas como las hojas de cálculo.

REFERENCIAS

[1] InmonW. H. y Hackathorn R. D. (1994) Using the DataWarehouse. Wiley-QED Publication. [2] Miranda, J.: Introducción a la Minería de Datos: Una perspectiva analítica, Departamento de Ingeniería Industrial, Universidad de Chile, Chile. [3] Fernández, C.: Imprecisión e Incertidumbre en el Modelo de Datos Multidimensional: Aplicación a la Minería de Datos, Editorial Universidad de Granada, Granada, España, (2005) [4] OLAP Council http://www.OLAPcouncil.org/index.html. [5] Object Oriented Modeling and Design Prentice Hall 1991. [6] Pentaho Corporation http://www.pentaho.com/index.php. [7] Mannino, M.: Administración de Bases de datos Diseño y Desarrollo de Aplicaciones, Editorial McGraw Hill, 3 edición, México, (2007). [8] Timarán, R.: Bodegas de Datos y Procesamiento Analítico en línea, en Electiva II Base de datos II, Universidad de Nariño, Pasto, Colombia, (2009).

87


88


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.