Metodologías y Herramientas aplicadas a soluciones BI
1
Capítulo 2 Metodologías y Herramientas aplicadas a soluciones BI
Objetivo Al finalizar el capítulo, el alumno podrá: Comprender las visiones de Bill Inmon y Ralph Kimball. Comprender los pasos de la metodología de Ralph Kimball. Evaluar el comportamiento de un conjunto de herramientas de inteligencia de negocios disponibles en el mercado.
Temas 1. 2. 3. 4. 5.
6. 7.
La visión de Bill Inmon: Inmon Corporate Information Factory La visión de Ralph Kimball: Kimball Bus Architecture Etapas de un proceso de Data Mart y Data Warehouse según la metodología de Ralph Kimball Herramientas de Inteligencia de negocios disponibles en el mercado Nuevas Tendencias • CRM • Datamining • Data Quality • Master Data • Big Data • Cloud Data Componentes de una solución BI Los 5 estilos del BI
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
1.
2
La visión de Bill Inmon: Inmon Corporate Information Factory
Bill Inmon es universalmente reconocido con el “Padre del Data Warehouse”. Tiene más de 26 años de experiencia en el campo de las bases de datos y diseño de Data Warehouses, ha publicado cerca de 40 libros y más de 350 artículos en las más importantes revistas especializadas. Su libro más reconocido es “Building DataWarehouse”. Bill Inmon ve la necesidad de transferir la información de los diferentes OLTP (Sistemas Transaccionales) de las organizaciones a un lugar centralizado donde los datos puedan ser utilizados para el análisis (sería el CIF o Corporate Information Factory). Insiste además en que ha de tener las siguientes características: •
• •
•
Orientado a temas. Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí. Integrado. La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes. No volátil. La información no se modifica ni se elimina, una vez almacenado un dato, este se convierte en información de selo lectura, y se mantiene para futuras consultas. Variante en el tiempo. Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
3
La información ha de estar a los máximos niveles de detalle. Los DWH departamentales o Datamarts son tratados como subconjuntos de este DWH corporativo, que son construidos para cubrir las necesidades individuales de análisis de cada departamento, y siempre a partir de este DWH Central (del que también se pueden construir los ODS (Operational Data Stores) o similares). El enfoque Inmon también se referencia normalmente como Top-down. Los datos son extraídos de los sistemas operacionales por los procesos ETL y cargados en las áreas de stage, donde son validados y consolidados en el DW corporativo, donde además existen los llamados metadatos que documentan de una forma clara y precisa el contenido del DWH. Una vez realizado este proceso, los procesos de refresco de los Data Mart departamentales obtienen la información de él, y con las consiguientes transformaciones, organizan los datos en las estructuras particulares requeridas por cada uno de ellos, refrescando su contenido.
Al tener este enfoque global, es más difícil de desarrollar en un proyecto sencillo (pues estamos intentando abordar el “todo”, a partir del cual luego iremos al “detalle”).
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
2.
4
La visión de Ralph Kimball: Kimball Bus Architecture
Las empresas actualmente poseen las siguientes necesidades de negocios que no pueden ser resueltas por los sistemas tradicionales: Ralph Kimball fue co-inventor de Xerox Star Workstation, el primer producto comercial en usar íconos y ventanas. Fue Vice-presidente de Metaphor Computer Systems, fundador y CEO de Red Brick Systems. Kimball es un referente de la metodología dimensional para diseñar grandes Data Warehouses, fue el que realmente explotó al máximo el tema de Data Warehousing. Actualmente, enseña Data Warehousing a diferentes grupos y ayuda a clientes con técnicas de diseño específicos. Kimball es columnista de la revista Intelligent Enterprise y tiene relación con Sagent Technology, Inc. Su libro “The Data Warehouse Tookit” es ampliamente reconocido como un pilar sobre la materia. Para Ralph Kimball el Data Warehouse es un conglomerado de todos los Data Marts dentro de una empresa, siendo una copia de los datos transaccionales estructurados de una forma especial para el análisis, de acuerdo al Modelo Dimensional (no normalizado), que incluye, las dimensiones de análisis y sus atributos, su organización jerárquica, así como los diferentes hechos de negocio que se quieren analizar. Por un lado, tenemos tablas para representar las dimensiones y por otro lado, tablas para los hechos (las facts tables).
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
5
Los diferentes Data Marts están conectados entre sí por la llamada bus structure, que contiene los elementos anteriormente citados a través de las dimensiones conformadas (que permiten que los bus contengan los elementos en común que los comunican). Una dimensión conformada puede ser, por ejemplo, la dimensión cliente, que incluye todos los atributos o elementos de análisis referentes a los clientes y que puede ser compartida por diferentes Data Marts (ventas, pedidos, gestión de cobros, etc.). Este enfoque también se referencia como Bottom-up, pues al final el Datawarehouse Corporativo no es más que la unión de los diferentes Datamarts, que están estructurados de una forma común a través de la bus structure. Esta característica le hace más flexible y sencillo de implementar, pues podemos construir un Data Mart como primer elemento del sistema de análisis, y luego ir añadiendo otros que comparten las dimensiones ya definidas o incluyen otras nuevas. En este sistema, los procesos ETL extraen la información de los sistemas operacionales y los procesan igualmente en el área stage, realizando posteriormente el llenado de cada uno de los Data Mart de una forma individual, aunque siempre respetando la estandarización de las dimensiones (dimensiones conformadas).
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
3.
6
Etapas de un proceso de Data Mart y Data Warehouse según la metodología de Ralph Kimball
Este diagrama muestra la secuencia de tareas de alto nivel requeridas para el efectivo diseño, desarrollo e implementación de Data Warehouses. El diagrama muestra una vista general del mapa de ruta de un proyecto en el cual cada rectángulo es una columna que nos indica dónde estamos, por dónde pasamos y hacia dónde debemos dirigirnos.
3.1 Planificación La planificación del proyecto es dependiente de los requerimientos del negocio, como podemos apreciar en el diagrama del Business Dimensional Lifecycle (BDL), ya que los requerimientos del negocio determinan el alcance del proyecto, definen los recursos necesarios, etc., la planificación acotará los requerimientos ya sea por cuestiones de recursos y/o tiempo. Esta etapa se concentra sobre la definición del proyecto, específicamente en la identificación del escenario del proyecto para saber de dónde surge la necesidad del Data Warehouse. Factores asociados con estas etapas incluyen: identificación de los usuarios, sponsors, convincentes motivaciones del negocio, cooperación entre áreas de sistemas y negocios, cultura analítica de la organización y análisis de factibilidad (tanto tecnológica como de disponibilidad de datos). Para medir estos factores propone un test de buena disposición del proyecto dónde describe diferentes escenarios posibles. Adicionalmente, propone técnicas (Relevamientos de Alto Nivel, Priorización de Requerimientos y Pruebas de Concepto) para mitigar las deficiencias que el proyecto pudiera tener en algunos de los factores mencionados anteriormente.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
7
Cómo metodología de estas etapas propone identificar el alcance preliminar basándose en los requerimientos del negocio y no en fechas límites (Deadlines), construyendo la justificación del proyecto en términos del negocio con indicadores como el ROI (Retorno de Inversión), NPV (Valor Presente Neto) y el IRR (Índice de Retorno Interno). A nivel de planificación del proyecto, establece la identidad del mismo, el personal (staff): los usuarios sponsors, líderes, gerentes del proyecto (tanto de sistemas como del sector usuarios), equipo “corazón” del proyecto (analistas, arquitectos, DBAs, diseñadores, responsables de extracción, desarrolladores, instructores, etc.), equipo “especial” del proyecto (soporte, seguridad informática, programadores, analistas de calidad y testing), el desarrollo del plan del proyecto, el seguimiento y monitoreo.
3.2. Definición de los requerimientos del Negocio La definición de los requerimientos del negocio establece la base para las tres etapas paralelas subsiguientes. Estas etapas están focalizadas en la tecnología, los datos y las aplicaciones, por lo cual es altamente crítica y es el centro de atención del BDL. Los usuarios finales y sus requerimientos impactan siempre en las implementaciones realizadas de un Data Warehouse. Según la perspectiva de Kimball, los requerimientos del negocio se posicionan en el centro del “Universo del Data Warehouse”. Como destaca siempre el autor, los requerimientos del negocio deben determinar el alcance del data warehouse (qué datos debe contener, cómo debe estar organizado, cada cuánto debe actualizarse, quiénes y desde dónde accederán, etc.). Kimball da consejos y técnicas para descubrir eficazmente los requerimientos del negocio. Estas tácticas y estrategias se focalizan sobre las entrevistas de relevamiento (diferentes tipos, preparación de la entrevista, roles a cubrir, búsqueda de información pre-entrevista, selección de entrevistados, desarrollo de los cuestionarios, planificación, preparación de los entrevistados, conducción de la entrevista, contenido, cierre, revisión de resultados, etc.).
3.3. Modelado Dimensional Ralph Kimball es realmente un referente en el tema de modelado dimensional. Por ejemplo, en el Capítulo 6 del libro A Graduate Course on Dimensional Modeling (Kimball,1998), se introducen conceptos avanzados del modelado, tales como, relaciones many to many en esquemas estrella, role-playing dimensions, relaciones recursivas, manejo de granularidades diferentes, múltiples unidades de medida, modelos multimoneda, bandas de rangos, consultas ROLAP avanzadas, análisis market basket, atributos puercoespín, etc.
3.4. Diseño Físico El diseño físico de las bases de datos se focaliza sobre la selección de las estructuras necesarias para soportar el diseño lógico. Algunos de los elementos principales de este proceso son la definición de convenciones estándares de nombres y configuraciones específicas del ambiente de la base de datos. Los índices y las estrategias de particionamiento son también determinadas en esta etapa.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
8
3.5. Diseño y Desarrollo de Presentación de Datos Todas estas tareas son altamente críticas pues tienen que ver con la materia prima del Data Warehouse: los datos. La desconfianza y pérdida de credibilidad del Data Warehouse serán resultados inmediatos e inevitables si el usuario se encuentra con información inconsistente. Es por ello que la calidad de los datos es un factor determinante en el éxito de un proyecto de Data Warehousing. Es en esta etapa donde deben sanearse todos los inconvenientes relacionados con la calidad de los datos fuente. Plan 1. 2. 3.
Crear un diagrama de flujo fuente-destino esquemática, de una página y a nivel global. Probar, elegir e implementar una herramienta de Data Staging. Profundizar en detalle por tabla destino, gráficamente describir las reestructuraciones o transformaciones complejas. Gráficamente ilustrar la generación de las claves surrogadas. Desarrollo preliminar de la secuencialidad de los trabajos.
Carga de dimensiones
1. Construir y probar la carga de una tabla dimensional estática. La principal meta de este paso es resolver los problemas de infraestructura que pudieran surgir (conectividad, transferencia, seguridad, etc.). 2. Construir y probar los procesos de actualización de una dimensión. 3. Construir y probar las cargas de las restantes dimensiones. Fact Tables y automatización 1. Construir y probar la carga histórica de las Fact Tables (carga masiva de datos). Incluyendo búsqueda y sustitución de claves. 2. Construir y probar los procesos de cargas incrementales. 3. Construir y probar la generación de agregaciones. 4. Diseñar, construir y probar la automatización de los procesos.
3.6. Diseño de la Arquitectura Técnica Ralph Kimball hace una analogía entre los planos arquitectónicos de una casa y la arquitectura de un Warehouse, Se debe de tener un plan antes de comenzar, no es simplemente reordenar y explotar la información. Al igual que en una construcción, los planos sirven para comunicar los deseos entre los clientes y el arquitecto, como así también para medir esfuerzos y materiales necesarios para la obra (comunicación, planificación, flexibilidad y mantenimiento, documentación, productividad y reúso). Finalmente, argumenta Kimball (1998), “un buen conjunto de planos, como cualquier buena documentación, nos ayudará más tarde cuando sea tiempo de remodelar o hacer incorporaciones”.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
9
3.7. Selección de Productos e Instalación Utilizando el diseño de arquitectura técnica como marco, es necesario evaluar y seleccionar componentes específicos de la arquitectura, cómo será la plataforma de hardware, el motor de base de datos, la herramienta de ETL o el desarrollo pertinente, herramientas de acceso, etc. Una vez evaluados y seleccionados los componentes determinados se procede con la instalación y prueba de los mismos en un ambiente integrado de Data Warehousing.
3.8. Especificación de Aplicaciones para Usuarios Finales Kimball (1998) divide el proceso de creación de las aplicaciones para usuarios finales en dos grandes fases: especificación y desarrollo. Clasifica a los usuarios según su perfil de consulta, desde usuarios con un perfil más estratégico y menos predecibles (Power Users) hasta usuarios netamente operacionales que consumen una serie de reportes estándares (Final Users) pasando por los usuarios gerenciales con uso de interfaces push-button (EIS Users). Kimball (1998) destaca cuatro pasos principales (siempre enfatizando el hecho de involucrar a los usuarios en cada uno de estos pasos).
Determinación del conjunto de templates iniciales (identificar reportes candidatos, clasificarlos y priorizarlos). Diseño de la estrategia de navegación dentro de la aplicación (esquema de pantallas, esquema de carpetas –directorios-, criterios de agrupamiento por datos, por dueño, por regla del negocio, etc.). Determinación de estándares (nombre de objetos, ubicación de objetos, formato de las salidas). Detalle de las especificaciones (definición: nombre, descripción o propósito, frecuencia, parámetros, restricciones, layout, etc.).
3.9. Desarrollo de Aplicaciones para Usuarios Finales Selección de un enfoque de implementación 1. Basado en Web - Inter/Intranet - Usuarios altamente distribuidos - Manejo centralizado de nuevas versiones 2. Herramienta propietaria - Mayor complejidad de uso - Para usuarios más capacitados - Instalación local 3. EIS - Acceso estructurado - Secuencialidad de pantallas - Push-Button
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
4. Interface personalizada - Application Programming Interface (API) - Desarrollos propios sobre la base funcionalidades
10
de
un
conjunto
de
Desarrollo de la aplicación i. Definición de herramienta de acceso al MetaData ii. Desarrollo de Templates y esquema de navegación de la aplicación iii. Selección de reportes para pre-ejecución Prueba y verificación de datos i. ii. iii. iv. v. vi.
Descripciones Información duplicada Relaciones entre atributos Consistencia e integridad de datos con sistemas fuentes Documentación y Roll Out Retroalimentación con los resultados de la puesta en producción
Mantenimiento i. ii. iii. iv.
Nuevos templates Incorporación de nuevos sistemas fuentes Monitoreo de performance Eliminación de templates en desuso
3.10. Implementación La tecnología que reside en el escritorio del usuario es la última pieza que debe ser ubicada antes de la salida a producción (Roll Out o Deployment). Desafortunadamente, afirma Kimball (1998), las organizaciones frecuentemente subestiman el esfuerzo y el tiempo requerido para esta etapa. Kimball, propone entonces un checklist sobre actividades que deberían ocurrir antes de la implantación, para asegurar que la infraestructura correspondiente al ambiente del usuario esté correcta. El checklist incluye: Configuración de Hardware, Conexión a las Bases, Acceso a Intranet o Internet, Direcciones LAN (si no son dinámicamente asignadas), Auditorías de Tecnología sobre las configuraciones en las que se encontraban las PCs. Asimismo, incluye prever actualizaciones de hardware y software (determinando responsables, proyecto o área de usuario), verificaciones de seguridad (logon de red y base de datos), prueba de procedimientos de instalación en una variedad de máquinas, planificación de instalación con la correspondiente educación a los usuarios. Debe instruirse al usuario en tres aspectos claves: contenido del warehouse, aplicación y herramientas de acceso.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
11
3.11. Mantenimiento y crecimiento Data Warehousing es un proceso bastante particular cuya evolución es en forma espiral. Esto permite ir afinando cada etapa y retroalimentándola hasta lograr el objetivo principal, que es plasmar el requerimiento del usuario en una base de datos para la toma de decisiones e ir creciendo con el tiempo. Kimball (1998 brinda una serie de puntos a tener en cuenta para mantener exitosamente el Warehouse. Entre ellos se destacan: el continuo soporte y la constante capacitación a usuarios de negocios, el manejo de la infraestructura (monitoreo de base de datos, tráfico, etc.), tuning de rendimiento sobre las consultas, mantenimiento de metadata y procesos ETLs. Otros aspectos involucran el monitoreo regular del cumplimiento de las expectativas sobre el Warehouse (variables de medición del éxito fijadas con anterioridad), relevamiento de casos de estudio (situaciones reales donde una decisión basada en información del Warehouse tuvo impacto sobre el negocio). Del mismo modo, la constante publicidad interna del uso del Warehouse (permitiendo acceso siempre y cuando se tenga la capacitación correspondiente) y fluida comunicación con los sectores de negocios y sistemas para asegurar la buena salud del Data Warehouse.
3.12. Gerenciamiento del Proyecto El gerenciamiento del proyecto se encuentra en cada una de las actividades del proyecto, desde su concepción hasta la puesta en producción. Es una fase vital dentro del Business Dimensional Lifecycle (BDL) permitiendo un rápido flujo de los requerimientos del área usuaria hacia el equipo de desarrollo del Data Warehouse. Asimismo, el buen manejo de situaciones inesperadas que puedan hacer peligrar el proyecto.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
4.
12
Herramientas de Inteligencia de negocios disponibles en el mercado
En el mercado actual encontramos distintas tecnología que, a su vez, son desarrolladas y soportadas por importantes casas de software reconocidas en el mercado que a continuación mencionaremos:
4.1 MicroStrategy
MicroStrategy es una de las pioneras empresas en Inteligencia de Negocios. El software de MicroStrategy permite crear informes y análisis de los datos almacenados en una Base de datos relacional y de otras fuentes. MicroStrategy describe su software de informes núcleo como "ROLAP" u "OLAP Relacional" para remarcar el uso de la tecnología de base de datos relacional y distinguirlo del OLAP tradicional, aunque también soporta tecnología MOLAP. Su suite de software más reciente se llama MicroStrategy Suite 9.4.1. Esta versión incluye mejoras importantes MicroStrategy en una serie de áreas proporcionando a los negocios la capacidad de construir sus propios cuadros de mando en cuestión de minutos. Visual Insigth es un producto que permite explorar los datos visualmente para descubrir ideas de negocio. Analizar los
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
13
datos importantes almacenados en Hadoop y otros motores orientados a Big Data. Mejorar la toma de decisiones con la analítica avanzada y predictiva Microstrategy nos ofrece como herramientas de análisis las siguientes:
Analytics Desktop.- Visualizador de escritorio permite analizar múltiples fuentes fácilmente Analytics Express.- Visualizador de data en la nube (Cloud BI) Analytics Enterprise .- Servidor empresarial de Business Intelligence
https://www.microstrategy.com/
4.2 SAP – Business Object
SAP es una empresa alemana líder en software ERP, entre su familia de productos tenemos: -
SAP ERP SAP Business Warehouse (BW) SAP Business Object (BO)
La familia de producto que más destaca en BI es SAP – Business Object que nos proporciona los siguientes productos para BI:
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
-
14
SAP Lumira.- Solución en la nube (Cloud BI) SAP HANA.- Solución BI en Memoria SAP Predictive Analysis .- Solución de Datamining SAP BO Web Intelligence - Motor central de soluciones empresariales BI http://www.sapbusinessobjectsbi.com
4.3 ORACLE
Oracle empresa líder en Base de Datos nos presenta las siguientes soluciones de Inteligencia de Negocios:
Oracle Exalytics.- Appliance optimizado tanto en software como en hardware para dar soluciones robustas y sólidas BI.
Oracle BI Publisher.- Enterprise Reporting que permite crear, gestionar y distribuir reportes para la toma de decisiones
Oracle Essbase .- Herramienta analítica OLAP
Oracle Endeca Information Discovery.- Self Services BI que permite realizar reportes analíticos estructurados y no estructurados.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
15
Oracle Scorecard and Strategy Managment.- Herramienta de Balanced Scorecard que permite la creación de tableros de control.
Oracle Data Integrator.- Herramienta ETL para limpieza, extracción y carga de datos. http://www.oracle.com/us/solutions/businessanalytics/businessintelligence/overview/index.html
4.4 MICROSOFT
Microsoft, empresa visionaria en Inteligencia de negocios proporciona las siguientes herramientas para soluciones de Inteligencia de Negocios:
SQL Server Integration Services.- Herramienta ETL que permite la extracción, transformación y carga de datos. SQL Server Analysis Services.- Herramienta OLAP que permite la creación de Cubos de Información y Datamining. SQL Server Reporting Services.- Herramienta Enterprise Reporting que satisface los 3 niveles del ciclo de vida de reportes empresariales: Creación, Administración y Envío. Master Data Services.- Servicio de maestro de datos que consolida las tablas principales en un solo servidor. Data Quality Services.- Servicio de calidad de datos
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
16
Power BI.- Conjunto de herramientas Self-Services BI que permite tomar decisiones y está compuesto por Power Pivot, Power View, Power Map y Power Query. https://www.microsoft.com/es-es/sqlserver/editions/2012editions/businessintelligence.aspx
4.5 IBM
IBM empresa de gran experiencia en el mundo informático presenta sus soluciones de inteligencia de negocios bajo el nombre de “Inteligencia Empresarial” siendo su producto más destacado COGNOS Business Intelligence que comprende lo siguiente:
-
Cognos Analysis for Microsoft Excel Cognos Business Intelligence Cognos Collaboration Cognos Insight Cognos Mobile Cognos Real-time Monitoring http://www-03.ibm.com/software/products/es/subcategory/SWQ20
4.6 PENTAHO
Pentaho, plataforma Open Source BI, nos proporciona las siguientes soluciones de inteligencia de negocios:
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
17
Pentaho Business Analytics.- Suite completa de Inteligencia de Negocios que se encuentra en la versión 5.0 comprende los siguientes elementos: -
Visual Analysis
-
Dashboards
-
Self-Services Reports
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
MetodologĂas y Herramientas aplicadas a soluciones BI
-
Data Integrator
-
Predictive Analytics
18
http://www.pentaho.com/product/business-visualization-analytics
Cibertec PerĂş S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
5.
19
Nuevas tendencias en Inteligencia de Negocios
5.1. CRM CRM (Customer Relationship Management), se entiende como la Gestión sobre la relación con los Consumidores. Pero, para su mejor comprensión básicamente se refiere a una estrategia de negocios centrada en el cliente.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
20
Bajo este concepto el CRM consiste en 10 componentes que los mencionamos a continuación: • • • • • • • • • •
Funcionalidad de las ventas y su administración El telemarketing El manejo del tiempo El servicio y soporte al cliente El marketing El manejo de la información para ejecutivos La integración del ERP (Enterprise Resource Planning) La excelente sincronización de los datos El e-Commerce El servicio en el campo de ventas
Sin embargo la palabra lealtad, sintetiza prácticamente su significado, ya que CRM se dedica a adquirir y mantener la lealtad del cliente, específicamente de aquellas cuentas más valiosas. "Obtendrás más de la billetera de tus clientes, cuando te tomes el tiempo de estar al pendiente de ellos"; así lo conceptualiza Janice Anderson, vicepresidenta de CRM Solutions de Lucent Technologies. Pero estos sistemas CRM no tendrían su utilidad sino se basan también en tecnologías de inteligencia de negocios que permitan crear inteligentes oportunidades de cross-selling y abrir la posibilidad a una rápida introducción de nuevos productos o marcas. En definitiva, lo que desean las empresas es reducir el costo de obtener nuevos clientes e incrementar la lealtad de los que ya se acercaron. Estos últimos pasan a conformar uno de los activos más valiosos de la empresa y esto es logrado con el Business Intelligence.
5.2. Datamining Data Mining es la extracción de información oculta y predecible de grandes bases de datos. Esta es una poderosa tecnología con gran potencial que ayuda a las compañías a concentrarse en la información más importante de sus Bases de Información (Data Warehouse).
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
21
Un Sistema Data Mining es una tecnología de soporte para usuario final cuyo objetivo es extraer conocimiento útil y utilizable, a partir de la información contenida en las bases de datos de las empresas. Los pasos a seguir en un sistema Datamining son los siguientes: •
Filtrado de datos El formato de los datos contenidos en la fuente de datos (Base de Datos o Data Warehouse) nunca es el idóneo, y la mayoría de las veces no es posible siquiera utilizar algún algoritmo de minería sobre los datos "en bruto". Mediante el pre procesado, se filtran los datos de forma que se eliminan valores incorrectos, no válidos, desconocidos, etc. según las necesidades y el algoritmo a usar se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reduce el número de valores posibles mediante redondeo, clustering, etc.
•
Selección de variables Aún después de haber sido pre-procesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son básicamente dos. a) Método basado en la elección de los mejores atributos del problema. b) Método que busca variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
•
Extracción del conocimiento Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un pre-procesado diferente de los datos.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
•
22
Interpretación y evaluación Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja sean válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Los sistemas de Data Mining se distinguen principalmente porque hacen uso de algoritmos especializados para encontrar patrones y tendencias, entre los principales tenemos: - Redes neuronales artificiales: modelos predecibles no-lineales
que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica. - Árboles
de decisión: estructuras de forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Métodos específicos de árboles de decisión incluyen Árboles de Clasificación y Regresión (CART: Classification And Regression Tree) y Detección de Interacción Automática de Chi Cuadrado (CHAI: Chi Square Automatic Interaction Detection)
- Algoritmos
genéticos: técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución.
- Método del vecino más cercano: es una técnica que clasifica
cada registro en un conjunto de datos basado en una combinación de las clases del/de los K registro(s) más similar(es) a él en un conjunto de datos históricos (donde k = 1). Algunas veces se llama la técnica del vecino k más cercano. - Regla de inducción: la extracción de reglas Si-Entonces (If-then)
de datos basados en significado estadístico. Muchas de estas tecnologías han estado en uso por más de una década en herramientas de análisis especializadas que trabajan con volúmenes de datos relativamente pequeños. Estas capacidades están ahora evolucionando para integrarse directamente con herramientas OLAP y de Data Warehousing. Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la información (knowledge-driven). De esta forma, nos proporciona un análisis prospectivo y automatizado basado en eventos pasados de la empresa.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
23
Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas. Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando información predecible que un experto no puede llegar a encontrar porque se encuentra fuera de su alcance. Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto performance o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar respuestas a preguntas tales como, "¿Qué clientes tienen más probabilidad de responder al próximo mailing promocional, y por qué?, y además presentar los resultados en formas de tablas, con gráficos, reportes, texto, hipertexto, etc. Las técnicas de Data Mining pueden ser implementadas rápidamente en plataformas ya existentes de software y hardware para acrecentar el valor de las fuentes de información existentes y pueden ser integradas con nuevos productos y sistemas pues son traídas en línea (On-line). Algunos ejemplos de las preguntas que se pueden responder con las herramientas de Data Mining son: -
¿Qué características tienen mis mejores clientes? ¿Qué características tienen los clientes que estoy perdiendo? ¿A quiénes debería dirigir mi campaña publicitaria? ¿Cuáles son los factores que inciden en que algunas máquinas tengan mayores tasas de fallas que otras? - ¿Es efectiva la aplicación de una droga medicinal? ¿Cuáles fueron los cinco grupos que obtuvieron los mejores resultados? - ¿A quiénes no debo venderles seguros contra todo riesgo? - ¿Qué factores inciden en el aumento de la tasa de fallas?
5.3 Data Quality Data Quality o Calidad de Datos se refiere a los procesos, técnicas, algoritmos y operaciones encaminados a mejorar la calidad de los datos existentes en las empresas. Gracias a la calidad de datos, los datos empresariales se vuelven fiables y garantizan el éxito en iniciativas estratégicas clave. La calidad de los datos se puede convertir en una prioridad de toda la empresa, con lo que se reduce la dependencia de los escasos recursos de IT, al tiempo que se potencia la obtención de mejores resultados de negocio.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
24
Entre las características de la calidad de datos tenemos: •
Supervisión y limpieza de forma proactiva de los datos de todas las aplicaciones. • Permite al negocio compartir la responsabilidad de la calidad y del gobierno de datos. • Impulsa mejores resultados con unos datos empresariales fiables. Según Claudia Imhoff para conseguir una exitosa estrategia en la calidad de los datos se necesita prestar atención a ciertos aspectos que podemos considerar como críticos: •
•
•
•
•
Analizar e identificar los datos: es el punto de partida clave para el éxito. Se trata de ver cómo de completos son los datos y cómo de ajustados y exactos a la realidad de la compañía. Calidad de los datos: se trata de ver las técnicas que manejamos para identificar los datos erróneos, cuánta información errónea existe y las causas de esas deficiencias. Integración de los datos: Básicamente es recoger toda la información de fuentes diversas e integrarlas en un único lugar común. El problema surge cuando vemos que existe mucha información duplicada en diferentes lugares o con nombres parecidos. Se hace preciso estandarizar todo el proceso. Enriquecer los datos: Aquí se trata de añadir información de fuera de los actuales sistemas operacionales (de terceros, competencia, estudios de mercado, no tabulados, etc.). Monitorización de los datos: Realizar una correcta gestión de la calidad de los datos requiere un gran esfuerzo operativo y económico. Por ello, es necesario establecer un sistema que nos identifique las mejoras, nos establezca alertas y audite los resultados.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
25
5.4 Master Data Actualmente, las empresas poseen sus datos maestros en diferentes sistemas, así nuestros clientes pueden estar en un sistema CRM, en un ERP, en un Sistemas de Ventas Web, en un archivo Excel, etc. La pregunta es ¿cómo consolidamos toda esa información? Una solución es aplicar una estrategia MDM (Master Data Management) soportada por una solución tecnológica que permita a las organizaciones gestionar y consolidar los datos maestros dispersos ofreciendo una visión única de clientes, productos, etc.
MDM Consiste en un conjunto de procesos y herramientas que define y gestiona de forma consistente las entidades de datos no transaccionales de una organización. Busca, por lo tanto, recopilar, agregar, identificar, asegurar la calidad y la persistencia y distribuir los datos de forma uniforme en dicho contexto. MDM se compone de tareas como las siguientes: • • • • • • • •
Identificar las fuentes de origen de los datos. Identificar los productores y consumidores de datos maestros. Recopilar y analizar metadata sobre los datos maestros recopilados en el primer paso. Determinar los responsables (administradores) de los datos maestros. Implementar un programa de data governance (y de forma consecuente tener un grupo responsable de dicho programa). Desarrollar el modelo de metadatos maestros. Escoger una solución o conjunto de soluciones como medio para mejorar la calidad de datos. Diseñar la infraestructura necesaria.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
• • •
26
Generar y testear los datos maestros. Modificar los sistemas consumidores y productores de información. Implementar un proceso de mantenimiento.
Es un proceso complejo, pero que cada vez se vuelve más necesario, sobretodo actualmente en el que el concepto tradicional de Data Warehouse ha ido evolucionando a estructuras más complejas y diversas y, por lo tanto, necesitan de fuentes de mayor calidad y consistencia.
5.5 Big Data Big Data se refiere a conjuntos de datos que crecen tan rápidamente que no pueden ser manipulados por las herramientas de gestión de bases de datos tradicionales. Sin embargo, el tamaño no es el único problema al que nos enfrentamos si buscamos una solución: además de almacenarlo, es necesario capturar, consultar, gestionar y analizar toda esta información. Al margen del análisis de tendencias de negocio, para muchas compañías es necesario mantener a lo largo de tiempo, ya sea por imposición legal o por pura operatividad, un gran número de datos estructurados y no estructurados: grandes masas de documentos, emails, y otras formas de comunicación electrónica que es necesario almacenar o consultar y que no hacen otra cosa que crecer de forma exponencial. Sin embargo, el concepto de Big Data se extiende más allá de lo que estamos acostumbrados a entender por “grandes volúmenes de información”. Siempre que hagamos una búsqueda, enviemos un email, usemos un teléfono móvil, actualicemos una red social, usemos una tarjeta de crédito, vayamos al gimnasio, activemos el GPS, demos parte a un seguro o hagamos la compra en el supermercado, dejamos detrás de nosotros una montaña de datos, huellas digitales y registros que ofrecen una información muy valiosa y cuyo estudio es la ambición de todo analista. La enorme cantidad de datos que generan empresas, usuarios y dispositivos, ha experimentado un crecimiento explosivo que requiere su análisis para obtener ventajas competitivas.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
27
El Big Data se está convirtiendo en el punto de inflexión de las empresas que consiguen “dominarlo”, empresas que se han dado cuenta que la manera de obtener ventaja es tener la capacidad de procesar uno de sus principales activos: la información que la propia empresa genera. El pionero en el uso y manejo de Big Data fue Google a través de sus tecnologías MapReduce y Google File System (GFS), que fue evolucionando hasta llegar a ser Hadoop que actualmente es desarrollado como framework por Apache.
Sin embargo, no sería correcto olvidar otros retos, al margen de los tecnológicos que nos encontraremos al llevar a cabo esta tarea. En primer lugar, los datos por sí mismos son incapaces de producir un beneficio. Solo los humanos que sepan explotarlos podrán hacerlo. Es por esto que además de la tecnología necesaria para mover tal volumen de datos, es necesario afinar al máximo las metodologías y procesos que se utilizan para acceder y explotar esta información. Por otro lado, privacidad. ¿Cómo se podrían garantizar los derechos fundamentales de privacidad de los usuarios ante un escenario así? ¿Serán aún aplicables o técnicamente viables algunos requisitos legales como el derecho de acceso en unos años?
5.6 Cloud Data Una tendencia actual es el uso del Cloud Computing (computación en la nube) el mismo que provee una serie de servicios conocidos como SAAS, PAAS, IAAS. Los datos también son proporcionados como servicios de almacenamiento y distribución llamados Cloud Data. Estos datos pueden ser consumidos desde MarketPlace que se ofrecen en forma gratuita o pagada. Estos datos los podemos encontrar almacenados tanto en forma estructurada como no estructurada y en diferentes motores de base de datos como SQL Azure, Mongo DB, etc. Otra tecnología emergente del Cloud Data es el Open Data.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
6.
28
Componentes de una solución BI
Las soluciones BI que actualmente se encuentran en el mercado, poseen características comunes y particulares, debiendo poseer como mínimo los siguientes componentes:
6.1 Data Warehouse Es la respuesta de la tecnología de información a la descentralización en la toma de decisiones. Coloca información de todas las áreas funcionales de la organización en manos de quien toma las decisiones. También proporciona herramientas para búsqueda y análisis.
6.2 Integración de Datos La información debe ser generada e integrada a partir de los datos empresariales. Esta información es el producto de una estandarización y limpieza a través de herramientas conocidas como ETL: Extracción, Transformación y Carga.
6.3 Multidimensionalidad La información multidimensional se puede encontrar en hojas de cálculo, bases de datos, etc. Una herramienta de BI debe de ser capaz de reunir información dispersa en toda la empresa e incluso en diferentes fuentes para así proporcionar a los departamentos la accesibilidad, poder y flexibilidad que necesitan para analizar la información. Por ejemplo, un
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
29
pronóstico de ventas de un nuevo producto en varias regiones no está completo si no se toma en cuenta el comportamiento histórico de las ventas de cada región, la forma en que la introducción de nuevos productos se ha desarrollado en cada región, etc.
6.4 Agentes Los agentes son programas que "piensan". Ellos pueden realizar tareas a un nivel muy básico sin necesidad de intervención humana. Por ejemplo, un agente puede realizar tareas como elaborar documentos, establecer diagramas de flujo, etc.
6.5 Data Mining Las empresas suelen generar grandes cantidades de información sobre sus procesos productivos, desempeño operacional, mercados y clientes. Pero el éxito de los negocios depende por lo general de la habilidad para ver nuevas tendencias o cambios en las tendencias. Las aplicaciones de Data Mining pueden identificar tendencias y comportamientos, no solo para extraer información, sino también para descubrir las relaciones en bases de datos que pueden identificar comportamientos que no muy evidentes.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
7.
30
Los 5 estilos del BI
Las primeras herramientas de data warehousing y soporte mostraron a las empresas el potencial y las ventajas de acceder a los datos corporativos y analizarlos. Los usuarios de todos los niveles encontraron formas nuevas y sofisticadas de analizar y generar informes de la información extraída de sus Data Warehouses. La tecnología de BI ha evolucionado debido a las demandas de los usuarios por obtener su información de diferentes maneras. Estos cinco estilos representan el espectro completo de la funcionalidad de BI necesaria para dar soporte a las necesidades analíticas, de supervisión y de generación de informes de todos y cada uno de los usuarios empresariales. Los 5 estilos del BI son los siguientes: • • • • •
Enterprise Reporting Análisis con Cubos Consultas Ad Hoc Análisis Estadísticos y Data Mining Envío Proactivo de Alertas
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
31
7.1 Enterprise Reporting Este estilo de Business Intelligence busca la máxima capacidad en el diseño y presentación de los informes, desde los netamente operacionales y muy detallados hasta los tableros gerenciales más resumidos. La idea es tener el control absoluto de dónde se incluye determinado indicador, reporte, grilla, gráfico, logo, texto libre, y demás objetos, optimizando al máximo todo lo que tenga que ver con la presentación del informe. Incluso para poder visualizarlo de igual modo tanto en la computadora como en una impresión. Factores determinantes de un buen ER: • • • • • •
Integra el ambiente de Reporting y Análisis. Permite elaborar todo tipo de reportes, desde análisis operativos hasta estratégicos. Utiliza la misma Metadata para toda la plataforma. Elimina los cuellos de botella relativos al área de IT. Da respuesta a exigentes demandas de producción. Permite el acceso a los reportes por cualquier canal: Web, File Server, impresora en red, etc.
7.2 Análisis con Cubos Este estilo tiene que ver con el análisis de información muy sumarizado y altamente repetitivo, el típico análisis por desvío. Así como en un avión tenemos los indicadores claves que determinan la altitud y la velocidad entre otros factores críticos para el vuelo, toda compañía debe tener un tablero de control con los indicadores claves según su estrategia. Factores determinantes de un buen análisis con cubos: • • • • • • •
Brinda una rápida performance para niveles sumarizados de información. Permite realizar cálculos definidos por el usuario. Realiza análisis Offline. Permite el acceso a relacionales como a los no relacionales. Genera rápidamente cubos sin pre-cálculo de datos. Realiza la expiración y refresco automático de datos. Permite la creación dinámica por el usuario vía Windows® o Web.
7.3 Consultas Ad Hoc Este estilo del BI permite al analista de negocio poder llegar a un nivel de detalle aún mayor, cuando requiera responder a particularidades encontradas en los datos resumidos y sumarizados.
7.4 Análisis Estadísticos y Data Mining Este estilo, mucho más específico y generalmente con usuarios mucho más sofisticados, permite encontrar patrones y tendencias que se encuentran ocultas en las bases de datos, sin intervención humana.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014
Metodologías y Herramientas aplicadas a soluciones BI
32
Factores determinantes de un buen Análisis Estadístico y Data Mining: • • • • • • • • • • • •
Brinda soporte de Very Large Database (VLDB). Realiza análisis de Conjuntos. Permite rápida creación de Reportes. Realiza análisis de Segmentación. Permite análisis Multi Pass SQL dinámico. Crea Data Mart en forma dinámica. Contiene librería de funciones. Brinda funciones personalizadas. Se integra con Herramientas de Data Mining. Permite formateo avanzado de Reportes. Brinda incomparable Interactividad de Reportes. Realiza agrupaciones definidas por el usuario.
7.5 Envío Proactivo de Alertas Existe un estilo particular de Business Intelligence que está orientado al envío de información de forma proactiva y personalizada. Aquí el usuario define exactamente qué información quiere recibir, en qué momento, bajo qué formato y por cuál medio. Es la opción más conveniente para aquellos analistas que se encuentran fuera de su lugar de trabajo, que necesitan estar informados en todo momento para tomar decisiones acertadas en el momento preciso y en el lugar indicado con la información correcta. Factores determinantes para un buen envío de Alertas • • • • • •
Realiza auto-suscripción que permite a los usuarios especificar sus preferencias. Permite capacidades de personalización que aseguran el contenido y formato apropiados para cada usuario. Brinda soporte de variedad de dispositivos y modelos de e-mail, PDA, teléfonos celulares, pager, fax, y web. Realiza envío de información según criterios de planificación y excepción o alerta. Permite amplia escalabilidad y tolerancia a fallas con capacidades nativas. Brinda facilidad para la creación de mensajes.
Cibertec Perú S.A.C - Business Intelligence SQL Server 2014