Curso Integraci贸n de Datos con Pentaho Data Integration (PDI) Pentaho Community Edition 5.0
Gu铆a del Estudiante
Richard Osmar Leon Ingaruca http://jrichardsz.weebly.com
Guía del Estudiante
Ejercicios Este curso incluye los siguientes ejercicios Ejercicio 1: Introducción al entorno de desarrollo de Pentaho. Ejercicio 2: Primer ETL Ejercicio 3: Conexión/Configuración a base de datos. Ejercicio 4: Pentaho Design Studio y Xactions Ejercicio 5: Pentaho BI Server: Configuración de Repositorios y Base de datos. Ejercicio 6: Pentaho BI Server: Ejecución, Programación y Monitoreo de Jobs Ejercicio 7: Variables, parámetros y Javascript. Ejercicio 8: Sentencias Lógicas para manipular los registros. Ejercicio 9: Manejo de Errores, logs y notificaciones por email.
Página 1
Guía del Estudiante
Abreviaturas Nombre Pentaho Data Integration Directorio PDI Pentaho Data Studio Material del Curso
Descripción IDE de desarrollo usado para desarrollar ETL. También conocido como SPOON Directorio donde se ha descomprimido el PDI IDE para el desarrollo de xactions Material suministrado por el instructor
Abreviatura PDI PDI_DIR PDS MATERIAL
Página 2
Guía del Estudiante
Instrucciones Se recomienda llevar a cabo todos los ejercicios, ya que la resolución de ejercicios posteriores dependerá de ello. El instructor suministrara un archivo comprimido con el material del curso. Descomprimirlo y guardarlo en disco.
Página 3
Guía del Estudiante
Contenidos Ejercicios ..................................................................................................................... 1 Instrucciones .............................................................................................................. 3 Breve descripción del Framework ............................................................................. 5 Ejercicio 1. Introducción al entorno de desarrollo de Pentaho. .............................. 7 Instrucciones para el ejercicio ........................................................................................ 8 Parte 1: Iniciar el entorno de desarrollo: PDI ................................................................ 8 Parte 2: Crear y Seleccionar un repositorio .................................................................. 9 Parte 3: Crear carpetas dentro del repositorio ........................................................... 10 Parte 4: Vista general de la interfaz.............................................................................. 11 Parte 5: Creación del ETL .............................................................................................. 11 Parte 6: Ejecución del ETL desde el PDI ..................................................................... 15 Parte 7: Logging del ETL ............................................................................................... 15 Lo que aprendiste ........................................................................................................... 18
Ejercicio 2. Primer ETL – Transformación .............................................................. 19 Instrucciones para el ejercicio ...................................................................................... 20 Parte 1: Configuración del Step de Input .................................................................... 20 Parte 2: Configuración del Step de Output ................................................................. 21 Parte 3: Ejecución de la Transformación .................................................................... 23 Lo que aprendiste ........................................................................................................... 24
Ejercicio 3. Conexión a base de datos .................................................................... 25 Instrucciones para el ejercicio ...................................................................................... 26 Parte 1: Configuración de la conexión: JDBC ............................................................ 26 Parte 2: Configuración de la conexión: JNDI .............................................................. 28 Parte 3: Creación del STEP: TABLE INPUT ................................................................. 30 Parte 4: Creación del STEP: TABLE OUTPUT ............................................................. 32 Lo que aprendiste ........................................................................................................... 35
Ejercicio 4. Pentaho Design Studio y Xactions....................................................... 36 Instrucciones para el ejercicio ...................................................................................... 37 Parte 1: Iniciar el DI Server ............................................................................................ 37 Parte 2: Creación del Proyecto que contendrá los xaction ....................................... 37 Parte 3: Referenciar al job sin Repositorio ................................................................. 39
Página 4
Guía del Estudiante
Breve descripción del Framework Pentaho es una herramienta de Business Intelligence desarrollada bajo la filosofía del software libre para la gestión y toma de decisiones empresariales. Es una plataforma compuesta de diferentes programas que satisfacen los requisitos de BI. Ofreciendo soluciones para la gestión y análisis de la información, incluyendo el análisis multidimensional OLAP, presentación de informes, minería de datos, ETL y creación de cuadros de mando para el usuario. La plataforma ha sido desarrollada bajo el lenguaje de programación Java y tiene un ambiente de implementación también basado en Java, haciendo así que Pentaho sea una solución muy flexible al cubrir una alta gama de necesidades empresariales. Pentaho usa las siguientes librerías, frameworks o tecnologías: Adaptx Ascsapjco3wrp Browserlauncher2 Commonslogging Dynamodb Ftp4che Gwtext Ifxjdbc Jakarta-regexp Javacup
Ant-contrib Asm Casandra
Apachecassandra Barbecue Com
Apache-cassandra-thrift Biz Commons-codec
Commons-vfs Eigenbase Georss-rome Gwt-fx Infobright Jakarta-taglibs Javadbf
Concurrent Elasticsearch Gnujaxp Hadoop Interbase Janino Javaparser
Dedupe Feed4j Gwt-dnd Hsqldb Itext Jars Javax
Jaybird Jcommon Jgoodiescommon Jsonpath Ldapjdk Mdx4j Monetdb
Jboss Jcommon-logging-log4jlog
Jcalendar Jexcelapi
Jcifs Jfree
Jgoodies-looks Jtds Libthrift Memcached Net
Jofc2 Jug-lgpl Log4j Metadatas Nickyb
Jsch Ktable Luciddb Metro Ofc4j
Ofcgwt Openjava Pentaho Rhino Secondstring Sun Trilead-ssh2
Olap4j Opensymphony Poi Rome Soap Svgsalamander Vaadin
Oopsconsultancy Org Postgresql Saaj-ri Splunk Svnant Weka
Openerp Palo Retroweaver Salesforce Sqlitejdbc Tigris Wsdl4j
Xerces
Xml-apis
Página 5
GuĂa del Estudiante
PĂĄgina 6
Guía del Estudiante
Ejercicio 1. Introducción al entorno de desarrollo de Pentaho. De qué trata este ejercicio El objetivo de este ejercicio es mostrar el uso del entorno de desarrollo de ETL del Pentaho: PDI.
Este ejercicio fue diseñado para permitirle
Desplegar el entorno de desarrollo con la herramienta PDI para desarrollar ETL. Conocer que es una Transformación y un Job. Identificar que artefactos genera el PDI. Identificar el área donde se muestran los resultados de la ejecución (logging). Conocer las opciones y configuraciones que brinda el PDI
Introducción Este ejercicio demuestra el uso del IDE desarrollo PDI o Pentaho Data Integration. Usando un formato de visita guiada, se le mostrara las características y/o funcionalidades de la herramienta de desarrollo.
Requerimientos
Sistema Operativo Windows Pentaho Data Integration
Página 7
Guía del Estudiante
A este IDE también se le conoce como: PDI, Spoon o Kettle
Instrucciones para el ejercicio Los siguientes pasos muestran el uso del entorno de desarrollo: PDI.
Parte 1: Iniciar el entorno de desarrollo: PDI a) Antes de iniciar el IDE, debemos descargarlo y descomprimirlo. Lo podemos hacer desde la página Oficial: community.pentaho.com
Información También se puede descargar desde su repositorio oficial en sourceforge: http://softlayerdal.dl.sourceforge.net/project/pentaho/Data%20Integration/5.0.1stable/pdi-ce-5.0.1.A-stable.zip
b) El directorio donde se descomprimirá el PDI, de ahora en adelante será llamado: PDI_DIR c) Iniciar el entorno de desarrollo PDI. Para ello abrir el directorio PDI_DIR y ejecutar el archivo Spoon.bat
Tip Página 8
Guía del Estudiante
Para monitorear o detectar errores de arranque, incidentes en la JVM o simplemente iniciar el PDI en modo debug, ejecutar el archivo: SpoonDebug.bat en cambio de Spoon.bat
Parte 2: Crear y Seleccionar un repositorio Al iniciar el PDI, nos solicita que seleccionemos un repositorio:
Kettle Database Repository: Usa una base de datos relacional para guardar la metadata de los ETL desarrollados.
Kettle File Repository: usa un archivo para guardar los ETL desarrollados. Con esta opción, las transformaciones y Jobs creados, solo se podrán guardar dentro de la carpeta especificada al inicio:
Defaul Repository: Los ETL desarrollados se pueden guardar en cualquier ruta del disco duro.
a) Creación de un Kettle File Repository
Clic en el icono
, seleccionar la opción kettle file repository y clic en el botón ok. Se mostrara la siguiente ventana. Ingresamos los siguientes datos:
Después de guardar, ya podremos seleccionar este repositorio:
Página 9