Curso Pentaho Community Edition 5 0 -ETL Preview

Page 1

Curso Integraci贸n de Datos con Pentaho Data Integration (PDI) Pentaho Community Edition 5.0

Gu铆a del Estudiante

Richard Osmar Leon Ingaruca http://jrichardsz.weebly.com


Guía del Estudiante

Ejercicios Este curso incluye los siguientes ejercicios Ejercicio 1: Introducción al entorno de desarrollo de Pentaho. Ejercicio 2: Primer ETL Ejercicio 3: Conexión/Configuración a base de datos. Ejercicio 4: Pentaho Design Studio y Xactions Ejercicio 5: Pentaho BI Server: Configuración de Repositorios y Base de datos. Ejercicio 6: Pentaho BI Server: Ejecución, Programación y Monitoreo de Jobs Ejercicio 7: Variables, parámetros y Javascript. Ejercicio 8: Sentencias Lógicas para manipular los registros. Ejercicio 9: Manejo de Errores, logs y notificaciones por email.

Página 1


Guía del Estudiante

Abreviaturas Nombre Pentaho Data Integration Directorio PDI Pentaho Data Studio Material del Curso

Descripción IDE de desarrollo usado para desarrollar ETL. También conocido como SPOON Directorio donde se ha descomprimido el PDI IDE para el desarrollo de xactions Material suministrado por el instructor

Abreviatura PDI PDI_DIR PDS MATERIAL

Página 2


Guía del Estudiante

Instrucciones Se recomienda llevar a cabo todos los ejercicios, ya que la resolución de ejercicios posteriores dependerá de ello. El instructor suministrara un archivo comprimido con el material del curso. Descomprimirlo y guardarlo en disco.

Página 3


Guía del Estudiante

Contenidos Ejercicios ..................................................................................................................... 1 Instrucciones .............................................................................................................. 3 Breve descripción del Framework ............................................................................. 5 Ejercicio 1. Introducción al entorno de desarrollo de Pentaho. .............................. 7 Instrucciones para el ejercicio ........................................................................................ 8 Parte 1: Iniciar el entorno de desarrollo: PDI ................................................................ 8 Parte 2: Crear y Seleccionar un repositorio .................................................................. 9 Parte 3: Crear carpetas dentro del repositorio ........................................................... 10 Parte 4: Vista general de la interfaz.............................................................................. 11 Parte 5: Creación del ETL .............................................................................................. 11 Parte 6: Ejecución del ETL desde el PDI ..................................................................... 15 Parte 7: Logging del ETL ............................................................................................... 15 Lo que aprendiste ........................................................................................................... 18

Ejercicio 2. Primer ETL – Transformación .............................................................. 19 Instrucciones para el ejercicio ...................................................................................... 20 Parte 1: Configuración del Step de Input .................................................................... 20 Parte 2: Configuración del Step de Output ................................................................. 21 Parte 3: Ejecución de la Transformación .................................................................... 23 Lo que aprendiste ........................................................................................................... 24

Ejercicio 3. Conexión a base de datos .................................................................... 25 Instrucciones para el ejercicio ...................................................................................... 26 Parte 1: Configuración de la conexión: JDBC ............................................................ 26 Parte 2: Configuración de la conexión: JNDI .............................................................. 28 Parte 3: Creación del STEP: TABLE INPUT ................................................................. 30 Parte 4: Creación del STEP: TABLE OUTPUT ............................................................. 32 Lo que aprendiste ........................................................................................................... 35

Ejercicio 4. Pentaho Design Studio y Xactions....................................................... 36 Instrucciones para el ejercicio ...................................................................................... 37 Parte 1: Iniciar el DI Server ............................................................................................ 37 Parte 2: Creación del Proyecto que contendrá los xaction ....................................... 37 Parte 3: Referenciar al job sin Repositorio ................................................................. 39

Página 4


Guía del Estudiante

Breve descripción del Framework Pentaho es una herramienta de Business Intelligence desarrollada bajo la filosofía del software libre para la gestión y toma de decisiones empresariales. Es una plataforma compuesta de diferentes programas que satisfacen los requisitos de BI. Ofreciendo soluciones para la gestión y análisis de la información, incluyendo el análisis multidimensional OLAP, presentación de informes, minería de datos, ETL y creación de cuadros de mando para el usuario. La plataforma ha sido desarrollada bajo el lenguaje de programación Java y tiene un ambiente de implementación también basado en Java, haciendo así que Pentaho sea una solución muy flexible al cubrir una alta gama de necesidades empresariales. Pentaho usa las siguientes librerías, frameworks o tecnologías: Adaptx Ascsapjco3wrp Browserlauncher2 Commonslogging Dynamodb Ftp4che Gwtext Ifxjdbc Jakarta-regexp Javacup

Ant-contrib Asm Casandra

Apachecassandra Barbecue Com

Apache-cassandra-thrift Biz Commons-codec

Commons-vfs Eigenbase Georss-rome Gwt-fx Infobright Jakarta-taglibs Javadbf

Concurrent Elasticsearch Gnujaxp Hadoop Interbase Janino Javaparser

Dedupe Feed4j Gwt-dnd Hsqldb Itext Jars Javax

Jaybird Jcommon Jgoodiescommon Jsonpath Ldapjdk Mdx4j Monetdb

Jboss Jcommon-logging-log4jlog

Jcalendar Jexcelapi

Jcifs Jfree

Jgoodies-looks Jtds Libthrift Memcached Net

Jofc2 Jug-lgpl Log4j Metadatas Nickyb

Jsch Ktable Luciddb Metro Ofc4j

Ofcgwt Openjava Pentaho Rhino Secondstring Sun Trilead-ssh2

Olap4j Opensymphony Poi Rome Soap Svgsalamander Vaadin

Oopsconsultancy Org Postgresql Saaj-ri Splunk Svnant Weka

Openerp Palo Retroweaver Salesforce Sqlitejdbc Tigris Wsdl4j

Xerces

Xml-apis

Página 5


GuĂ­a del Estudiante

PĂĄgina 6


Guía del Estudiante

Ejercicio 1. Introducción al entorno de desarrollo de Pentaho. De qué trata este ejercicio El objetivo de este ejercicio es mostrar el uso del entorno de desarrollo de ETL del Pentaho: PDI.

Este ejercicio fue diseñado para permitirle     

Desplegar el entorno de desarrollo con la herramienta PDI para desarrollar ETL. Conocer que es una Transformación y un Job. Identificar que artefactos genera el PDI. Identificar el área donde se muestran los resultados de la ejecución (logging). Conocer las opciones y configuraciones que brinda el PDI

Introducción Este ejercicio demuestra el uso del IDE desarrollo PDI o Pentaho Data Integration. Usando un formato de visita guiada, se le mostrara las características y/o funcionalidades de la herramienta de desarrollo.

Requerimientos  

Sistema Operativo Windows Pentaho Data Integration

Página 7


Guía del Estudiante

A este IDE también se le conoce como: PDI, Spoon o Kettle

Instrucciones para el ejercicio Los siguientes pasos muestran el uso del entorno de desarrollo: PDI.

Parte 1: Iniciar el entorno de desarrollo: PDI a) Antes de iniciar el IDE, debemos descargarlo y descomprimirlo. Lo podemos hacer desde la página Oficial: community.pentaho.com

Información También se puede descargar desde su repositorio oficial en sourceforge: http://softlayerdal.dl.sourceforge.net/project/pentaho/Data%20Integration/5.0.1stable/pdi-ce-5.0.1.A-stable.zip

b) El directorio donde se descomprimirá el PDI, de ahora en adelante será llamado: PDI_DIR c) Iniciar el entorno de desarrollo PDI. Para ello abrir el directorio PDI_DIR y ejecutar el archivo Spoon.bat

Tip Página 8


Guía del Estudiante

Para monitorear o detectar errores de arranque, incidentes en la JVM o simplemente iniciar el PDI en modo debug, ejecutar el archivo: SpoonDebug.bat en cambio de Spoon.bat

Parte 2: Crear y Seleccionar un repositorio Al iniciar el PDI, nos solicita que seleccionemos un repositorio:

Kettle Database Repository: Usa una base de datos relacional para guardar la metadata de los ETL desarrollados.

Kettle File Repository: usa un archivo para guardar los ETL desarrollados. Con esta opción, las transformaciones y Jobs creados, solo se podrán guardar dentro de la carpeta especificada al inicio:

Defaul Repository: Los ETL desarrollados se pueden guardar en cualquier ruta del disco duro.

a) Creación de un Kettle File Repository 

Clic en el icono

, seleccionar la opción kettle file repository y clic en el botón ok. Se mostrara la siguiente ventana. Ingresamos los siguientes datos:

Después de guardar, ya podremos seleccionar este repositorio:

Página 9


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.