7 Septiembre 2015, NĂşm. 5
ta Da Big
Veracidad
SegVridad
La
s6
"V
"d
el
Valor
Velocidad
Volumen
Variedad
Pirámide de Valor de Big Data Storage
MADRID Paseo de la Castellana 135, 7ª planta 28046 Madrid Tel. 91 116 17 89 BARCELONA Aragó 182, 4ª planta 08011 Barcelona Tel. 93 151 84 51
Ingest
Acquire
Advanced Analytics
Audit
Validation
Más información en comercial@avanttic.com
Estimados lectores, En este número de la revista hemos querido dedicar el foco a una de las 5 fuerzas tecnológicas disruptivas, la Analítica o Big Data por su importancia en la toma de decisiones empresariales, en la identificación de nuevos ingresos, en aumentar la retención y adquisición de clientes y desarrollar nuevos productos y servicios. Según IT Digital Media Group, en total ha habido más de 116.000 tweets que han hablado sobre Big Data en Twitter durante 3 meses, estando Oracle entre las 6 empresas con mayor conversación. Se resalta que lo más hablado en torno a Big Data hace referencia a las oportunidades y tendencias futuras. IDC asegura que Big Data será un negocio multimillonario, alcanzando un volumen de negocio de 41.500 millones de dólares en 2018. Según un estudio de Accenture, el 74% de las empresas en España consideran a Big Data “muy importante” para la transformación digital. El mercado laboral requiere perfiles específicos, que según MBIT School, analistas, programadores, data managers, arquitectos tecnológicos y consultores, se sitúan entre los perfiles de Big Data más buscados en el mercado. Se comenta que el BigData va a crear 4 millones y medio de empleos en todo el mundo a lo largo del 2015. No hay que perder de vista que las empresas tenemos la oportunidad de gestionar la exponencial información a la que tenemos acceso para obtener competitividad en nuestros negocios, y Oracle nos ofrece soluciones para conseguirlo. Espero que disfrutéis de estas páginas, y no olvidéis expresar vuestros comentarios por Twitter a @spoug_es.
Manuel Lozano Presidente
Página 3
Contenido Número 5
Consejo Editorial Manuel Lozano Sebastián Reiter Pedro Robledo Carmen Larrumbide Eduvigis Ortiz Moronta José Manuel Peláez Pedro Sobrino Javier Barrio José Manuel López
Redacción y Publicidad Pedro Robledo gerente@spoug.es
Colaboradores Keith Hollman Joan Massegú Julia Bernal Mar Montalvo Fabián Gradolph Pedro Robledo
Edita SPOUG Spain Oracle Users Group Todos los derechos reservados. Se autoriza la reproducción total o parcial con cita expresa de la fuente “Revista Oracleando nº2 2014 de SPOUG Spain Oracle Users Group”. Los editores no se hacen responsables de las opiniones vertidas por los autores en esta publicación, ni comparten necesariamente sus criterios.
Página 5
Pรกgina 6
Junio, 2014
Septiembre, 2014
Diciembre, 2014
Septiembre, 2015
Abril, 2015
Pรกgina 7
Se convoca a los autores interesados en publicar en el volumen N° 2015/6 de Oracleando a presentar trabajos originales e inéditos. Recepción de propuestas de artículos: hasta el 20 de Noviembre de 2015. Envío a gerente@spoug.es Lanzamiento: 3 de Diciembre de 2015
Precios de Publicidad: (Los precios no incluyen el 21%IVA) No socios: Segunda Página (A4): 750 € Otra Página (A4): 500 € Socios Institucionales: Segunda Página (A4): 525 € Otra Página (A4): 350 € Fecha límite entrega publicidad en jpg: 20 de Noviembre de 2015 Para contratar escribir a gerente@spoug.es Página 8
https://www.twitter.com/SPOUG_es/
https://www.linkedin.com/groups?gid=2880611
Pรกgina 9
SPOUG (Spain Oracle Users Group) invita a presentar sus candidaturas a Edición 2015 de los PREMIOS SPOUG a usuarios Oracle que hayan implementado algún proyecto tecnológico en los dos últimos años. Objetivo: El Premio SPOUG tiene como objetivo reconocer públicamente el éxito alcanzado por una compañía o institución al aplicar la tecnología de Oracle Quién lo convoca: SPOUG A quién se dirige: Podrá participar cualquier entidad que sea usuaria de soluciones tecnológicas de Oracle o partners de Oracle como usuarios. Los candidatos pueden ser tanto del sector público como del sector privado. Dotación del premio: -1 Premio por categoría: Inscripción gratuita de 1 persona a Oracle OpenWorld 2016 en San Francisco (valorado en 2300 €) - Los proyectos finalistas se incluirán en el libro “Excelencia en la aplicación de Oracle” - Diploma acreditativo para todos los finalistas - Trofeo a los dos Premios Ganadores en Oracle Day 2015 en Madrid.
Página 10
La participación en esta edición supone la aceptación plena e incondicional de las bases siguientes: 1- El presente Concurso se desarrollará en el ámbito territorial español 2- El presente Concurso comenzará el 15 de Junio de 2015, y terminará el 30 de octubre de 2015. 3- Podrá participar en el Concurso cualquier entidad con fiscalidad en el territorio Español con tecnología Oracle. NO es necesario que la entidad sea socio institucional de SPOUG. 4- El caso de estudio estará escrito en español. Los trabajos enviados quedarán en propiedad de SPOUG para la realización de libro anual “Excelencia en la aplicación de Oracle”´y par a uso en otr as publicaciones futur as. 5- Sólo se puede participar en este Concurso a través del envío del caso de estudio según plantilla en formato Word. Cada candidato podrá ser presentado por la misma empresa usuario, por Oracle o por un Partner de Oracle. Las candidaturas se enviarán a gerente@spoug.es El asunto del mensaje debe ser “2015 Premios SPOUG”. La inscripción será confirmada mediante el envío de un correo electrónico a la persona de contacto. 6- El 20 de Octubre de 2015, a las 24 horas, el Concurso quedará cerrado y se procederá al proceso de selección de ganadores. Como primera fase, la Junta Directiva de Spoug revisará que los casos presentados incluyen toda la información requerida, y seleccionarán los finalistas, que serán mencionados en www.spoug.es. Y los propios socios institucionales de SPOUG votarán sus preferencias antes del 30 de octubre de 2015. La Junta Directiva de SPOUG podrá descalificar todos los casos que no cumplan las bases. La Junta Directiva de
SPOUG actuará con la máxima libertad y tendrá, además de las facultades normales para discernir los premios, las de interpretar las presentes bases, pudiendo dejar el premio desierto. La decisión de la Junta Directiva será inapelable. Las 2 entidades ganadoras recibirán la comunicación del premio obtenido 15 días después del cierre de las votaciones, mediante correo electrónico al contacto que nominó al candidato facilitado como parte de sus datos, obteniendo la entrega del premio correspondiente en un acto especial durante el evento Oracle Day 2015 en Madrid. 7- Los premios objeto del presente concurso, en ningún caso podrán ser objeto de cambio, alteración o compensación en metálico. 8- El presente Concurso consiste en la adjudicación de dos premios entre los participantes en el mismo, dotándoles de Inscripción gratuita de 1 persona a Oracle OpenWorld 2016 en San Francisco (valorado en 2300 €), inclusión en el libro Excelencia en la aplicación de Oracle y Trofeo acreditativo 9- Los datos recogidos en las solicitudes de participación en el sorteo serán tratados conforme a la Ley 15/99 de 13 de diciembre de Protección de Datos de Carácter Personal y demás legislación que le sea de aplicación. Dichos datos podrán ser utilizados por parte de SPOUG en sus comunicaciones 10- Las Bases de el Concurso se rigen por la legislación española. SPOUG y los participantes en el concurso, con renuncia expresa a cualquier otro fuero, se someten a la jurisdicción de los Juzgados y Tribunales de Madrid.
CONTRAPARTIDAS Artículo Invitado 3000 palabras en libro “Excelencia en la aplicación de Oracle 2015” Logo y nombre de la empresa en el material promocional de los premios Publicidad en libro “Excelencia en la aplicación de Oracle 2015” Datos de Contacto en libro “Excelencia en la aplicación de Oracle 2015”
Más información: Pedro Robledo gerente@spoug.es
Página 11
Compartir informaci贸n
Ayudar a Relacionarse
Representar a los usuarios
Organizar Eventos
Canalizar preguntas
Influir
Editar Publicaciones
Crear sinergias
Descuentos Especiales
P谩gina 12
por Keith Hollman MySQL Principal Sales Consultant EMEA South, Oracle
Pรกgina 13
En ediciones anteriores de Oracleando he tenido la oportunidad de compartir con vosotros lo que es MySQL y daros una introducción a la tecnología. Ahora se me permite comentar algo más a fondo del ‘flagship’ o producto estrella de MySQL, denominado “MySQL Cluster”. En éste articulo quisiera describir cómo es, que matices y particularidades tiene, y ayudar a comprender que es algo distinto a otros productos que se llaman ‘cluster’. Y por supuesto, añadir un ejemplo técnico de cómo montar uno.
sultas escrito en C, Java, etc. Es una base de datos cuyos componentes podrían llamarse un cluster.
MySQL Cluster: El ‘qué’ y el ‘cómo’.
Ya comentamos la historia de MySQL Cluster en el último artículo de MySQL. Resumido: “The Network Database” NDB. Diseñado / desarrollado en Ericsson a finales de los 90. Documento original de diseño: "Design and Mo deling of a Parallel Data Server for Telecom Applications" del año 1997 por Michael Ronström Originalmente escrito en PLEX (Programming Language for EXchanges) pero convertido luego a C++. MySQL AB adquirió Alzato (cuyo propietario era Ericsson) final del 2003.
MySQL Cluster realmente tiene algo de engaño: no es un ‘cluster’ al estilo “failover y/o levanto otro” sino que la infraestructura que compone un MySQL Cluster, permite que sea multi-master, activo-activo y a la vez, usar accesos estilo NoSQL, es decir, sin tener que pasar por el MySQL Server y atacar las tablas directamente con con-
Hay que recordar que MySQL Cluster es ‘shared nothing’ y su definición es mejor definido como redundancia de datos en un entorno basado en ‘in memory’, real-time. Esto permite que sea la solución de MySQL más adecuado para entornos de Alta Disponibilidad:
Figura 1: Soluciones Alta Disponibilidad con MySQL
Página 14
La diferencia principal es que MySQL Cluster usa el storage engine NDBCluster, NDB, en lugar de InnoDB o Cuando NO pensar en MySQL Cluster MyISAM. Esto tiene implicaciones ya que es aquí donde MySQL sabe ubicar los datos de una forma u otra, y que La mayoría de las aplicaciones de terceros. un paso de un InnoDB hacia NDB sea algo más que una Transacciones largas. mera cuestión de aplicar un clustering al InnoDB. Eso significa que al pensar en una tabla NDB hay que Índices geoespaciales. tener en cuenta varias consideraciones: Volúmenes de datos grandes (>2TB) Cuando pensar en MySQL Cluster Accesos complejos al dato y muchos Full Scans de tablas. ¿Cuáles son las consecuencias de una parada o de Cuando necesitas una base de datos basado en el aluna caída en el rendimiento? macenamiento en disco, ej. InnoDB. ¿Cuánto esfuerzo y dinero se invierte en el desarrollo de las aplicaciones y en la gestión de la infraestructu- Antes de entrar en los componentes de una arquitectura de Cluster, veamos el resumen de los objetivos que se ra HA? Estás pensando en hacer sharding en la base de asume: datos para poder escalar las escrituras y ganar en rendimiento. ¿Y esto cómo afecta a tu aplicación y desarrolladores?
¿Tus servicios necesitan ser real-time?
¿Los servicios que ofreces tienen un crecimiento predecible, sobretodo en escrituras? ¿Quieres la flexibilidad de acceder a tus datos con algo más que SQL?
Figura 2: Resumen de MySQL Cluster.
Página 15
Y es ahora, al describir los componentes donde veremos cómo se llega a cumplir con esos objetivos mediante la infraestructura que forma un ‘cluster’.
des cuando una transacción requiere datos de otro datanode. Es el nodo que gestiona fail-over y lo comunica al management node al detectar algún fallo. Al tener su partición de datos, los backups se realizan sobre el mismo datanode, de manera online.
“Data node”: Almacenamiento de datos (en Memoria y en Disco). Particionamiento de datos Automática y Customizado. Escalabilidad horizontal para aumentar capacidad y rendimiento.
Todos están interconectados entre sí. El puerto suele ser el ServerPort 1187 donde es configurable.
“Management node”: Gestión, Monitorización y Configuración. Árbitro en situaciones de split brain/red particionada. Logs del Cluster.
Los management nodes se encargan de varias funciones:
“NDB API node”: Real-time applications. APIs C++/Java Failover y balanceo de carga automática.
Se pueden tener hasta 48 datanodes en un solo cluster, donde es más habitual tener 2 ó 4. Por si no se supiera, el número máximo de componentes en un solo cluster son 256. Management Nodes
Distribuyen la configuración entre todos los componentes del cluster que gestionan. Logging centralizado para el cluster. Cada componente tiene su propio log adicionalmente. Monitorización y hace de Árbitro en caso de Split brain. Cuando no está en funcionamiento, Cluster sigue funcionando. Sin embargo se necesita para iniciar otros componentes. Lo mínimo es tener 1, y 3 son demasiados, 2 perfecto.
“SQL Node”: Interfaz estándar de SQL Escalabilidad horizontal para mejoras del rendimiento. Habilita la Replica Geográfica.
Data Node El data node, es donde se almacena los datos e índices. Del servidor donde está ejecutándose el proceso del datanode ndbd / ndbmtd, se usa principalmente la memoria RAM para guardar los datos en memoria, los checkpoints, es decir, las copias del cambio anterior y de ahora de memoria en disco (LCP & GCP) y también los datos de las tablas definidas con STORAGE=DISK en disco. También es posible albergar los datos noindexados en disco, donde teniendo en cuenta lo que significa para una base de datos en memoria, y el rendimiento que pueda haber.
API Node Un API node es realmente un nombre algo genérico que realmente significa que cualquier aplicación que no usa el SQL Node / mysqld y que realiza llamadas utilizando NDB API, ej. C / C++ / Java, estilo NoSQL. Esto significa que los accesos suelen ser muy rápidos, al no tener que parsear SQL, ej. El mismo storage engine NDBCluster o la utilidad ndb_restore o ndb_desc (usado para ver las particiones de las tablas). SQL Node Es el servidor MySQL con el motor NDBCluster habilitado. Para que esté claro, no sirve un binario MySQL Server que no sea el de MySQL Cluster. Se tiene que usar el ejecutable que viene compilado con MySQL Cluster. Se instala el mismo binario en todos los servidores, pero se arranca el proceso que se requiere en cada sitio. Es un API Node a la misma vez. En cuanto a la configuración se puede definir en el config.ini como [mysqld] o [API].
Contiene varios bloques para el control y gestión de la transacción, donde los más importantes son LQH, TUP, Para la mayoría de las aplicaciones es transparente que ACC y TC. El último, el Coordinador de Transacciones la tabla sea NDBCluster, InnoDB, etc. y que se esté es el encargado de comunicarse con los otros datano- usando un mysqld de Cluster. Lo que realmente importa
Página 16
es a la hora de desarrollar la aplicación al tener en cuenta las funcionalidades de NDB.
Arquitectura
Al conocer ya los 4 componentes que forman un cluster, Se usa para crear las tablas. Esto quiere decir podemos unir las piezas y formar uno.En la arquitectura que siempre hará falta uno, aunque el entorno en figura 3, se puede observar que hay 8x Data nodes, realice los accesos en C o Java mediante el 2x Management nodes, 1x SQL node y 4x API nodes. NDBAPI. Todo esto estará reflejado en los ficheros de configuraSe usa para Replica Geográfica y se suele ción my.cnf, y habitual llamado config.ini. configurar un segundo canal entre otros 2 mysqld’s diferentes para minimizar posibles Si tuviéramos un éxito con la aplicación y el volumen de fallos. accesos creciera de tal manera que hubiera que crecer (de forma horizontal, escalar) lo haríamos online, añaGuarda todos los cambios en Bin logs. diendo otro SQL Node y otros 4x Data nodes. Sin tener Puede ser un Árbitro en un caso de split brain y que parar ningún servicio del cluster actual. si el management node no está. Conecta a todos los Data Nodes de forma independiente. El mysqld sólo entiende de tablas. Es el datanode que redirige los accesos internamente y de vuelta al sqlnode.
Figura 3: La arquitectura de Cluster.
Página 17
Figura 4: Creciendo MySQL Cluster online
Una de las preguntas claves es, ¿y qué pasa cuando hay algún fallo?
Figura 5: MySQL Cluster sigue dando servicio
Se puede perder todos salvo uno de los SQL Nodes / API’s en la capa de aplicaciones, todos los management nodes, y la mitad de los data nodes y seguir dando servicio, es decir, seguir ofreciendo el 100% de los datos de todas las tablas a los usuarios (reconectados al SQL Node restante).
Página 18
Manos a la obra.
Si se tiene que configurar más alto → probablemente los discos sean demasiado lentos.
Instalando
FragmentLogFileSize=256M MySQL Cluster es Open Source, GPLv2, igual que MySQL Server. Con lo que se puede bajar la versión Community desde http://www.mysql.com. Además, hay una versión comercial, llamado MySQL Cluster Carrier Grade Edition, que se baja desde http:// edelivery.oracle.com, product pack ‘MySQL’ e incluye no sólo Cluster compilado sobre las plataformas correspondientes, sino además Cluster Manager (que no es el Management Node) que permite gestionar uno o varios Clusters desde un único punto de entrada, sin tener que conectarse a todos los servidores uno a uno.
NoOfFragmentLogFiles= 6 x DataMemory (en MB) / (4x 256MB)
Problema más típico – clientes nunca configuran los redo logs lo suficientemente grandes.
Memoria para datos e índices adecuado para el tamaño de las bases de datos /índices.
LockPagesInMainMemory=1
Hay un ‘tar ball’ listo para hacer un “tar zxvf” para Generic Linux, hay paquetes RPM, DEB, PKG, DMG, MSI para las distintas plataformas, e incluso, del software Open Source se puede compilar Cluster para una plataforma especial (ARM, etc.) o con o sin opciones y funcionalidades particulares de Cluster.
MaxNoOf*
Configurando
Tablas “Disk-based”
Además del my.cnf para los sqlnodes, se configura un fichero adicional que se suele llamar config.ini que no es obligatorio pero muy habitual.
MySQL Cluster nació como una base de datos ‘in memory’ donde es habitual guardar los datos en disco también. No se espera tener que tener toda la base de datos en memoria hoy día. Esto se denomina tablas “disk based”, es decir, que residen en disco, los índices están siempre en memoria y se suben los datos más accedidos a memoria. Se esperaría que las escrituras en Cluster siempre vayan por clave primaria o clave única en estos casos, ya que queremos ir a disco para lo mínimo posible. Se puede usar como si fueran tablas InnoDB pero hay que vigilar la actividad de E/S del disco.
El config.ini está dividido en secciones mediante “[…]”, donde hay secciones para; Data nodes [ndb{mt}d] Management nodes [ndb_mgmd] MySQL servers [mysqld] API nodes [ndbapi] Si se añade ‘default’ al nombre de la sección [ndbd default], los valores se aplican a todos.
Hay varios parámetros de éste estilo. Marcan los umbrales de valores máximos
Aquí hay unos matices y una configuración posible también:
Configura DiskPageBufferMemory=3072M
Se inicia el Management node con un config.ini. Debería ser el mismo/ tener la misma configuración para todos los management nodes del Cluster.
Los MySQL API nodes se configuran tanto en el in config.ini y también en un my.cnf dedicado.
Si se depende mucho de datos en disco, se suele recomienda su uso – igual que el Innodb_Buffer_Pool, pero ¡configúralo lo más alto que se pueda!
Aumenta las posibilidades de que se cachea una página: Parámetros típicos del Config.ini
IndexMemory y DataMemory.
Configura MaxNoOfExecutionThreads <= #cores
Si no, podría genera situaciones de contención → comportamiento inesperado.
RedoBuffer=32-64M
UNDO_BUFFER=64M a 128M (Si hay mucha escritura en disco)
SharedGlobalMemory=384M-1024M
¡No puedes modificar éste buffer después!
Especificado a la hora de crear el LOGFILE GROUP:
DiskIOThreadPool=[ 8 .. 16 ]
Página 19
Ejemplo config.ini: [ndb_mgmd default] ArbitrationRank =1 DataDir =/opt/mysql/746/mgmd_data [ndb_mgmd] hostname =khollman-es NodeId =1 [ndbd default] noofreplicas =2 DataDir =/opt/mysql/746/ndbd_data DataMemory =20M IndexMemory =10M DiskPageBufferMemory =4M StringMemory =5 MaxNoOfConcurrentOperations =2K MaxNoOfConcurrentTransactions =2K SharedGlobalMemory =500K LongMessageBuffer =512K MaxParallelScansPerFragment =16 MaxNoOfAttributes =1000 MaxNoOfTablas =20 MaxNoOfOrderedIndexes =20 ODirect =TRUE HeartbeatIntervalDbDb =500 HeartbeatIntervalDbApi =500 StopOnError =1 TransactionInactiveTimeout =500 TransactionDeadlockDetectionTimeout = 1200 LockPagesInMainMemory =2 [ndbd] hostname =khollman-es datadir =/opt/mysql/746/ndbd_data nodeid =3 [mysqld default] [mysqld] NodeId =10 [mysqld] NodeId =11 [NDBAPI] NodeId =12 [NDBAPI] NodeId =13 Ejemplo my.cnf: [client] socket =/tmp/mysql_7461.sock [mysql] prompt =\R:\m \d>\_ no-beep [mysqld] ndbcluster datadir =/opt/mysql/746/data ndb-connectstring =khollman-es:1186 user =mysql port =7461 socket =/tmp/mysql_7461.sock general-log =1 log-output =FILE log-error =khollman-es_7461.err slow-query-log =1 max_connections =20 innodb_log_buffer_size =8M innodb_buffer_pool_size =64M innodb_log_file_size =16M innodb_flush_log_at_trx_commit =2 innodb_file_per_Tabla =1 innodb_data_home_dir =/opt/mysql/746/data innodb_data_file_path =ibdata1:50M;ibdata2:50M:autoextend [mysql_cluster] ndb-connectstring =khollman-es:1186
Pรกgina 20
Hay que subrayar que para que el mysqld tenga consideración a las tablas NDB, se tiene que especificar ndbconnectstring en la sección de [mysql_cluster] para conectarse al Management node, y que aparezca en la sección de [mysqld] ndbcluster.
Parando
MySQL Cluster Iniciando / Parando
ndb_mgm –e [mgmt node & datanode] 1 | 3 | 4 restart
Por si no se hubiera quedado claro, se conocen todos los ‘nodes’ pero realmente, sólo son procesos. Esto quiere decir que se pueden arrancar todo en un solo servidor. Los procesos son Management node
ndb_mgmd
Data node
ndbd o ndbmtd
ndb_mgm –e shutdown ndb_mgm –e [mgmt node & datanode] 1 | 3 | 4 stop
mysqladmin --defaults-file=my.cnf -uroot shutdown
Inicio pausado Como se trata de un cluster y hay instalaciones que podrían tener decenas incluso cientos de nodos, o incluso se desea hacer el arranque por capas, en lugar de por nodo, se puede usar la opción de “nostart”:
(el datanode multi-threaded)
ndbmtd --ndb-nodeid=3 –n
SQL node
mysqld
API node
<el nombre que le pongas al
ndbmtd --ndb-nodeid=4 –n
proceso> La primera vez que se arranca los procesos cluster, y cuando cambios en la configuración son necesarios, se tiene que hacer con --INITIAL. Cuando cambia el config.ini, no hay que hacer una parada completa del cluster. Reinicia ndb_mgmd con -INITIAL para limpiar la información cacheada de la configuración. Y luego reiniciar los datanodes (sin --initial). Éste reinicio de los procesos datanodes se conoce como un Rolling Restart. Paramos y arrancamos cada proceso, uno a uno.
ndb_mgm -e show Cluster configuration --------------------[ndbd(NDB)] 2 node(s) id=3
@127.0.0.1 (mysql-5.6.17 ndb-7.3.5, not started)
id=4
@127.0.0.1 (mysql-5.6.17 ndb-7.3.5, not started)
Arrancamos el cluster por la primera vez: ndb_mgm -e "all start“ ndb_mgmd -f config.ini cluster/conf --INITIAL
--config-dir=/usr/local/mysql-
ndbd --INITIAL | ndbmtd –c localhost:1186 --INITIAL | ndbd –n (nostart)
ndb_mgm -e show Cluster configuration
Se puede iniciar el data node de cualquiera de éstas 3 maneras. scripts/mysql_install_db user=mysql
--defaults-file=my.cnf
--
--------------------[ndbd(NDB)] 2 node(s) id=3 @127.0.0.1 Nodegroup: 0, *)
(mysql-5.6.17 ndb-7.3.5, starting,
mysqld_safe --defaults-file=my.cnf --user=mysql Y una vez realizado el primer arranque inicial, la forma más habitual de actuar es:
id=4 @127.0.0.1 Nodegroup: 0)
(mysql-5.6.17 ndb-7.3.5, starting,
Iniciando ndb_mgmd -f cluster/conf
config.ini
--config-dir=/usr/local/mysql-
ndbd | ndbmtd –c localhost:1186 mysqld_safe --defaults-file=my.cnf
Página 21
La forma más sencilla: Cluster Manager Dentro de las soluciones Enterprise, está la opción de Carrier Grade Edition que explicado brevemente, es todo lo que trae Enterprise Edition, las herramientas, soporte y funcionalidades avanzadas, con soporte para NDB, soporte de Réplica Geográfica, y, tal vez lo más importante, Cluster Manager.
Engloba 3 áreas fundamentales para el entorno Cluster con Cluster Manager: Gestión Automatizada Iniciar/Parar nodo o todo el cluster. Crecimiento horizontal online. Reconfiguración online. Upgrades online. Backup & Restore online. Importar un Cluster en marcha.
Auto-recuperable Monitorización por nodo.
Auto-recuperación se extiende a los SQL nodes y management node.
Operaciones de Alta Disponibilidad Configuración consistente de todos los componentes del cluster. Configuraciones persistentes. Agentes de HA.
Cluster Manager está compuesto de un agente que está instalado en cada servidor donde hay procesos Cluster y que gestiona y controla cada aspecto del cluster. Se accede mediante línea de comandos, un ejecutable llamado ‘mcm’ que está basado en el ‘mysql’ CLI, que permite realizar operaciones sobre el cluster desde cualquier punto, con acceso.
Para ver la implicación que tiene Cluster Manager, veamos un ejemplo de cómo instalarlo y crear un cluster:
Primero bajar MySQL Cluster Manager (MCM) + MySQL Cluster: MCM 1.3.4, elige el paquete *sin* cluster, que debería ser sobre unos
20Mb (bajar desde https:// edelivery.oracle.com/) MySQL Cluster 7.4.6 (bajar desde http://downloads.mysql.com/ archives/get/file/ mysql-cluster-gpl7.4.6-linux-glibc2.5-x86_64.tar.gz) Instalar y Configurar MySQL Cluster Manager Los binarios de MCM y Cluster tienen que estar instalados en todos los servidores donde corre algún proceso NDB. mkdir MCM cd MCM tar xzf /ruta/a/ mcm-1.3.4-linuxglibc2.5-x86-64bit.tar.gz mv mcm-1.3.4-linux-glibc2.5-x8664bit/mcm1.3.4 . rmdir mcm-1.3.4-linux-glibc2.5-x8664bit.tar.gz cp mcm1.3.4/etc/mcmd.ini . (hay que cambiar: manager-directory = /home/<user>/MCM/mcm_data) Instalar los binarios Cluster tar xzf /ruta/a/ mysql-cluster-gpl7.4.6-linux-glibc2.5-x86_64.tar.gz mv mysql-cluster-gpl-7.4.6-linuxglibc2.5-x86_64 cluster-746
iniciar el demonio MCMD (como usuario del s.o. ‘mysql’) ./mcm1.3.4/bin/mcmd --defaultsfile=./mcmd.ini –daemon Configurar el Cluster Connect to MCM and configure cluster (only from one site): Start mcm client: ./mcm1.3.4/bin/ mcm (se necesita en el PATH la ruta del CLI de mysql, ej. /usr/local/mysql/ bin/mysql ya que el CLI mcm se basa en él) Creando un cluster mcm> list commands mcm> create site --hosts=127.0.0.1 mysite; mcm> list sites; mcm> list hosts mysite;
Página 22
mcm> create cluster -package=cluster746 -processhosts=ndb_mgmd@127.0.0.1,ndbmt d@127.0.0.1,ndbmtd@127.0.0.1 mycluster; mcm> add process -processhosts=mysqld@127.0.0.1,mysqld@1 27.0.0.1 mycluster; mcm> add process -processhosts=ndbapi@127.0.0.1,ndbapi@12 7.0.0.1 mycluster; mcm> add process -processhosts=ndbapi@127.0.0.1,ndbapi@12 7.0.0.1 mycluster; mcm> get -d port:mysqld mycluster; mcm> set port:mysqld:51=3307 mycluster;
Iniciar el Cluster: mcm> show status -r mycluster; mcm> start cluster mycluster; mcm> show status -r mycluster;
Una de las funcionalidades probablemente más destacables que se puede realizar con MySQL Cluster es hacer el upgrade del software de manera online. No hace falta parar todo el cluster, sino está soportado y pensado para que funcione el cluster con componentes en una versión superior al resto. El upgrade en sí requiere un rolling restart de los nodos, capa a capa. Parando primero los management nodes uno a uno, luego los data nodes, uno a uno, y luego los API/SQL nodes, uno a uno. Este proceso es tedioso y muy manual. Salvo que se use Cluster Manager. Cluster Manager se ocupa de realizarlo con:
mcm> upgrade cluster -package=cluster747 mycluster; Gráficamente:
Figura 6: Online upgrade usando MySQL Cluster Manager.
Si quieres saber más, sentiros libre de contactar conmigo, keith.hollman@oracle.com o hacer algún comentario en el blog http:// mysqlmed.wordpress.com.
Referencias: http://www.mysql.com/cluster http://mysqlhighavailability.com/ Hay muchos ejemplos en el blog de uno de los ingenieros claves del desarrollo de MySQL Cluster, http://mikaelronstrom.blogspot.se/. Toda esta información y más está disponible en http://dev.mysql.com/doc. ¿Quieres saber más, y quieres incluso participar? Hay un grupo de usuarios específico sobre MySQL, basado en Madrid: http://www.meetup.com/MadridMySQL-users-group.
mcm> add package –-basedir=/opt/ MCM_LAB/cluster-746 cluster747;
Página 23
Pรกgina 24
Pelayo consolida sus infraestructuras tecnológicas de la mano de Oracle Según indica Juan Arechabala, director de Tecnologías de la Información de Pelayo, “teníamos una infraestructura formada por soluciones de distintos proveedores. Era un pequeño SIMO, con equipos y aplicaciones de HP, Microsoft, Sun Solaris, BBDD de Oracle, etc. Habíamos estirado mucho el ciclo de vida del hardware y del software, así que necesitábamos una amplia renovación”. En esta coyuntura, el directivo explica que se enfrentaban a un proceso complejo, “debíamos revisar la infraestructura completa. No teníamos casi nada virtualizado y necesitábamos consolidar las bases de datos (BBDD) y la plataforma middleware y modernizar nuestra plataforma para incrementar la disponibilidad de cara al cliente”. Todo ello, sin afectar el desarrollo normal del negocio ni a desarrollos paralelos que había que ir implementando para acompañar la evolución del negocio. El cambio de las infraestructuras llegó de la mano de Oracle con la colaboración de ACS. “Optamos por Oracle Exadata para las bases de datos y por Exalogic para conseguir un entorno productivo y no productivo más en línea con las tendencias de mercado. El universo Solaris se mantuvo, consolidándose en dos máquinas T5. Así se ha conseguido también optimizar el licenciamiento y la disponibilidad de la infraestructura”.
hacer una comprensión de sus base de datos. El proyecto, implementado por Capgemini e iniciado en 2013, tenía como objetivo comprimir la base de datos instalada con Oracle, con la premisa de que fuera compatible con el mismo. Igualmente, su implementación debía realizarse de forma transparente y sin incidencias, asegurando la inexistencia de impacto en la operativa diaria de la compañía. Para su valoración frente a otras posibles opciones, Oracle facilitó a Repsol una serie de referencias que ayudaron a la hora de tomar la decisión y se desarrolló una prueba piloto que cumplió con éxito todas las expectativas de la compañía. Repsol partía de veinticuatro bases de datos Oracle, algunas de ellas con una ocupación de varios terabytes de almacenamiento. La comprensión de la base de datos debía permitir reducir el retorno en costes y en tiempo. La implementación de la solución debía, además, realizarse integrándose en los procesos de producción y sin repercutir en paradas forzadas, excepto aquellas que estuvieran planificadas como parte del proyecto y que tuvieron lugar un domingo al mes.
Tras su implantación, Oracle Advanced Compression ha conseguido una reducción de costes relacionados con el almacenamiento de Nivel 1 de 200.000 € y ha permitido reducir a la mitad el entorno de producción del CRM de Repsol, pasando de 25 a 14 Teras. Igualmente, se ha logrado que las necesidades de disco por el crecimiento vegetativo crezcan más lentamente. Oracle ACO ha obtenido una mejora de entre un 10% a 15% en el rendimiento, permitiendo realizar los A lo largo del último año se han actualizado diferentes backups con mayor rapidez y reduciéndolo a casi la componentes de software como SOA suite, ODI y mitad de tiempo. UCM. El usuario interno de Repsol, por su parte, ha podido La nueva infraestructura, que ha entrado en producción comprobar con la comprensión de la base de datos la paulatinamente hasta principios de junio de 2015, ha rapidez de respuesta de los entornos, y sin ver afectada impulsado una mejora en el rendimiento de la bases de su productividad durante el proceso. La solución se datos, una mayor disponibilidad desde el punto de vista integró en 24 entornos de producción de forma exitosa del usuario y ha sentado las bases para la evolución de a lo largo de 2013, tres más se pusieron en marcha en los próximos años. Algo que se ha logrado sin afectar 2014, y, en la actualidad, se sigue integrando en nuevos en lo más mínimo al desarrollo normal del negocio. entornos. Una vez modernizadas las infraestructuras, la mirada de Arechabala se dirige a las aplicaciones que permitan “Gracias a Oracle Advanced Compresion hemos podihacer crecer el negocio. “Estamos en el inicio de otra do no sólo reducir el coste de retorno de su almacenatransformación, que esta vez no está en las infraestruc- miento en 200.000€ sino el tiempo de backup a la mituras sino en las aplicaciones y procesos de negocio”, tad y el rendimiento del negocio en un 15%”, ha declaafirma el directivo. rado Luis Miguel Tabera Morales, Jefe de Servicios Sap Basis, dirección de Infraestructura de Repsol. Repsol reduce los requisitos de alma- “Oracle ACO es un producto realmente rentable”, ha comentado el responsable.
cenamiento y los costes de su base de datos de clientes con Oracle Advan- Ferrovial optimiza la gestión de sus ced Compression usuarios y accesos desde dispositivos La compañía ha conseguido disminuir el tiempo de móviles con tecnología Oracle backup a la mitad y ha mejorado el rendimiento del Ferrovial es uno de los principales operadores globales negocio en un 15% de infraestructuras y gestores de servicios a ciudades, Repsol, compañía energética integrada y global que ha comprometido con el desarrollo de soluciones sosteniapostado por la innovación tecnológica como elemento bles. La compañía cuenta con 69.000 empleados y preclave para construir un modelo energético más eficien- sencia en más de 25 países. Sus áreas de actividad se te, seguro, competitivo y sostenible, ha optado por la centran en: Servicios, Autopistas, Construcción y Aesolución Oracle Advanced Compresion (ACO) para ropuertos. La compañía cotiza en el IBEX 35 y forma
Página 25
parte de índices de sostenibilidad como el Dow Jones Sustainability Index y FTSE4Good. Con el fin de reducir los tiempos de respuesta en la gestión de alrededor de 14.000 usuarios, el acceso a la intranet y a aplicaciones corporativas desde dispositivos móviles, Ferrovial se planteó la necesidad de centralizar y simplificar los procesos de autenticación. Debían implantar la tecnología necesaria para agilizar, por ejemplo, los procesos de gestión de usuarios y accesos, la aprobación de pedidos o la gestión de facturas, lo que redundaría en el incremento de la productividad.
“Con Oracle Identity Manager y Oracle Access Manager hemos podido dar respuesta a la necesidad de Ferrovial, por un lado reduciendo los trámites administrativos manuales, centralizando y simplificando la Gestión de los Usuarios, y por otro lado por su escalabilidad y flexibilidad, dado que permite trabajar sobre dicho producto personalizándolo y siendo más eficientes”, asegura Fco. Javier García Mellado, Jefe de Proyecto de Soluciones IT de Ferrovial.
Esta automatización, que debía respetar escrupulosamente los estándares de seguridad de la compañía, llevaría a la eliminación de los trámites administrativos manuales, y a la creación de procesos de workflow inmediatos -autenticación de identidades o el reseteo de passwords- lo que repercutiría favorablemente en la productividad de los usuarios afectados. Otro objetivo del proyecto era reducir los costes derivados de los servicios de atención al usuario, mediante el descen- Tras la implantación se han simplificando los so del número de incidencias e incremento de la procesos de autenticación hasta el punto de ofreeficiencia de los procesos. cer un servicio de reseteo y reinicio de la contraseña de forma online mediante un sistema a traAdemás de lo anterior, el proyecto contempló la vés de SMS. creación e instalación, por primera vez, de un Wellcome Pack destinado a facilitar el primer Ferrovial trabajó con HP para implementar Oraacceso de los usuarios a los sistemas informáticos cle Identity Manager y Oracle Access Manager, corporativos, así como la adaptación de los desa- eliminando los trámites administrativos manuarrollos móviles de distintas aplicaciones corpora- les, centralizándolos y simplificándolos. HP llevó tivas a los diferentes dispositivos y plataformas, a cabo el diseño, la implantación, el despliegue, evolucionando desde un único sistema operativo el soporte y la gestión del cambio de la infraesBlackberry a la iniciativa Bring Your Own Devi- tructura, proporcionando un servicio de principio ce (iOS, Android, Windows). a fin y asegurando también la calidad y los niveles de seguridad de Ferrovial. Garantizando la continuidad a medio plazo “La implementación de Oracle fue un éxito en Tras valorar cuatro productos realizando pruebas cuanto a su rapidez, sencillez, escalabilidad y de concepto, Ferrovial decidió apostar por Oracle flexibilidad. Todo esto sumado al reducido númeIdentity Manager y Oracle Access Manager por ro de incidencias, hacen de Oracle un producto ser las soluciones que mejor respondían a sus realmente estable”, señala Fco. Javier Garcia necesidades de negocio y que le garantizaban la Mellado, Jefe de Proyecto de Soluciones IT, Fecontinuidad a medio plazo, optimizando también rrovial. los costes. Con la implantación de ambas soluciones se eliminaron los trámites administrativos Junto a las tecnologías ya citadas, se ha implemanuales, centralizando y automatizando los mentado Oracle SOA Suite para exponer serviprocesos de registro e integrando diferentes apli- cios SOA en SAP con Oracle BPEL Process Macaciones B2C, B2E y web para distintos disposi- nager y Oracle Business Activity Monitoring tivos. (BAM) para orquestar y monitorizar transacciones de negocio en los sistemas backend, transformando mensajes complejos desde SAP a REST/ De este modo, Ferrovial pasó a consolidar sus JSON para que sean fácilmente procesados por la repositorios de identidad en un directorio corpo- aplicación web móvil. rativo, eliminando duplicidades y cuentas inactivas, ofreciendo mayor control de los Usuarios y Finalmente, la implementación de una aplicación sus accesos, logrando automatizar los procesos de móvil ágil usando JQuery Mobile ha permitido acceso y gestión de identidades, asi cómo mejo- acceder a los workflows de los empleados y solirar la experiencia final del usuario. Además de citar aprobaciones desde sus dispositivos móviagilizar las peticiones de altas y bajas de usuarios les, simplificando el desarrollo a múltiples platao acceso a las diferentes aplicaciones corporati- formas y aprovechando los servicios basados en vas con garantías de seguridad. SOA expuestos a través de SOA Suite.
Página 26
Oracle anuncia sus resultados de su FY2015, manteniendo sus 38,2 billones de dólares El 17 de Junio de 2015, Oracle ha presentado sus resultados del cuarto trimestre, y sus resultados finales de su año fiscal que vas desde Junio de 2014 hasta finales de Mayo. Dada la posición del dólar, los beneficios han sido menores que los esperados, pero mantiene un crecimiento constante en sus focos principales del mercado Cloud, como se puede apreciar en la imagen. Nota de Prensa Resultados http://bit.ly/1BkLWqX
Página 27
SPOUG está en contacto diariamente con empresas usuarias de tecnología Oracle, con partners de Oracle y con el propio Oracle, de forma que está ayudando a buscar candidatos para una oferta concreta de trabajo para sus socios institucionales, o está moviendo CVs para ayudar a candidatos en su búsqueda de nuevas oportunidades de trabajo. En SPOUG arrancamos la iniciativa CONEXIÓN EMPLEO para abrir públicamente este servicio. Por un lado, queremos facilitar que cualquier profesional Oracle en búsqueda de nuevas oportunidades se registre en SPOUG para que seamos conscientes de su perfil y poder ponerle en contacto con empresas dónde puede encontrar esa oportunidad. Y por otro lado, queremos facilitar a las empresas que tienen ofertas de trabajo Oracle a publicitar sus vacantes. Además, a los socios de SPOUG se les ofrece un valor añadido, ayudándoles de forma más proactiva para que los socios institucionales encuentren el profesional que necesitan y los socios individuales puedan entrar en procesos de selección.
http://empleooracle.blogspot.com.es/
Página 28
Pรกgina 29
por Joan MassegĂş Business Analytics Solution Architect, avanttic
PĂĄgina 30
El “Big Data” está en un estado tan incipiente aún y hay tal cantidad de herramientas emergiendo alrededor de Hadoop, que a menudo, esa capa inicial que es la plataforma, acapara toda nuestra atención. En este artículo vamos a hacer énfasis en las herramientas de “Advanced Analytics”, situadas en la cúspide de lo que llamaremos Pirámide de Valor del Big Data, que representa el conjunto de necesidades y/o procesos que las organizaciones van a poder necesitar en el camino hacia la extracción del máximo valor de sus datos, y cómo trasladarlo al negocio.
Big Data: ¿finalidad o medio? Quién más quién menos, a estas alturas todos hemos oído hablar de las ya famosas tres V’s (Velocidad, Volumen y Variedad), que en el mundo conectado del siglo XXI son responsables de la generación de tal cantidad de información, que los sistemas de almacenamiento y herramientas de proceso tradicionales no son capaces de tratar.
zaciones combinar las “V” anteriormente descritas, a lo largo de diferentes fases y de diversas maneras, retroalimentándose incluso en ocasiones.
A medida que vayan avanzando en tareas de la limpieza, preparación, interconexión, etc. de los datos que se recogieron en la base, las organizaciones irán construyendo lo que llamaremos Pirámide de Valor del Big Data. De esta manera, irán escalando niveles que realizarán aportaciones diferentes, hasta alcanzar la cúspide, donde podrán, bien sea en forma de descuY somos también conscientes de que ese volumen brimiento de nuevos hechos o relaciones, o la formulaingente de datos, contiene información que puede, de ción de recomendaciones y/o predicciones, extraer el varias maneras, generar Valor para nuestras organiza- Valor real del Big Data. ciones… siempre y cuando seamos capaces de extraerla, asegurar una mínima Veracidad (y/o calidad A menudo, al hablar de Big Data, nos centramos de los datos) y custodiarla bajo las medidas de excesivamente en el primer nivel de la pirámide, el “segVridad” que su naturaleza pueda requerir. más relacionado con la plataforma: la adquisición y el almacenamiento de la información. En el artículo de hoy vamos a concentrarnos en el nivel superior de la pirámide, donde las herramientas de Advanced La Pirámide de Valor del Big Data Analytics permiten trasladar la información obtenida en la base de la pirámide al negocio, con una Nuevas arquitecturas de sistemas distribuidos, calidad en contenido y formato que posibilite a las basados principalmente en una plataforma (Hadoop), organizaciones extraer el valor del Big Data, marcando han sido desarrolladas para almacenar todos esos así una diferencia competitiva respecto a su datos, y de la mano de nuevas herramientas, lengua- competencia. jes y técnicas de procesamiento, permitir a las organi-
Página 31
Tipos de Análisis
Detectar posibles estructuras subyacentes,
Vamos ver a continuación los diferentes tipos de análisis posibles y las herramientas de Advanced Analytics que Oracle nos ofrece para cada uno de ellos. El análisis descriptivo es aquél que permite explicar las cosas que ya han pasado y está ligado al análisis diagnóstico, que explica por qué han pasado. Ambos tipos de análisis caben bajo el paraguas de lo que hasta ahora hemos conocido como Business Intelligence (aunque éste estaba restringido a información estructurada almacenada en un DWH, o incluso en forma de reporting contra el OLTP). El análisis predictivo nos ayuda a avanzarnos a lo que va a ocurrir para poder tomar decisiones competitivas de manera informada (en base a información recolectada por diferentes métodos, sea o no estructurada), mientras que el análisis prescriptivo es el que nos recomienda lo que deberíamos hacer (Decision Support Systems – DSS), llevándonos incluso a escenarios de organizaciones “data-driven”, dónde podrían tomarse determinadas decisiones de manera automática. Herramientas información
Oracle
para
el
análisis
de
Empecemos hablando de un caso concreto de análisis descriptivo (hay otras vías), el “Análisis Exploratorio de Datos” (EDA), quizá más conocido como Data Discovery. Una vez hemos “ingerido” y almacenado un gran volumen de datos, el siguiente paso lógico sería preguntarnos cómo son esos datos y qué podremos extraer de ellos. El análisis exploratorio de datos (EDA) utiliza diversas técnicas, principalmente visuales, para alcanzar varios objetivos, entre ellos:
patrones y/o grupos de poblaciones
Extraer variables significativas Detectar datos anómalos e irregularidades Descartar
posibles conjeturas/prejuicios preexistentes sobre un conjunto de datos
Oracle cuenta con dos herramientas destacadas para análisis exploratorio, la primera y más antigua en su portfolio, pero de la que no vamos a hablar ahora: Oracle Endeca Information Discovery. Aunque de alguna manera está presente en la arquitectura interna de la herramienta de la que hablaremos en primer lugar. Oracle Big Data Discovery (BDD) es acertadamente publicitado como la “Cara visual de Hadoop”, porque en esencia, es exactamente eso: una herramienta visual para analizar cualquier conjunto de datos almacenado en Hadoop, permitiendo incluso combinarlos con datos que subamos desde nuestro equipo. Una interface de usuario visual, rica e intuitiva, con un lenguaje claro que habla de Conjuntos de datos, atributos y tipos de datos permite acceder a todos los datos almacenados en el cluster Hadoop a través de una estructura de catálogo. BDD aísla así al usuario de la complejidad del ecosistema de productos y lenguajes que corren sobre Hadoop, ofreciéndole la posibilidad de realizar transformaciones sin necesidad de escribir código (más allá de las fórmulas explícitas, para las que también ofrece un asistente). Las transformaciones se aplican de forma “amigable”: primero sobre una muestra de datos y una vez validado el proceso, lo extiende a todo el dataset. BDD dispone también de funcionalidades para análisis de sentimiento, tareas de data quality, detección de datos anómalos, etc. así como de un potente motor de búsqueda por contenidos, autor, tags, …
Página 32
BDD es a la vez una herramienta descriptiva que ofrece una rica vista previa sobre los datasets del catálogo y con una completa información estadística “habitual” (medias, cuartiles, desviaciones, detectar correlaciones, …) acompañada por las necesarias representaciones gráficas en diversos formatos (boxplots, mapas, …) para explicar visualmente esa información estadística. Y todo esto sin descuidar el objetivo final: hacer llegar el valor del Big Data al negocio. Para ello, BDD cuenta con unos dashboards fáciles de construir (drag&drop), navegables, con capacidad de exportación en varios formatos, etc. y que permiten compartir fácilmente los resultados obtenidos con el resto de la organización, pero de manera securizada, como corresponde al software corporativo. En el itinerario hacia la cumbre de la pirámide, a menudo es necesario realizar varias iteraciones que refinen un conjunto de datos inicial. Podremos llegar a producir diversos conjuntos de datos para análisis posteriores, con objetivos y necesidades diferentes, que sigan caminos dispares, conducidos probablemente por usuarios diferentes. BDD es capaz de generar nuevos datasets con los resultados obtenidos de un análisis y/o tras la aplicación de transformaciones sobre el original, retroalimentando así el Data Pool, pero también puede exportar datos a ficheros externos con formato CSV, por ejemplo. Como hemos visto Big Data Discovery no es únicamente una herramienta de análisis descriptivo, sino que es una herramienta muy completa que permite dar respuesta a varias necesidades. Saltamos ahora al análisis predictivo. Oracle cuenta desde hace tiempo también con Essbase, un potente motor MOLAP in-memory con funcionalidad optimizada para predicción y simulación. Los productos de la familia Hyperion están basados en
Essbase, que también puede integrarse con la OBIEE suite y que es una opción en Exalytics. Pero en este artículo vamos a centrarnos en la opción Advanced Analytics de la BD, que amplía el antiguo paquete de data mining con Oracle Enterprise R (ORE) para ofrecer de manera sencilla y rápida capacidad de predicción embebida en la BD. La aplicación de los algoritmos dentro de la BD aporta diversos beneficios:
Eliminamos la necesidad de extraer los datos de la BD para cargarlos en una herramienta externa, y una vez obtenidos los resultados, exportarlos desde dicha herramienta y volver cargarlos en la BD (además de ahorrar unos tiempos que sumados pueden llegar a ser no menospreciables, eliminamos posibles factores de error en el proceso global)
Al estar dentro de la BD y ofrecer Oracle la funcionalidad vía SQL, automáticamente se extiende la capacidad de análisis predictivo a todas las aplicaciones que se conectan a la BD.
Rendimiento y escalabilidad. Típicamente, estos procesos consumidores de recursos, quedan limitados por la potencia de cálculo y RAM disponible en el cliente que ejecuta la aplicación, mientras que al estar en BD cuentan con toda la potencia y recursos del servidor.
Página 33
En la tabla siguiente, vemos un resumen de las posibilidades que nos ofrece Oracle Data Mining (ODM).
ODM cuenta además con una interface de usuario gráfica y fácil de utilizar que está disponible como plug -in de Oracle SQL-Developer (que es gratuito), y con el que podremos generar flujos que automaticen nuestros procesos analíticos facilitando su despliegue y compartirlos.
Página 34
La implantación de ODM y su integración es fácil y rápida, pero sus algoritmos no son ampliables o personalizables, por lo que si necesitamos expandir la funcionalidad y/o generar nuestros propios modelos predictivos, etc., podemos pensar en R. Oracle ofrece dos posibilidades para trabajar con R a nivel corporativo: desde la BD con ORE, o desde Hadoop con Oracle R Advanced Analytics for Hadoop (ORAAH) y su conector (ORHC). Con una filosofía análoga la seguida con ODM, ORE y ORAAH permiten acceder desde R a los datos almacenados en Hadoop o en BD, y a la inversa para almacenar los resultados obtenidos en R, logrando los mismos beneficios en cuanto a reducción de tiempo y disponibilidad de recursos, que a su vez, pueden ser puestos a disposición de todas las aplicaciones con acceso a la BD.
de población Clusters aplicados a clasificación de clientes (viajero ocasional, viajero habitual low-cost, …) y formulación de recomendaciones (si te gustó este artículo también de va a gustar este otro)
Con R también podemos ampliar la funcionalidad ofrecida por ODM, por ejemplo con análisis de texto para el tratamiento y clasificación masiva de correos electrónicos, detectar la posible manipulación fraudulenta de documentos, o incluso análisis de sentimiento. Otra ampliación de funcionalidad posible sería utilizar grafos para analizar redes sociales e identificar a los individuos más influyentes o bien relacionados, pequeños grupos aislados,... (como el ejemplo tomado de http://www.rdatamining.com)
Volviendo al itinerario ascendente en la pirámide de valor del Big Data, debemos comentar que R es un producto interesante porqué hay una amplia comunidad desarrollando nuevos paquetes y es más fácil encontrar técnicos con conocimientos suficientes que de otros paquetes estadísticos. Es fácil aplicar sus modelos estadísticos a problemas de negocio como por ejemplo: Regresión lineal para predecir la producción en función de variables de carácter meteorológico Regresión logística para predicciones de tipo binario como la evaluación de riesgo (devolución de un préstamo) Diagramas de CART y random forests cuando la predicción depende de la clasificación, ayudando por ejemplo en la prevención y aplicación de atenciones específicas grupos
Página 35
Podríamos incluso avanzar un paso hacia el análisis prescriptivo y utilizar R para resolver problemas de optimización. Por ejemplo, en el caso de una empresa industrial, podríamos determinar la combinación óptima de productos a fabricar y/o a qué clientes servir en primer lugar, en un período de tiempo determinado y en base a la demanda existente, los costes de producción y las restricciones de recursos, de manera que se obtenga el máximo beneficio. Aunque en el portfolio de Oracle ya existen productos estándar de análisis prescriptivo. Oracle Real-Time Decisions (RTD) es un producto diseñado para optimizar los procesos de negocio apoyándose en diversas técnicas analíticas, como reglas de negocio, data mining, modelos estadísticos y aprendizaje automático (Machine Based Learning). RTD aplica dichas técnicas sobre la información que logra obtener, para determinada entidad, a través de todos los canales a su alcance: Comercio electrónico Call Centers Tiendas Interacción en las redes sociales Flujos de datos internos RTD utiliza modelos estadísticos en tiempo real, siendo capaz de adaptarlos a medida que detecta cambios en el comportamiento del usuario y correlacionando automáticamente centenares de atributos, que aplica específicamente a cada objetivo. En base a los objetivos de negocio definidos para cada proceso concreto y los inputs de cada operación, y aplicando modelos que corresponden a diversas perspectivas, como canales de interés, ofertas en las que se ha interesado, criterios de retención de clientes según su edad, sexo, etc. o las interacciones que ha abandonado, RTD es capaz de sugerir en tiempo real, la mejor acción a realizar por parte de nuestro negocio, como por ejemplo, predicciones y/o recomendaciones personalizadas sobre los productos que pueden interesar a un consumidor. La plataforma es sólo un medio La reflexión tras esta exposición es que para extraer todo el potencial del Big Data, las organizaciones deben ser capaces de realizar Advanced Analytics; no es suficiente realizar un proyecto Big Data, que se queda en las capa de infraestructura, para extraer su valor.
Desde nuestro punto de vista, a medida que vayamos ascendiendo por la pirámide de conocimiento del Big Data, iremos incrementando el valor obtenido: transformando los datos en información, de la que extraeremos conocimiento, que nos permitirá tomar decisiones más acertadas. Dicho de otra manera: superada la base de la pirámide donde residen los datos mayoritariamente crudos (que de alguna manera capturamos y persistimos…), y a través del análisis descriptivo lograremos identificar nuevas variables, a las que podremos asignar un valor (si no a todas, al menos sí a muchas) y/o asociarlas a ocurrencias de algunas de las entidades que ya existen en nuestro DWH (clientes, artículos,…) enriqueciéndolas. Seguidamente, podremos combinar con un análisis diagnóstico que a su vez genere datos para nuevas variables (que no serán hipótesis, sino reales) y con los que podremos construir nuevos datasets (o enriquecer de nuevo los existentes). Sobre esta información (que no teníamos), podremos aplicar modelos estadísticos existentes o desarrollar nuevos modelos y realizar análisis predictivos de diversos tipos según el objetivo que fijemos, con elevada fiabilidad (pues se basan en datos reales) para tomar decisiones más acertadas… o incluso permitir que un sistema de análisis prescriptivo automatice la toma de decisiones. La conclusión es que ambos conceptos deben ir de la mano: que Big Data no es una finalidad, sino un medio para llegar a Advanced Analytics. Cuanto “más alto” logremos llegar, mejor, pero se trata de una ascensión, por lo que cuanto más fácil sea el camino, mejor. Tomar un camino difícil (curva de aprendizaje lenta: muchos lenguajes y herramientas nuevas a aprender e integrar), equivocado (sin soporte, riesgo de discontinuación) o poco transitado (con pocos técnicos cualificados, tecnologías de nicho) alargará el tiempo necesario para que el proyecto de Big Data empiece a dar frutos e incrementará los costes de desarrollo. Por eso invertir en productos Oracle para desarrollar proyectos Big Data + Advanced Analytics en lugar de elegir otros caminos, probablemente termine suponiendo un ahorro. Sí, un ahorro en términos de time to market y de optimización de recursos que deberemos destinar a la selección de herramientas, despliegue e integración, en el momento inicial. Y a medio y largo plazo, un ahorro en horas de formación, desarrollo y búsqueda de soporte, durante el ciclo de mantenimiento del proyecto.
Aunque sería falso decir que no obtendríamos información con él, estaríamos renunciando a la parte más novedosa y ventajosa, el análisis predictivo y prescriptivo, tanto sobre datos estructurados como no estructurados (ahora posible, gracias al Big Data).
Página 36
Pรกgina 37
Oracle posee la gama más completa y más integrada de soluciones de Business Intelligence (BI), Big Data Analytics y plataformas analíticas para la toma de decisiones en tiempo real. Julia Bernal, directora de la unidad de BI y Analytics de Oracle Ibérica, analiza la propuesta de la compañía.
¿Qué papel juega la unidad de negocio de Business Intelligence en la estrategia general de Oracle? Business Analytics/BI es una prioridad para los CFO, los CIO y los CEO de las compañías en todos los sectores y de las administraciones públicas, también ha sido desde hace tiempo una de las prioridades estratégicas de Oracle y por ello la compañía lleva tiempo invirtiendo para que su propuesta tecnológica en este área sea y continúe siendo la número uno en el mercado. Nuestra tecnología ayuda a las organizaciones a manejar más datos, datos cada vez más heterogéneos de múltiples fuentes de información estructuradas, no estructuradas, manejarlos de la forma más rápida para poder ponerlos a disposición de un mayor número de personas dentro de las organizaciones. Nuestra tecnología permite invertir el concepto 80/20, tradicionalmente el 80% del tiempo hay que dedicarlo a preparar los datos y solo nos queda el 20% para analizarlos, Oracle ha conseguido que invertir estos conceptos para que el tiempo empleado en obtener respuestas sacarle partido a la información sea el máximo. Además nuestra tecnología permite que esta información pueda ser analizada a gran velocidad, a la velocidad que necesitan las compañías para impulsar mejores resultados en todos los aspectos de su negocio. También es clave permitir a los usuarios disponer de una plataforma ágil, flexible y cada vez más “self -service”, que les permita realizar sus propias investigaciones y consumir la información de distintas formas con visualizaciones avanzadas y a su vez con la seguridad y la robustez de una plataforma empresarial. Por ello Oracle posee la gama más completa y más integrada de soluciones de Business Intelligence (BI), Big Data Analytics y plataformas analíticas para la toma de decisiones en tiempo real. Todas estas tecnologías para desplegar en los centros de datos de nuestros clientes con sistemas de ingeniería para Analítica o en la nube en los centros de datos de Oracle. Una de las características esenciales de la propuesta de Oracle es que posee un enorme despliegue de Business Intelligence y Business
Analytics en término de usuarios y tamaño de datos, y que ofrecemos soluciones end-to-end, y propuestas como Engineered Systems aplicada a Analytics. Dentro de la estrategia Oracle BI hemos sido de los primeros en lanzar al mercado nuestra plataforma analítica en la nube, que como sabéis es también una de las prioridades estratégicas de la compañía. Además en esta área la gran ventaja de Oracle es que nuestra plataforma analítica en la nube es totalmente compatible con las soluciones de BI tradicionales, por lo que los clientes tienen una gran flexibilidad a la hora de compaginar ambos tipos de despliegues. Dentro de la estrategia Oracle BI hemos sido de los primeros en lanzar al mercado nuestra plataforma analítica en la nube, que como sabéis es también una de las prioridades estratégicas de la compañía. Además en esta área la gran ventaja de Oracle es que nuestra plataforma analítica en la nube es totalmente compatible con las soluciones de BI tradicionales, por lo que los clientes tienen una gran flexibilidad a la hora de compaginar ambos tipos de despliegues. ¿Por qué las empresas deben prestar atención a esta área? Conocer mejor tu negocio y conocerlo más rápido que los demás es la mejor forma de ganar ventaja competitiva en el mercado, ser más eficiente en nuestros procesos de negocio o en la atención a los ciudadanos. Para cualquier empresa de cualquier sector es clave tener una buena plataforma analítica que permita tomar las mejores decisiones en cada momento, y además tomarlas a tiempo. Y este proceso de toma de decisiones dentro de las organizaciones no solo sucede en los niveles de dirección de las compañías sino que sucede a todos los niveles, por lo que si proporcionamos las herramientas adecuadas a todos los niveles de nuestra organización conseguiremos una mejor y más eficiente inteligencia colectiva que permitirá a nuestra compañía avanzar, ser más eficiente y ser más competitiva. Las compañías no se pueden permitir que la información crucial les llegue demasiado tarde, y este es uno de los principales problemas a los que se enfrenta. De hecho según Aberdeen Group, el 53% de las compañías aseguran que la información crucial
Página 38
llega cuando ya no tienen tiempo para tomar las decisiones adecuadas. Un hecho que impone la necesidad de llevar a cabo una analítica empresarial en tiempo real que permita la toma de decisiones al instante. Otra de las dificultades es que las empresas generan más información de la que son capaces de manejar; datos que se quedan en el olvido y que, sin embargo, servirían para mejorar los productos y su relación con los clientes, con lo que se están perdiendo grandes oportunidades de negocio. Los datos desvelan que las compañías que toman decisiones basándose en el análisis de datos son un 6% más rentables que las que no lo hacen, y que las compañías obtienen un retorno de diez veces la inversión realizada por cada euro dedicado a analítica de negocio. Unas cifras que demuestran la importancia de incluir estas tecnologías en los procesos de negocio para avanzar en eficiencia, competitividad y rentabilidad.
espectro de información, este nuevo paradigma abre las puertas a una transformación de los negocios que tiene su impacto inmediato en el cliente y que permite a las empresas ser más competitivas y tomar las decisiones más adecuadas en cada momento. Pero es cierto que para las organizaciones el Análisis del Big Data es un reto, considerando los volúmenes de información de diferentes formatos, fuentes heterogéneas, la gran pregunta es ¿cómo combinar toda esta información para encontrar patrones o información útil para nuestro negocio?
A su vez los proyectos de Big Data requieren una inversión y una transformación en la gestión de la información de las organizaciones, y esta inversión sólo tiene sentido si sacamos el mayor partido a de todos esos datos generados. Por lo tanto las herramientas de Analytics se convierten en una pieza fundamental en los proyectos de Big Data. Ya no hablamos de Big Data sino que cada vez más y Ahora hablamos también de Analytics, como algo más hablamos de Big Data Analytics, ya nadie entienmás desarrollado ¿Cuál es la novedad que aporta de el mundo Big Data ajenos a las herramientas de este concepto? análisis y procesos asociados a cómo encontrar, transformar y analizar la información de Big Data”. Hay mucha literatura alrededor de todo esto y no hay una única definición, pero básicamente podríamos En este contexto, las tecnologías de Data Discovery decir que Analytics permite dar un paso más allá del (descubrimiento de datos), que forman parte del Business Intelligence tradicional y combinarlo con he- entorno de Oracle Business Analytics, se erigen como rramientas avanzadas de análisis de datos (Business una de las más demandadas y necesitadas por las Analytics). Estas tecnologías permiten a las organiza- compañías hoy en día. ciones combinar otros tipos de información para identificar patrones, tendencias, descubrir el porqué de lo Para este entorno, Oracle cuenta con la solución Big que está ocurriendo en su negocio, en definitiva prede- Data Discovery, que permite incorporar el valor cir el futuro. que aportan los datos no estructurados, provenientes de diferentes fuentes de información, y Cuando hablamos de Business Intelligence nos centra- convertirlos en valor empresarial. Esta herramienmos más en la eficiencia operacional, en lo que ha ta ha sido diseñada desde su inicio para eliminar esta pasado ya, en los indicadores que miden la eficiencia complejidad y permitir a las organizaciones acelerar de nuestro negocio, cuando hablamos de Analytics los proyectos de Big Data y poder incorporar el valor estamos pensando más en analizar lo que va a suce- que estas nuevas fuentes de información aportan a las der y adelantarnos tomando las decisiones correctas a organizaciones complementando la información tiempo. Podríamos de decir que Business Intelligence extraída por las herramientas de inteligencia de son las tecnologías asociadas al “run-the-business” y negocio. Analytics las asociadas a “tranform-the-business”. ¿Cuál es el valor diferencial que aporta Oracle? El Business Analytics va un poco más allá del Business Intelligence tradicional, permite no sólo obtener Algunos de los factores diferenciales de las soluciones información sobre lo que sucede en la empresa, sino de Oracle son que contamos con una plataforma anticipar los acontecimientos, establecer relaciones abierta que soporta un amplio número de fuentes, causa efecto y predecir lo que va a ocurrir. datos y formatos; y que ofrecemos soluciones end -to-end que permiten la medición, el análisis, la Independientemente de la definición lo que sí está previsión y optimización, además de análisis avanzado claro es que las tecnologías de BI y Analytics están y toma de decisiones en tiempo real; disponemos de transformándose, y este cambio viene motivado, por analítica avanzada con más de 80 modelos el gran volumen de información generada (el 90% pre-construidos por si los clientes de sus soluciode toda ella se ha creado en los dos últimos años), por nes CRM, HR, ERP o EPM desean integrar las correslas numerosas fuentes de las que proviene pondientes a BI y BA; y que permiten visualizar y (sensores, redes sociales, fotografías, vídeos, com- gestionar la información desde cualquier dispositivo pras, transacciones…), por la necesidad de que su móvil, al tiempo que pueden hacerlo on premise y análisis se realice muy rápidamente, de modo que en Cloud. las compañías puedan tomar decisiones en tiempo real y por la agilidad que necesitamos a la hora de Por otro lado en este marco tan complejo hemos crear nuevos proyectos de análisis de información. Y seguido innovando y desarrollando tecnologías de en Oracle estos son los elementos básicos en los que vanguardia, nuestra gran apuesta por Big Data con se centra toda nuestra propuesta. tecnologías que faciliten el análisis en los proyectos de Big Data donde también nos encontramos a la Llevamos muchos años hablando de Business vanguardia con productos como Big Data Discovery “la Intelligence y ahora de Analitycs ¿Pero qué aporta cara visual de Hadoop” y nuestra gran apuesta por en el ámbito del Big Data? Cloud que añade la felxiblidad y la agilidad que necesitan las organizaciones para ser más competitivas y Los proyectos de Big Data aportan a las organizacio- eficientes. nes la capacidad de sacar partido de un enorme
Página 39
Oracle BigData Analytics ofrece una amplia plataforma para ayudar a las empresas a analizar información, descubrir valor en el vasto volumen de datos existentes y predecir comportamientos y tendencias relacionadas entre sí, con el objetivo de lograr una visión completa del negocio de forma efectiva, fiable y de menor coste. Los beneficios del big data incluyen la gestión de los grandes volúmenes de datos, la gran variedad de información y la velocidad con la que aumentan, Oracle Big Data Analytics permite integrar estos nuevos tipos de información, datos estructurados y no estructurados o incluso fuentes externas, con información tradicional corporativa dando una visión intuitiva completa y única en los diferentes procesos de negocio y operaciones. ANALIZAR LA INFORMACIÓN en BIG DATA BIG DATA es muy similar a la información tradicional en muchos aspectos: se debe capturar, almacenar, organizar y analizar la información y este resultado debe integrarse.
Oracle Business Intelligence Foundation proporciona acceso a fuentes Apache Hadoop permitiendo la integración como si fuera una fuente de datos cualquiera y capacitando al usuario de negocio de la unión de la información de sus datos corporativos y las nuevas fuentes de datos Además de ofrecer una aproximación más completa en el entendimiento del negocio está construido sobre arquitecturas existentes que no tienen por qué ser reemplazadas, por lo cual reduce el coste de inicialización de proyectos BIG DATA.
Las empresas que han aprendido el verdadero valor del bigdata, entienden que tienen que analizar su información dentro del contexto de un panorama más amplio; integrar el bigdata con información tradicional para dar una visión de 360 grados de la compañía.
Las opciones principales para analizar, descubrir y compartir datos en Hadoop.
Página 40
5 Pasos para la visión holística de Oracle Big Data Discovery.
DESCUBRIR VALOR
Transformar
Big data permite responder preguntas del tipo ¿Cómo Los datos en Hadoop necesitan ser manipulados y afecta el sentimiento de marca de mis productos en los preparados antes de ser utilizados para el análisis. clientes sobre las ventas? Con Oracle Big Data Discovery, los analistas utilizan una interfaz intuitiva de hoja de cálculo para transforApache opensource proporciona el software necesario mar grandes datos para su uso en análisis. Al mismo para almacenar y analizar una asombrosa cantidad de tiempo, los datos puede ser enriquecidos como por información en diferentes tipos de formatos: Videos, ubicación y lengua o detectar temas y sentimientos mapas, documentos,…De esta forma Hadoop ha sido enterrados en el texto sin formato. adoptada como salvador indispensable para la gestión del vasto volumen de datos no estructurados, críticos En lugar de gastar el 80 por ciento de su tiempo en la para conseguir un valor de negocio . preparación de datos, los analistas pueden transformar rápidamente incluso grandes volúmenes de datos Los datos en Hadoop están desestructurados y disper- grandes, haciéndolo disponible para toda empresa y sos por lo que se gasta el 80% del tiempo en la prepa- liberándolos para pasar la mayor parte de su tiempo en ración y solo el 20% en el análisis o descubrimiento del la analítica. dato. Y las herramientas son complejas, no están integradas y necesitan perfil experto debido a la pro- Tipos de transformaciones: gramación. Mayúsculas minúsculas borrar duplicar renombrar Oracle Big Data Discovery con un interface totalmen- agrupar split te visual encuentra explora y transforma los datos en Hadoop descubre nuevos relaciones y comparte los Descubrir resultados. El usuario puede unir datasets de Hadoop con excels y csv para ver diferentes perspectivas de la información. Automáticamente te elige la mejor forma de visualizaOracle BDD proporciona una interface visual para que ción. los analistas puedan navegar por el extenso catálogo de datos del cluster de Hadoop e identificar de forma Compartir rápida que es relevante en ese momento. Los usuarios pueden exportar sus análisis a Hadoop En este catálogo se recopila información de estadísti- para que herramientas de terceros se puedan beneficas de atributos individuales de los datos, tamaño de ciar de los subconjuntos o perfiles conseguidos en Big ficheros, etc… lo que nos permite ordenar y visualizar Data Discovery. la información de forma precisa y descubrir patrones INGENIERIA CONJUNTA potenciales o correlaciones entre distintos atributos. Beneficios De negocio: Oracle Exalytics y Oracle Big Data Appliance son los Acceso al catálogo de hadoop, sistemas de ingeniería conjunta de Hardware y softwa Navegación por los catálogos re integrados, optimizados y tuneados para capacitar a las empresas con análisis, visualizaciones y seguridad Sumarizaciones de atributos en el Big Data reduciendo el riesgo y tiempo en los despliegues con un menor coste de propiedad. Encontrar
Página 41
Pรกgina 42
Contar con herramientas adecuadas para sacar inteligencia de negocio de los datos es una prioridad estratégica para las empresas. Mar Montalvo, directora de preventa de soluciones Big Data y Analytics en Oracle Ibérica nos ofrece algunas de las claves para entender cómo afrontar este tipo de proyectos. Desde un punto de vista técnico ¿qué debe tener en cuen- Desde el punto de vista de la gestión de los datos, casi ta una empresa a la hora de afrontar un proyecto Big todas las compañías, y más las que van a abordar Data/BI/Analytics? proyectos de Big Data, disponen un Data Warehouse pero, las mejores prácticas de la gestión de la informaLas tecnologías de hoy en día son lo suficientemente ción en Big Data incorporan Hadoop y NoSQL. El momaduras para abordar proyectos de Big Data/BI/Analtytics, nolítico Data Warehouse ha evolucionado a nuevas por lo que la tecnología no es una barrera, hoy podemos arquitecturas más flexibles que consisten en tres comabordar proyectos que hace unos años eran impensables. ponentes principales. A la hora de pensar en BigData /Analytics hay que tener en cuenta una arquitectura robusta y flexible que nos permita ir abordando proyectos cortos con alto retorno pero dentro de una arquitectura que sea capaz de soportar, no sólo los proyectos actuales sino también los futuros, en definitiva, lo que tenemos que conseguir es flexibilidad. Pensando en la flexibilidad, el Cloud juega un papel importante porque nos permite probar, prototipar y encontrar el valor antes de hacer un despliegue completo. Oracle, en su estrategia hacia el Cloud, proporciona entornos Cloud de diferente naturaleza (IaaS, Paas y Saas) que permite transiciones de un modelo a otro o, arquitectura híbridas de componentes on-premise y Cloud.
El Data Warehouse que corre en Oracle Data Base y Oracle Exadata (la máquina de la base de datos). Ésta almacena la mayor parte de la información de la compañía: registros financieros, de clientes, de los puntos de venta…
El “Data Reservoir” que se almacena en Big Data Appliance, complementa las capacidades del Data Warehouse como un repositorio para las nuevas fuentes de gran volumen: ficheros de log, datos de redes sociales, videos e imágenes, e información transaccional más granular o antigua que se libera del Data Warehouse para depositarlo en este almacenamiento más barato. Aquí estamos hablando de entornos Hadoop y NoSQL.
Oracle Big Data SQL es el principal lenguaje, estándar y seguro que permite acceder a todo el ecosistema de datos combinando el acceso a la base de datos Oracle, Hadoop y NoSQL.
En definitiva, una aquitectura flexible es la clave para soportar y tener éxito en las iniciativas Big Data / Analytics. ¿Cuáles son las barreras principales para la implementación de estos proyectos y cómo se pueden superar?
Una de las principales barreras puede ser el desconocimiento de las tecnologías que soportan estos proyectos, para ello es imprescindible contad con un socio tecnológico que ayude a identificar y poner en marcha las mismas. Oracle cuenta con Desde el punto de vista de análisis de los datos en Big la solución de Big Data / Analytics más robusta y completa Data, Oracle cuenta con las siguientes soluciones: del mercado, con experiencias probadas en grandes compañías de diferentes sectores. Oracle Business Inteligence Foundation y Exalytics (la máquina para el análisis), permite analiBig Data y Analtyics es una prioridad de los CEOs y de los zar la información de todo el entorno Big Data, C levels de las compañías, no sólo de los científicos de integrar la información del “Data Reservoir” con datos. Estas áreas de negocio están identificando proyectos e la información tradicional del Data Warehouse iniciativas disruptivas, que implican nuevos métodos de para dar una visión 360 grados de la organizaanálisis que sean capaces de sintetizar las nuevas y volumición. Permite industrializar el Business Intelligennosas fuentes de datos. ce con todas las fuentes disponibles y democratizar el conocimiento a todas las personas de la Sin duda alguna, la principal dificultad radica en la selección organización en función del rol y función que de las tecnologías que aporten valor al negocio. Esto nos desempeña. hace pensar que, lo primero que hay que hacer es identificar el caso de negocio y después, elegir las tecnologías que Big Data Discovery. Es la cara visible da Hasoporten esta iniciativa, y no al revés. doop, permite a los usuarios de negocio manejar el ciclo de vida de la información en entornos Hadoop (buscar, explorar, transformar, analizar y ¿Qué tecnologías entran en juego para desarrollar compartir) sin necesidad de escribir código ni este tipo de proyectos? lidiar con estas nuevas tecnologías complejas para ellos. Las tecnologías las podemos estructurar en dos grandes áreas: la gestión de los datos en Big Data y el análisis y dicha información.
Página 43
Big Data Discovery facilita la vida al Científico de Datos, todos los proyectos de transformación digital cuentan con estos perfiles; ayuda a acelerar los proyectos de Big Data proporcionando a los analistas y usuarios de negocio de un entorno amigable de uso de datos en Hadoop; adicionalmente, permite un entorno sandbox o laboratorio de datos. Los productos del entorno Big Data están disponibles en el Cloud, alineada con la estrategia de Oracle en este modelo de despliegue. Las mismas capacidades están disponibles on-premise y en el Cloud y permite a las organizaciones hacer transiciones de un modelo a otro o, crear arquitecturas hibridas, flexibilizando las necesidades de cada organización. ¿Cuáles son las características esenciales y diferenciales de las soluciones Oracle? Oracle cuenta con soluciones líderes en las diferentes áreas: gestión de los datos, análisis, integración, seguridad, etc. Aunque todas estas soluciones son abiertas para interactuar con otras tecnologías de diferentes fabricantes, Oracle proporciona la solución más completa del mercado y, puede dotar a la organización de una solución end-to-end (hardware, software y aplicaciones) basada en un único fabricante, reduciendo el coste de mantenimiento y simplificando la integración y el soporte de los diferentes elementos. Por otro lado, Oracle proporciona el mayor nivel de flexibilidad permitiendo un despliegue on-premise, en Cloud o de forma híbrida y, soportando transiciones entre unos modelos y otros para adecuarse a las necesidades de cada momento. ¿En cuánto tiempo pueden las empresas obtener un retorno de la inversión? Hemos expuesto la necesidad de empezar identificando los casos de negocio que nos ayuden a justificar la inversión y que proporcionen de forma rápida valor para la organización. Cada caso es diferente pero todos los proyectos tocan elementos clave del negocio; las nuevas fuentes de información nos ayudan a entender mejor a los clientes y así generar nuevas formas de comunicarse con estos, de forma más personalizada; van ligados a proyectos que abordan nuevos modelos de negocio; anticiparnos a las necesidades de los clientes; nuevos fuentes que nos ayudan a identificar y anticiparnos al fraude, por citar algunos ejemplos. Todos estos proyectos generan un gran impacto en las cuentas de resultados, por lo que hay ejemplos en los que, en tres o cuatro meses podemos obtener un retorno de la inversión.
Página 44
datos en bruto en Hadoop. El actual desafío del Big Data no es cómo almacenarlo, si no el modo de darle sentido. Oracle Big Data Carga de datos local desde archivos Excel y CSV a través de asistentes de autoservicio. Discovery es un enfoque totalmente nuevo para dar sentido a Big Data, fortaleciendo a las organizaciones Visión de conjunto de datos, resúmenes, anotaciones de otros usuarios y recomendapara ver rápidamente y comprender el potencial de ciones para los conjuntos de datos relaciodatos en bruto en Hadoop, transformar fácilmente el nados. dato para hacerlo mejor, y descubrir intuitivamente y Exploración de datos a través de búsqueda compartir nuevo valor - todo dentro de un producto familiar y navegación guiada. visual único. Oracle Big Data Discovery ofrece una tremenda velocidad a escala masiva, racionalización de la analítica Big Data para descubrir nuevo valor Junto con estadísticas sobre cada atributo individual para todos. en cualquier conjunto de datos, estas capacidades muestran la forma de los datos, permitiendo a los Cambio de juego para Big Data Discovery usuarios a entender rápidamente la calidad de los Hadoop continúa tomando impulso, con las organiza- mismos, detectando anomalías, descubriendo valores ciones usándolo incrementalmente para almacenar la atípicos y, en última instancia, determinando el potenenorme cantidad de datos desestructurados que cial. Esto permite a las organizaciones: existen en el data warehouse de la empresa. Mientras Visualizar atributos de tipos de datos, para ver que la recogida y almacenamiento de grandes cantidade un vistazo cuáles con más relevantes. des de datos son los primeros pasos para el análisis, éstas son para muchas organizaciones las únicas Ordenar atributos por potencial, por lo que la medidas que pueden tomar. información más significativa se muestra primero. Existen enfoques de análisis que simplemente no Usar el bloc de notas para descubrir patrones pueden suministrar Big Data que, por su naturaleza, es potenciales y correlaciones entre atributos. muy nuevo, extremadamente diverso y de calidad variable, en constante cambio y en gran parte desconocido. Esto da lugar a organizaciones que han de afrontar elecciones difíciles: contratar recursos Hacer mejor el Big Data rápidamente altamente especializados que puedan hacer uso de herramientas complejas y no integradas para dar sentido al Big Data, o hilvanar una serie de soluciones Uno de los desafíos del análisis de datos, a cualquier puntuales emergentes para intentar obtener una escala, es que rara vez está preparado para ser imagen de lo que hay en los datos y qué valor puede usado tal cual, y típicamente requiere distintos grados de limpieza y transformación. Lograr el mayor valor ofrecer. analítico puede también significar una mayor ampliaSin duda lo que se necesita es un enfoque holístico ción de los datos, extrayendo los temas y los sentipara Big Data que ofrezca a las organizaciones una mientos, y mezclando conjuntos de datos para descuvía fácil e intuitiva para ver qué han recogido de brir nuevos patrones. En el actual escenario Big Data, Hadoop y comprender rápidamente su potencial; traba- la transformación y el enriquecimiento son frecuentejar con datos visualmente y dinámicamente sin herra- mente gestionados hacia arriba y en distintas herramientas de conmutación; y participar con sus datos vía mientas, las cuales pueden alterar el contexto e incredescubrimiento interactivo, moviéndose rápidamente mentar el tiempo que lleva conseguir resultados signifipara crear visualizaciones y compartir ideas con cativos. colegas, permitiendo a las compañías aprovechar más No es así con Big Data Discovery. La transformación y su talento analítico e impulsando la innovación. enriquecimiento de los datos se gestiona nativamente Oracle Big Data Discovery está diseñado expresamen- dentro del producto, en una interface visual intuitiva e te para afrontar esas necesidades, haciendo el Big interactiva, la cual aprovecha la potencia entre bastiData más accesible para todos a lo largo de la organi- dores de Apache Spark para transformar cantidades zación, disminuyendo los riesgos asociados a los masivas de datos a escala, asegurando la no pérdida proyectos Big Data, y acelerando el tiempo de valor. de contexto. Los usuarios de datos científicos a analistas de negocio pueden: Ver el potencial de Big Data Es difícil justificar la inversión sin un cierto retorno – pero sin saber qué hay en los datos es difícil estimar el valor potencial. Oracle Big Data Discovery resuelve este problema proporcionando u n rápido acceso visual a todos los datos en Hadoop, por lo que las organizaciones pueden:
Hacerse cargo de los datos ‘in situ’ en Hadoop
a través de una interface estilo hoja de cálculo intuitiva. Aprovechar una extensa biblioteca de transformaciones de datos, como dividir, unir, grupo, reemplazar valores, y mucho más.
Encontrar datos relevantes rápidamente, a . través de un rico catálogo interactivo de los
Página 45
Enriquecer para inferir lenguajes o generar
jerarquías geográficas de los campos de direcciones, así como la extracción de sentimientos y temas automáticamente de información en bruto. Las transformaciones del test en los datos in memory de la muestra antes de aplicarlos al juego completo de datos en Hadoop. Vista previa de los resultados, y deshacer o repetir transformaciones antes de comprometerse explícitamente.
Desbloquear el descubrimiento de Big Data para todos Es importante destacar que Big Data Discovery abre el proceso de descubrimiento para los analistas de negocio así como a los científicos de datos, permitiendo a todos los miembros del equipo de Big Data destinar mucho menos tiempo en la preparación y mucho más en el análisis. Big Data Discovery acelera el proceso analítico mediante la racionalización de las fases iniciales de entendimiento, transformación y enriquecimiento de Big Data, aprovechando las mejores prácticas para la visualización interactiva y el descubrimiento de datos. Esto significa que todos en el equipo ampliado de Big Data pueden:
Hacer preguntas de los datos y obtener
respuestas con tanta facilidad como las compras online, usando búsqueda familiar de primer nivel y navegación guiada. Arrastrar y soltar para crear y combinar visualizaciones interactivas ricas y descubrir cuadros de mando. Ampliar perspectivas o cambiar el curso de la investigación mezclando conjuntos de nuevos datos en un análisis, actualizando la visualización y los cuadros de mando en el momento. Crear galerías de snapshots (fotos) que cuenten historias de Big Data, e impulsen el descubrimiento colectivo por la compartición de galerías, marcadores y proyectos enteros entre equipos. Extender el alcance y valor de los datos por la publicación de datos combinados para Hadoop Distributed File System (HDFS), para su uso en toda la empresa.
Innovación técnica sobre Hadoop Oracle Big Data Discovery ofrece una verdadera innovación técnica sobre Hadoop, aprovechando nativamente la potencia de la computación y almacenamiento distribuidos a lo largo de los servidores o nodos, para procesar cantidades masivas de información sin tener que moverlo.
Studio es el único interface de usuario basa-
do en web que facilita que cualquiera pueda encontrar, explorar, transformar, descubrir y compartir datos. Dgraph server es la base de datos híbrida de búsqueda analítica que permite a los usuarios operar sobre conjuntos de datos en memoria para un rendimiento interactivo. Procesamiento de datos usa Apache Spark
para perfilar, mostrar, transformar y enriquecer cantidades masivas de información a lo largo de los nodos de datos del cluster Hadoop. Gestión unificada de Big Data y soluciones analíticas de Oracle Big Data Discovery es un componente esencial en la estrategia de gestión y análisis de Big Data, capacitando a los clientes para: Usar Oracle R Advanced Analytics para Hadoop con el fin de mejorar el análisis predictivo. Aprovechar Oracle Big Data SQL para consultar los datos en HDFS sin moverse en absoluto. Implementar soluciones sobre los Sistemas de Ingeniería conjunta de Oracle, capacitando un rápido despliegue de aplicaciones, beneficios de rendimiento optimizados y menor coste total de propiedad. Recuadros 1) Big Data Discovery; definición: Big Data Discovery es un miembro de la suite de productos Oracle Big Data Analytics que, junto a otras soluciones Big Data de Oracle, ofrece a los clientes la más completa plataforma Big Data de la industria. Productos relacionados: Los siguientes productos complementan Oracle Big Data Discovery: Oracle Big Data Appliance. Oracle Big Data SQL. Oracle R Advanced Analytics for Hadoop. 2) Rasgos clave de Big Data Discovery: Encontrar: A) Acceso a un rico catálogo interactivo de todos los datos en Hadoop. B) Usar búsqueda familiar y navegación guiada para encontrar información rápidamente. C) Ver resúmenes de juegos de datos, anotaciones y recomendaciones de usuarios. D) Prestación personal y datos de empresa a Hadoop vía self-service. Explorar: E) Visualizar todos los atributos por tipo. F) Clasificar atributos por potencial información. G)Atribuir estadísticas, calidad de datos y valores atípicos. Transformar: H) Obtener el dato preparado para analítica vía intuitiva, datos orientados al usuario . I) Aprovechar una extensa biblioteca de transformación y enriquecimiento de datos. J) Previsualización de resultados, deshacer, realizar y repetir transformaciones. K) Pruebas sobre datos de la muestra en memoria cuando aplica para todos los datos en Hadoop.
Página 46
Transformar: H) Obtener el dato preparado para analítica vía intuitiva, datos orientados al usuario . I) Aprovechar una extensa biblioteca de transformación y enriquecimiento de datos. J) Previsualización de resultados, deshacer, realizar y repetir transformaciones. K) Pruebas sobre datos de la muestra en memoria cuando aplica para todos los datos en Hadoop. Descubrir: L) Unir y mezclar datos de perspectivas más profundas. M) Componer páginas del proyecto a través de arrastrar y soltar (drag&drop). N) Usa una potente búsqueda y guía de navegación para preguntar cuestiones. O) Ve nuevos patrones en ricas visualizaciones de datos interactivos. Compartir: P) Comparte proyectos, marcadores y fotos con otros. Q) Crea galerías y cuenta historias de Big Data. R) Colabora y repite como un equipo. S) Publica datos mezclados a HDFS para aprovechar en otras herramientas. 3) Beneficios: A. B. C. D. E. F. G. H. I. J.
Entender rápidamente el potencial de Big Data y saber dónde empezar. Ser capaz de prever y justificar la inversión. Saber inmediatamente donde no avanzar. Transformar y enriquecer los datos en una escala masiva para facilitar la mejora de datos para todos. Destinar el 80% de los esfuerzos en analítica y percepción, en lugar de en la preparación de los datos. Ampliar los equipos de Big Data para incluir analítica de negocio e impulsar el descubrimiento colectivo de datos. Procesar datos en el lugar en Hadoop, reduce sustancialmente el movimiento de datos y la gestión de los costes. Desplegar rápidamente, en los entornos existentes o nuevos, para empezar de inmediato. Eliminar las barreras técnicas por la integración con la infraestructura existente y otras herramientas Big Data. Implementar como un sistema de ingeniería conjunta o hardware commodity, y ampliar fácilmente para adaptar el crecimiento.
Página 47
Nuestras newsletters electrónicas ofrecen siempre información de interés para la Comunidad de Usuarios de Oracle, Java y MySQL, desde casos de usuario, mejores prácticas, noticias, información de productos y actualizaciones hasta las últimas tendencias de la industria.
http://bit.ly/TPw3np
Página 48
Oracle Cloud * Aplicaciones * Customer Experience * Enterprise Performance Management * Enterprise Resource Planning * Gestión de Capital Humano * Supply Chain Management * Industry Applications * Applications Product Lines* Database * Bases de Datos Oracle * Real Application Clusters * Data Warehousing * Database Security * MySQL * Berkeley DB * TimesTen In-Memory Database * Java * Herramientas de desarrollo * Sistemas operativos * Oracle Solaris * Oracle Linux * Middleware * Base para las aplicaciones en la nube * Integración de Datos * Business Analytics * Gestión de Identidades * Arquitectura orientada a servicios * Business Process Management * WebCenter * WebLogic * Gestión empresarial * Gestión de nube * Oracle Application Management * Database Management * Gestión de middleware * Gestión de hardware y de virtualización * Gestión heterogénea * Oracle Lifecycle Management * Sistemas de ingeniería * Big Data Appliance * Exadata Database Machine * Exalogic Elastic Cloud * Exalytics In-Memory Machine * Database Appliance * Oracle SuperCluster * Oracle Virtual Compute Appliance * Oracle ZFS Storage Appliance * Servidores * SPARC * x86 * Blade * Netra * Almacenamiento y cinta * SAN Storage * NAS Storage * Tape Storage * Networking and Data Center Fabric Products * Enterprise Communications * Virtualization * Oracle VM for x86 *Oracle VM for SPARC * Oracle Secure Global Desktop * Servicios * Consultoría * Premier Support * Advanced Customer Support Services * Formación * Cloud Services * Financiación * Oracle Customer Programs
Página 49