29
ÍNDICE CAPÍTULO
01_
PÁGINA
Presentación
4
02_ 01— Estadística, Data Mining, Analytics 03_ 04_
y Machine Learning: un poco de historia
5
01.1— ¿En qué consiste el Machine Learning?
6
01.2—
¿Por qué funcionan los algoritmos
de Machine Learning?
05_ 02 Machine Learning & Big Data: 06_— más allá de la moda
8
10
07_ 03— ¿Cómo asegurar que la inversión en Machine Learning y Big Data sea altamente rentable?
08_ 04 Requisitos para obtener valor diferencial 09_— 05— Los nuevos profesionales 10_ Conclusiones 06—
14 17 20 21
07— Glosario 11_
23
08— Bibliografía 12_
25
09— Sobre los autores 13_
26
14_ 3
PRESENTACIÓN La irrupción de nuevas tecnologías aplica-
Seguidamente, los autores explican me-
das al análisis de datos puede arrastrar a
diante experiencias reales las fórmulas
las empresas a una sensación de vértigo.
más acertadas para que la organización
No hay motivo real para que ello ocurra.
haga un uso eficiente de la tecnología Big
Las empresas vienen usando información
Data y el Machine Learning. También se
para optimizar sus resultados desde mu-
advierte que la acumulación masiva de
chas décadas atrás, si bien es cierto que
datos no proporciona, por sí misma, nin-
los procesos están ganando en compleji-
gún beneficio para la empresa: el directivo
dad: es posible recoger muchos más datos
debe decidir qué datos interesan realmen-
y más variados en un espacio de tiempo
te y descartar aquellos que no aportan
sensiblemente menor. Esta dinámica obli-
valor. Con esta finalidad, el presente
gará a los directivos a tomar decisiones en
informe recopila también algunas reco-
tiempo real y predecir un nuevo escenario
mendaciones para llevar a cabo una apli-
al que ningún profesional podrá permane-
cación eficiente del sistema Big Data y del
cer ajeno.
Machine Learning, así como los requisitos que se precisan para que la implantación
Nuestro propósito es que este informe sea
de ambas tecnologías sea exitosa y aporte
un instrumento útil para los directivos a la
valor añadido al negocio.
hora de enfrentarse a los retos que plantea la Inteligencia Artificial y que puedan
Los perfiles -técnicos y directivos- que se
obtener el máximo valor para el negocio a
necesitan para desarrollar una solución de
partir de las herramientas que esta nueva
Machine Learning constituyen, igualmente,
tecnología nos proporciona. También pre-
un aspecto fundamental para garantizar el
tende indicar, a través de una serie de re-
éxito del sistema. El documento recoge las
comendaciones y consejos, cómo hacer un
skills más importantes que deben tener
uso eficiente de las mismas, consiguiendo
ambos perfiles para un buen uso de esta
un rendimiento óptimo desde el punto de
tecnología.
vista de la gestión del negocio. El cierre del informe “Machine Learning, El primer capítulo de este documento hace
Inteligencia Artificial y Big Data. Lo que
un repaso a cómo las empresas, histó-
todo directivo debe saber” lo protagonizan
ricamente y en los años recientes, han
las conclusiones que pueden extraerse del
utilizado información y datos para mejorar
documento, evidenciando que la aplicación
sus objetivos comerciales. Asimismo, hace
de una solución de Big Data y Machine
referencia a la evolución de la aplicación
Learning es completamente necesaria
de estos datos: cómo pasaron de ser
para el negocio.
meros registros, a utilizarse para mejorar el negocio.
4
Xavier Gangonells Director general de AED
Como expertos en minería de datos y aprendizaje automático, hemos tenido que explicar a profesionales de otras disciplinas, en numerosas situaciones, en qué consisten estos conceptos y cómo podrían incorporarlos en sus compañías. Con este artículo esperamos haberlo logrado: conectar con el negocio y hablar su mismo idioma es nuestra especialidad. Nuestro objetivo es acercar la experiencia que atesoramos a los responsables de áreas de negocio con inquietudes similares; ayudarles ante la difícil tesitura de tener que decidir cómo llevar a cabo la transformación digital de sus compañías en la que se ha vuelto indispensable incorporar el aprendizaje automático en sus procesos y decisiones.
1. ESTADÍSTICA, DATA MINING, ANALYTICS Y MACHINE LEARNING: UN POCO DE HISTORIA Al principio eran datos y, después, su
transaccional. Ya no se trata solo de los
Después, en el menor tiempo posible,
análisis e interpretación. Un ordenador
reportes de las ventas del último mes
querrá medir el impacto y la respuesta de
de mesa, herramientas estadísticas,
por tienda y SKU (código de artículo),
los consumidores.
reportes básicos y un grupo de expertos
sino que es indispensable conocer las
era suficiente para tomar decisiones
ventas de ayer por SKU, tienda y cliente.
La conjunción tiempo, información y ex-
operativas. Los directores de Marketing y
Y no solo eso: quién es mi cliente, con
pectativas de los clientes exige un enfo-
planificadores de la demanda, para anti-
qué frecuencia compra, qué anuncios le
que más allá de un grupo de expertos que
cipar el volumen de ventas del siguiente
agradan, dónde vive y cuántos hijos tiene.
toman decisiones en base a su experien-
trimestre o el impacto que tendría una
Y aún más: qué tiempo hacía cuando
cia e intuición. Ya no alcanza la potencia
nueva promoción, únicamente se valían
realizó la compra y cómo circulaba el
de un ordenador de mesa y ni siquiera la
de informes mensuales que confirmasen
tráfico por las carreteras. Y también:
de un servidor para procesar los grandes
su intuición.
a qué precio vendían los competidores
volúmenes de información. Ya no solo
un producto similar y qué promociones
gestionamos datos estructurados como
estaban disponibles.
nombres, volúmenes de venta y fechas;
Así, el uso de los datos se circunscribía únicamente al ámbito en el que eran
la información se captura en comentarios
creados: las ventas históricas explicaban
En definitiva, los datos dejan de ser un
de texto por parte de clientes o perfiles
las futuras, el tiempo previsto determi-
puro registro y reflejo de las activida-
técnicos, mediante mensajes grabados,
naba si era conveniente abrigarse o salir
des de negocio para interrelacionarse
imágenes y vídeos que es indispensable
con paraguas y las reclamaciones de
e interconectarse; mientras, el tiempo
interpretar. En dos palabras: Big Data.
garantías se utilizaban para reembolsar
adquiere una nueva dimensión: prima
a los agentes responsables de la repara-
la inmediatez en la toma de decisiones.
La definición de Big Data no puede
ción de productos.
El director de Ventas ya no solicita un
limitarse a su simple traducción literal
informe mensual. Quiere saber qué pro-
como “grandes datos”. Tiene un alcance
Con el tiempo, los datos capturados se
moción lanzar y sobre qué producto, qué
superior y podríamos sintetizarlo en las 3
multiplican y el fin deja de ser puramente
estrategia usar y durante cuánto tiempo.
V que los definen.
5
“Los datos dejan de ser un puro registro y reflejo de las actividades de negocio para interrelacionarse e interconectarse; mientras, el tiempo adquiere una nueva dimensión: prima la inmediatez en la toma de decisiones”
1.1 ¿En qué consiste el Machine Learning?
Las 3 V del Big Data • Velocidad: rapidez en el almace-
El Machine Learning es una rama de
Ventas de una empresa retail del país
la Inteligencia Artificial enfocada al
sabe que, durante las primeras semanas
desarrollo de técnicas que permitan
del periodo estival, el volumen de venta
el aprendizaje de las máquinas. Para
de las camisetas de manga corta supone
saber cómo funciona y qué utilidad tiene
el 40% del total. Conoce el impacto que
esta disciplina, a continuación, ilustra-
tiene el clima, también el del precio y el
namiento, transmisión y procesa-
mos, a través de algunos ejemplos, la
de los productos de la competencia. Por
miento.
importancia del Machine Learning en la
eso, decide enviar más mercancía a las
productividad de las empresas.
tiendas.
• Variedad: tipos (estructurados, sonido, imagen, texto) y fuentes
El año anterior ocurrió precisamente
(internas, externas). • Volumen: cantidad masiva de datos.
El comportamiento automático
lo contrario: la temporada de verano se inició con temperaturas bajas, por lo que las ventas de un producto similar a las camisetas de manga cortan se atrasaron.
Es acompañado de soluciones de
Caso 1: Empresa retail japonesa
El director de Ventas decidió potenciar la
Machine Learning cuando Big Data
La temporada de verano en Japón se ha
venta de camisetas de manga larga con
adquiere todo su valor.
adelantado unos 10 días. El director de
una promoción, de modo que consiguió
6
mejorar sus resultados un 20% a la vez
Los modelos matemáticos
que se incrementó la actividad de los clientes en redes sociales con relación a
De la misma manera que los expertos
estas prendas.
aprenden de manera intuitiva y toman la decisión que consideran más adecuada, los modelos matemáticos son capaces
“El comportamiento automático consiste en utilizar la información histórica almacenada internamente o procedente de fuentes externas y aprender, con el fin de tomar decisiones inteligentes”
Caso 2: Planta de fabricación de maqui-
de proveer información útil. La simu-
naria agrícola
lación de toma de decisiones con datos
El ingeniero de una planta de fabricación
históricos nos dará el nivel de confianza
de maquinaria agrícola reconoce que los
esperado; de modo que la intuición de los
nuevos componentes incorporados en
expertos se transforma en datos cuanti-
el último modelo de uno de sus produc-
ficados.
tos no se comportan de acuerdo con las expectativas de la compañía.
En el caso de la empresa retail japonesa, los modelos matemáticos podrían ayu-
Cuenta con datos históricos que indican
darnos a estimar el volumen de ventas
el nivel de fallo de nuevos componentes
al inicio de la temporada o a ajustar los
durante las primeras semanas por tiem-
pronósticos en función del grado de sa-
po de uso (horas/kilómetros), por piezas
tisfacción reflejado por los clientes en las
de repuesto, clima y geografía. A su vez,
redes sociales.
conoce las tendencias en términos de costes por máquina y fallos por máquina
En el caso del fabricante de maquinaria
durante el período de garantía. Desde
agrícola, podrían contribuir a despejar los
su experiencia, el nivel de fallos supera
factores vinculados con el fallo. Podrían
el volumen esperado según el tiempo de
estimar si los nuevos componentes
uso, lo que le lleva a pensar en que está
superan la ratio de fallos históricos o
frente a un fallo epidémico emergente.
la magnitud esperada en términos de coste y volumen, teniendo en cuenta los
En ambos casos, tanto el director de Ven-
equipos expuestos al riesgo y sus horas
tas como el ingeniero, nuestros expertos,
de uso. Conociendo las causas, sería más
contaban con conocimientos generados
factible encontrar las soluciones.
en base a su experiencia. Ambos han desarrollado lo que se conoce como
Ambos son ejemplos de aprendizaje
“comportamiento automático”: utilizar
automático sin necesidad de intervención
la información histórica almacenada
humana: búsqueda de patrones de com-
internamente o procedente de fuentes
portamiento basados en datos históricos
externas y aprender con el fin de tomar
para aplicarlos en nuevas situaciones
decisiones inteligentes.
desconocidas.
7
1.2 ¿Por qué funcionan los algoritmos de Machine Learning? En cualquier proceso analítico, el objetivo
En definitiva, los algoritmos de Machine
bastante relativa-, sino de su correcta
principal es extraer información
Learning resultan en gran medida efica-
estratificación. Y, muy especialmente, de
accionable del conjunto de datos. Es
ces para abordar problemas de segmen-
la correcta identificación de las fuentes
decir, información objetiva y operacio-
tación, clasificación e incluso predicción.
de variación, así como de los respectivos
nalmente válida, ya sea para la toma de
Un ejemplo de ello, en una de las áreas
factores de ponderación.
decisiones o para el control de procesos
en las que, probablemente, vamos a ser
en tiempo real.
testigos de grandes avances, es en la
En este sentido, los algoritmos de
comunicación: tales como los sistemas
Machine Learning son capaces de extraer
La característica fundamental de los
de recomendación que muchos de noso-
patrones de variación de manera mucho
algoritmos de Machine Learning es su
tros utilizamos habitualmente en tiendas
más eficiente que los considerados
extraordinaria capacidad para extraer
online, apps de agregación de noticias u
“métodos clásicos”, basados en la
patrones que se escapan a la mayoría
otras aplicaciones.
estadística paramétrica. Los algoritmos no asumen ningún tipo de prerrequisito
de métodos aplicados históricamente. Además, destaca su versatilidad para
Por otro lado, Machine Learning puede
previo, ya sea normalidad o potencia de la
trabajar con información gráfica, soni-
contrarrestar de manera eficiente uno de
muestra.
dos o lenguaje natural, entre otros, y de
los principales problemas no resueltos
generar resultados de la misma natura-
en Big Data: el sesgo. Como bien saben
En sectores maduros en los que la ope-
leza. Son altamente eficientes
los analistas encargados de realizar
rativa empresarial o industrial depende
con series de datos complejas y con
encuestas electorales, su acierto no solo
directamente o está estrechamente
múltiples escalas o factores de varia-
depende del tamaño de la muestra -de
vinculada con el resultado de algún tipo
ción.
hecho, este suele tener una importancia
de modelo predictivo, una mejora signifi-
8
cativa en dicho resultado en términos de alcance o precisión representa igualmen-
Recomendaciones para directivos:
te un impacto económico que hay que valorar. En muchos casos, la aplicación
• La adopción del Machine Lear-
de modelos de Machine Learning consti-
ning en ningún caso implica romper
tuye una ventaja competitiva relevante a
con el pasado y empezar de cero,
considerar.
sino que combina toda la experiencia y el conocimiento previo del negocio
Sin embargo, a pesar del inmenso aba-
con los nuevos datos recogidos para
nico de aplicaciones que ofrece esta tec-
que, una vez tratados con los proce-
nología y del avance que supone con res-
dimientos adecuados, aporten nueva
pecto al pasado más reciente, estamos
información más completa y útil.
todavía lejos de poder confiar ciegamente en ella. Para crear y alimentar las variables que formarán parte de los algorit-
“La característica fundamental de los algoritmos de Machine Learning es su extraordinaria capacidad para extraer patrones que se escapan a la mayoría de métodos aplicados históricamente. Además, destaca su versatilidad para trabajar con información diversa”
mos y poder ponderarlas adecuadamente durante el proceso de entrenamiento, aún resulta imprescindible contar con un conocimiento previo del contexto y de las dinámicas de los procesos de negocio. Y no solo eso, sino que, además, algunas de las principales áreas de investigación que se desarrollan en la actualidad son precisamente en el ámbito de los algoritmos semi-supervisados y del Aprendizaje
por Refuerzo (Reinforcement Learning), basado en funciones de recompensa.
“Para crear y alimentar las variables que formarán parte de los algoritmos y poder ponderarlas adecuadamente durante el proceso de entrenamiento, aún resulta imprescindible contar con un conocimiento previo del contexto y de las dinámicas de los procesos de negocio.”
En resumen, sigue siendo necesario contar con el suficiente conocimiento del negocio, casi tanto como conocimiento y experiencia en el campo de la analítica, para poder identificar qué tipo de algoritmos son los más apropiados en cada caso, en términos de eficiencia, tiempo de cálculo y requerimientos.
9
2. MACHINE LEARNING & BIG DATA: MÁS ALLÁ DE LA MODA ¿Por dónde empezar? Estudiar casos
semejante con MCT (Microsoft Cognitive
de empresas que ya han recorrido un
Toolkit, conocido anteriormente como
primer trecho del camino puede ayudar a
CNTK); Amazon difundió los últimos
orientar la aplicación de esta tecnología
avances en MXNet1 y Facebook presentó
en una empresa. Por suerte, varios gi-
no uno sino dos proyectos: Torch y Caffe.
gantes tecnológicos han compartido sus
Por otro lado, la propia comunidad OS,
primeras experiencias y conclusiones con
bajo el paraguas de la Apache Software
el resto de la comunidad.
Foundation, da cobertura a un gran número de iniciativas independientes, tanto
Si bien es cierto que la evolución del
a nivel de tecnologías Big Data como en
conocimiento y el desarrollo tecnológico
Inteligencia Artificial.
no suelen seguir procesos lineales, sino
1. Vogels, W. (2016). MXNet - Deep
Learning Framework of Choice at AWS.
que alternan periodos de efervescencia
El hecho de liberar el código, aunque sea
y rápido desarrollo con otros de imple-
bajo diferentes tipos de licencia, no hace
mentación y despliegue tecnológico,
más que favorecer y alimentar a escala
estos años bien podrían considerarse
global la investigación por parte de los
los del Aprendizaje Automático (Machine
diferentes grupos de desarrolladores
Learning). Años en los que esta disciplina
alrededor del mundo, ya pertenezcan
se incorporó en los planes de desarrollo
a grandes corporaciones o se trate de
tecnológico de muchas compañías.
genios solitarios.
En los últimos tiempos, hemos conoci-
Tampoco resulta excepcional que algunos
do (y seguiremos conociendo) un gran
desarrolladores afiliados a grandes
número de noticias relacionadas con la
empresas tecnológicas den rienda suelta
Inteligencia Artificial y, en concreto con
a su creatividad en su tiempo libre,
el Machine Learning. Distintas empresas
liderando o, cuanto menos, aportando su
líderes han aprovechado para liberar
granito de arena a algunos de estos pro-
en la comunidad Open Source (OS) sus
yectos. Sea el caso que sea, la mayoría
respectivos avances en este área.
de licencias OS obligan a los desarrolladores a difundir, asimismo, sus avances y
2018, de All Things Distributed Sitio web: https://www.allthingsdistributed.
Sin ir más lejos, Google presentó Ten-
modificaciones, por lo que la masa crítica
com/2016/11/mxnet- default-framework-
sorFlow; Microsoft, siempre amante
aumenta exponencialmente acelerando
deep-learning-aws.html
de los cambios de nombre, realizó algo
todavía más el proceso.
10
Learning requieren grandes volúmenes de datos para entrenar y calibrar los algoritmos, volúmenes mayores en varios órdenes de magnitud que los requeridos
¿Por qué ahora? Una de las preguntas que surgen ante
Machine Learning tienen su origen varias
para satisfacer los criterios estadísticos y
décadas atrás (algunos, incluso, en los
niveles de confianza habituales.
años sesenta del siglo pasado)? Por otro lado, las herramientas y tecno-
este aluvión de noticias relacionadas con Machine Learning es: ¿por qué
A diferencia de los métodos clásicos
logías necesarias para manejar actual-
su desarrollo y aplicación despuntan
basados en la estadística multi-paramé-
mente los ingentes volúmenes de datos y
precisamente ahora, a pesar de que los
trica, aquella en la que los datos reales
la mayoría de los algoritmos de Machine
fundamentos teóricos de la mayoría de
responden a distribuciones conocidas,
Learning son computacionalmente tan
los algoritmos de Inteligencia Artificial y
la mayoría de algoritmos de Machine
exigentes, tanto, que requieren de uni-
Análisis de Temas de 1.000 tweets sobre Machine Learning A través de los siguientes gráficos (bajo estas líneas y en la página siguiente) se muestra la relevancia del interés de estos temas objeto del informe, medidos a través de las búsquedas o menciones en diferentes redes sociales
Selected Topic 1
Previous Topic
Next Topic
Clear Topic
A=1
Intertopic Distance Map (via multidimensional scalingh)
3
5
PC1
4
Marginal topic distribution
2% 5%
0.0
0.2
0.4
0.6
0.8
1.0
Top-30 Most Relevant Terms for Topic 1 (26.8% of tokens) 0
PC2
2
=
Slide to adjust relevance metric:2
1
100
200
300
400
500
drone robot use these mind machinelearnin student autonom control trend deepleam algorithm data insurtech releas rute latest top human bigdat way editor bigdata guest drive ht will big health finserv Overall term frecuency Estimated term frecuency winthin the selected topic 1. saliency (term w) = frecuency (w) [sum_t p(t|w)*log(p(t|w/p(t))]for topics t, see Chuang et.al (2012) 2. relevance (term w|topic t)= A*p(w|t)+(1-A)*p(w|t/p(w); see Sievent & Shirley (2014)
10%
Tema 1: drones / robótica / Deep Learning. Fuente: Elaboración propia 11
dades de procesamiento especializadas
Por tanto, los factores desencadenantes
En los últimos años se han registra-
con altísimos niveles de paralelización
del rápido ascenso de las técnicas de
do grandes avances; pero, como cabía
(GPUs).
Machine Learning son fundamental-
esperar, no todo han sido éxitos. Algunos
mente dos. Por un lado, el desarrollo
de los fracasos más sonados tienen su
Así, las GPUs hace tiempo que dejaron de
tecnológico y el acceso a grandes
origen en un exceso de confianza y, por
ser exclusivas de las consolas de video-
recursos computacionales a un coste
ende, de falta de supervisión en la aplica-
juegos, de donde provienen, para formar
asumible, no solo por parte de grandes
ción automática de algoritmos.
parte no tan solo de las grandes infraes-
empresas. En segundo lugar, la disponi-
tructuras de cálculo y servicios cloud,
bilidad de grandes volúmenes de datos,
Sin duda, el desarrollo y aplicación de las
sino también de la mayoría de tarjetas
necesarios para entrenar adecuada-
técnicas de Inteligencia Artificial seguirán
gráficas de altas prestaciones.
mente los algoritmos.
imparables durante los próximos años.
Selected Topic 4
Previous Topic
Next Topic
Clear Topic
A=1
0
PC2
3
5 1
PC1
4
Marginal topic distribution
2% 5%
0.2
0.4
0.6
0.8
1.0
50
100
150
200
tech next where fintech whi bigdata blockchain innovat announc healthtech ar machineleam ai time just miagent version now import learn thrill toolkit quartz project amp guid requir drown abou develop Overall term frecuency Estimated term frecuency winthin the selected topic 1. saliency (term w) = frecuency (w) [sum_t p(t|w)*log(p(t|w/p(t))]for topics t, see Chuang et.al (2012) 2. relevance (term w|topic t)= A*p(w|t)+(1-A)*p(w|t/p(w); see Sievent & Shirley (2014)
10%
Tema 2: Big Data / blockchain / innovación. Fuente: Elaboración propia 12
0.0
Top-30 Most Relevant Terms for Topic 1 (14.6% of tokens)
Intertopic Distance Map (via multidimensional scalingh)
2
=
Slide to adjust relevance metric:2
“Los factores desencadenantes del rápido ascenso de las técnicas de Machine Learning son fundamentalmente dos: el desarrollo tecnológico y el acceso a grandes recursos computacionales a un coste asumible, así como la disponibilidad de grandes volúmenes de datos, necesarios para entrenar adecuadamente los algoritmos”
Principalmente, en áreas más especializadas y quizás alejadas de los grandes titulares, áreas en las que los algoritmos puedan resolver problemas de manera realmente efectiva y con un alto grado de precisión. Solo por nombrar algunos ejemplos conocidos: ciberseguridad, seguridad personal, comercio financiero, cuidado
Recomendaciones para directivos:
de la salud, marketing personalizado, recomendaciones y búsquedas on line. Estos son algunos pocos ejemplos reales,
• El desarrollo y la aplicación de las
técnicas de IA seguirá imparable duran-
pero hay muchos casos más donde su
te los próximos años. No dejes que tu
aplicación con resultados positivos ya es
empresa se quede atrás.
una realidad.
13
3. ¿CÓMO ASEGURAR QUE LA INVERSIÓN EN MACHINE LEARNING Y BIG DATA SEA ALTAMENTE RENTABLE? Algunas empresas tienden a pensar que,
un superordenador, “Pensamiento Pro-
a mayor cantidad de datos, o resultados
fundo”, capaz de responder a la eterna
que proporcionan algoritmos, mayor
cuestión: “¿cuál es el sentido de la vida?”
valor añadido. Sin embargo, no se trata de una cuestión de cantidad, sino de la
Tras años procesando la información,
relevancia de los datos disponibles para
la máquina da una respuesta: “42”. La
los objetivos de negocio.
sorpresa de sus creadores es grande, así que deciden preguntarle qué significado
Preguntas, no solo datos (La importancia de un problema de negocio bien definido)
tiene ese número. “Pensamiento Profundo” asegura que “42” es la respuesta correcta, pero que el problema reside en la pregunta: ¿cuál es la pregunta correcta? Esta divertida historia se vuelve anec-
14
En su famoso libro “La Guía del Autoesto-
dótica cuando se traslada al mundo de
pista Galáctico”, Douglas Adams imagina
Machine Learning y Big Data y, más en
que una civilización muy avanzada crea
general, de Analytics.
Es un error común pensar que contar con
(asumamos, por un momento, que el fa-
muchos datos y una o más herramientas
bricante tiene acceso a datos detallados
que implementan algoritmos de Machine
de tickets y al consumo de cerveza de
Learning aportan, por sí mismos, valor al
presión a través de sensores). Además,
negocio.
se hace con las mejores aplicaciones de Machine Learning y, simplemente, las
Pero no hay mayor equivocación: datos
conectas a los datos.
y algoritmos tienen valor para el ne-
“Datos y algoritmos tienen valor para el negocio solo en la medida en la cual pueden dar respuestas diferenciales (es decir, de alto valor añadido) a problemas de negocio. Las respuestas son útiles si las preguntas están bien formuladas”
gocio solo en la medida en que pueden
Pero ¿qué consideraciones hay que tener
dar respuestas diferenciales (es decir,
en cuenta para la implantación exitosa
de alto valor añadido) a problemas de
de un sistema de Machine Learning y Big
negocio. Como en el caso de “Pen-
Data?”.
samiento Profundo”, las respuestas son útiles si las preguntas están bien formuladas.
1. Verificar la calidad de los datos: como norma general, antes de usar cualquier tipo de información, hay que
Un ejemplo esclarecedor: imaginemos
verificar la calidad de los datos, así como
el caso de un fabricante de cerveza
su consistencia y fiabilidad. Si las rele-
que quiere descubrir si la información
vaciones atmosféricas son imprecisas,
relativa al tiempo atmosférico puede
los resultados de los algoritmos serán
ayudarle a mejorar su negocio. Decide
falaces (“Garbage In – Garbage Out”).
comprar una plataforma de Big Data para almacenar relevaciones de indi-
2. El Machine Learning no sabe juntar
cadores atmosféricos a nivel de hora y
fuentes de información: para la aplica-
sección censal y, a la vez, información de
ción, todo serán datos sin ninguna con-
consumo de unidades en punto de venta
notación semántica. Aparecerán, por un
15
lado, los datos atmosféricos (coordena-
b. Una vez entendido cómo todos estos
das geográficas, fechas y horas, números
factores influencian el consumo de
decimales que representan mililitros
cerveza, ¿cómo se pueden utilizar
de lluvia, etc.) y, por otro, los relativos
para mejorar el negocio? ¿Anticipando
al producto (códigos, ventas, consumo,
el consumo esperado y sugiriendo el
etc.). El Machine Learning podría llegar a
pedido de reposición al Local, basán-
sugerir a través de qué campos relacio-
dose en las predicciones del tiempo?
nar las diferentes fuentes de información,
¿Identificando patrones de consumo
pero, en general, le faltará contexto para
conjunto de productos en función
desempatar entre dos o más opciones
del tiempo atmosférico, de la franja
que son plausibles.
horaria, del precio (real o percibido) que permitan añadir al pedido de
3. Los algoritmos de Machine Learning
reposición productos en promoción
clasifican o predicen variables que, por
que tienen alta probabilidad de ser
sí mismas, no existen en la información
comprados?
base, sino que tienen que ser creadas.
Recomendaciones para directivos: Como se puede observar, las preguntas
4. Estas variables irán en función del
planteadas son concretas y, aun así, no
• Por sí solos, los datos y algorit-
problema de negocio que se quiere re-
llegan a reflejar todo lo que se podría ha-
mos no representan un valor añadido
solver. En el caso de nuestro ejemplo, hay
cer con semejante información. Al mismo
al negocio. Únicamente lo tendrán
probablemente dos grupos de preguntas
tiempo, también queda patente que, sin
si son capaces de dar respuestas di-
clave:
una buena pregunta (o más de una), la
ferenciales a problemas de negocio.
“Máquina” no puede contestar, porque
Y, para que estas respuestas cum-
a. ¿Hay algún tipo de relación entre
le falta todo el contexto del negocio que
plan con su objetivo, resulta impres-
el tiempo atmosférico y el consumo
nosotros damos por sentado.
cindible que las preguntas estén bien
de cerveza que planteábamos en
formuladas.
el ejemplo del apartado anterior?
5. Por último, cabe plantearse las si-
¿Cuáles son las variables que más
guientes preguntas para que el éxito sea
influyen (intensidad de precipitaciones,
total: sea cual sea el output generado por
Machine Learning & Big Data, no
temperatura, intensidad del viento…)?
la “Máquina”, ¿será el fabricante capaz
solo es importante tener claros
¿Tienen siempre la misma relevancia
de diseñar e implementar acciones que lo
objetivos de negocio, sino también la
o ésta puede variar en función de las
aprovechen? ¿Cuánto costará el cambio
capacidad de llevar a cabo de forma
características del local, de la geogra-
de modelo de trabajo comparado con los
rentable las soluciones sugeridas.
fía, del perfil de cliente…?
beneficios incrementales?
16
• Para el éxito de una iniciativa de
4. REQUISITOS PARA OBTENER VALOR DIFERENCIAL Llegados a este punto, cabe preguntarse: ¿qué requisitos tienen que cumplirse para que el Machine Learning y el Big Data aporten un valor realmente diferencial? Antes de arrancar una iniciativa de Machine Learning & Big Data, es imprescindible detenerse a evaluar una serie de requisitos que aseguren el éxito de la iniciativa:
Requisitos
Descripción
Siguiendo el ejemplo de la cervecera…
Disponibilidad de
Accesibilidad: Los datos tienen que ser accesibles para
Si la generación de recomendaciones de pedi-
los Datos
garantizar fluidez en su procesamiento y generación del
do de reposición está pensada para ser diaria
input para los procesos de negocio afectados.
o incluso intra-diaria, el flujo de información de tiempo atmosférico tiene que tener una frecuencia al menos igual o superior.
Calidad: los datos tienen que ser fiables, es decir, repro-
Dado que los datos de tiempo atmosféricos
ducir fielmente y de forma consistente en el tiempo lo
son, normalmente, interpolados, hay un sesgo
que se pretende cuantificar.
inherente al proceso analítico que los use. No obstante, la interpolación puede ser suficientemente buena como para garantizar valores coherentes y en línea con las variables de negocio que se quieren explicar.
Información estructurada vs no estructurada: hay esencialmente dos tipos de información: • Estructurada, es decir, almacenada en un formato estandarizado y fácilmente manipulable y accesible, como las Bases de Datos tradicionales. Puede ser utilizada de forma casi inmediata, donde el “casi” depende del formato de almacenamiento. • No estructurada: textos libres, información extraída de redes sociales, imágenes, vídeos, etc. Tiene un potencial enorme, pero requiere un esfuerzo inicial mucho mayor, comparado con el caso de la información estructurada, para poder ser utilizada eficazmente. Es importante, por lo tanto, saber valorar y estimar el valor añadido representado por cada tipo de información en comparación con los costes que supone su utilización de forma eficaz.
17
Requisitos
Descripción
Siguiendo el ejemplo de la cervecera…
Precio: según el problema que se quiera resolver, es po-
En el caso de la cervecera, por ejemplo, infor-
sible adquirir información externa, la cual, obviamente,
mación meteorológica.
suele tener un precio proporcional a su calidad o al nivel de granularidad exigido. Dado que los proveedores de datos ofrecen diferentes planes de precios en función de las opciones de adquisición de la información, será siempre necesario analizar qué tipo de información externa se precisa, con qué calidad y granularidad y qué precisión adicional se espera, antes de realizar la inversión. Los beneficios
Las técnicas avanzadas de Machine Learning suelen
de una mayor
proporcionar mejoras sustanciales con respecto a las
previsión en la
técnicas analíticas más tradicionales cuando se puede
predicción supe-
realmente trabajar en un entorno de Big Data o cuando
ran el esfuerzo de
el problema de negocio es, por su propia naturaleza, im-
implementación
posible de ser tratado eficazmente sin Machine Learning (por ejemplo: reconocimiento de imágenes). Hay muchos casos, típicamente cuando la información es información transaccional estructurada – a menudo, incompleta o no suficiente para explicar el problema de negocio – donde la precisión incremental aportada por el Machine Learning es residual si la comparamos con la inversión necesaria para llevarla a cabo. Un Data Scientist experto sabrá valorar en cada momento cuándo vale la pena dar el salto al Machine Learning.
18
Requisitos
Descripción
Siguiendo el ejemplo de la cervecera…
Resultados de los
Aunque parezca obvio, el resultado de un modelo analíti-
Los sensores instalados en los surtidores de
modelos integra-
co debe poderse utilizar dentro de un proceso de negocio.
los locales permitirían:
dos en los proce-
Menos obvio es cómo será posible:
sos de negocio
• Proyectar el consumo de las siguientes
• ¿Cómo viajarán, de forma automática y recurrente,
horas/días
los datos que alimentarán el modelo al sistema donde
• Comparando con los niveles de stock,
reside el Motor Analítico?
detectar alertas de ruptura
• ¿Cómo serán devueltos los resultados a los siste-
• Calcular un pedido óptimo de reaprovisio-
mas origen o a los sistemas de soporte a la toma de
namiento
decisiones?
• Lanzar una notificación al responsable del
• ¿Qué reglas/acciones deberán ser implementadas
local con la recomendación de pedido
en los sistemas para que el uso de los resultados del
• Re-planificar la logística para poder entre-
Machine Learning sea fluido y requiera de la mínima
gar a tiempo el pedido extra de reaprovisio-
intervención humana?
namiento
Las condiciones para todo lo anterior son: • Automatización de la transferencia de datos en tiempo real, de los locales a la cervecera. • Un Motor Analítico capaz de procesar rápidamente y con alta frecuencia la previsión del consumo y recalcular los pedidos de reaprovisionamiento. • Integración completa entre el Motor Analítico y los sistemas de CRM, para lanzar las notificaciones a los responsables de los locales. • Integración completa con los sistemas de logística, para adaptar el plan de entregas. • Un sistema ágil de interacción con el local (por ejemplo: una aplicación móvil) que permita enviar notificación y recibir respuestas en tiempos muy cortos. De no ser posibles los puntos anteriores, un modelo de Machine Learning, por sofisticado que sea, no podría proporcionar el salto de calidad esperado, debido a las limitaciones del entorno y de los procesos existentes. Por lo tanto, hay que tener en cuenta que una solución de Machine Learning & Big Data puede implicar una transformación completa hacia la digitalización, para poder realmente aprovechar todo el potencial.
19
Para introducir Data Science en una organización, es necesario incorporar perfiles que dominen el análisis de datos y los algoritmos de Machine Learning, que cuenten con conocimiento tecnológico y con la visión de negocio necesaria para diseñar e implementar una solución de Machine Learning & Big Data. Asimismo, un buen Data Scientist ha de contar
5. LOS NUEVOS PROFESIONALES
con años de experiencia (más allá de la propia formación). Sin duda, perfiles escasos por la cre-
Uno de los errores más comunes a la
ciente demanda de la que disfrutan en el
hora de emprender la implementación
mercado. Si bien es cierto que la oferta
de una plataforma de Machine Learning
ha crecido acorde a la demanda y que
& Big Data es creer que es una cuestión
seguirá haciéndolo, tanto en número
de seleccionar la tecnología o el software
de profesionales como en experiencia
adecuado; o el asumir que, una vez los
aportada.
datos empiecen a fluir a la plataforma,
“La Inteligencia Artificial más avanzada aún no es capaz de reemplazar al hombre”
ésta sea capaz de aprender sola (“¿No
Ante la complejidad de encontrar a profe-
era aprendizaje automático?”) y generar
sionales que aglutinen todas estas capa-
valor.
cidades, más común es poder contar con perfiles de Data Scientists que cubran
Desafortunadamente, no suele ser el
las necesidades en cuanto a análisis de
caso porque, como ya hemos menciona-
datos, algoritmos de Machine Learning y
do anteriormente:
conocimiento tecnológico. También con
• Los problemas de negocio tienen
perfiles de Negocio, pero con capacida-
que ser traducidos en problemas analíti-
des y conocimientos destacables en el
cos.
ámbito analítico, que actúen de punto de • La información disponible tiene que
unión entre Data Science y Negocio.
ser analizada e interpretada, y su nivel de completitud es evaluado. • Lo algoritmos más avanzados tienen que ser entrenados y testados. • La solución que se implemente necesitará mantenimiento, ya que la
Por tanto, se puede afirmar que no puede existir Machine Learning & Big Data sin una seria apuesta por este tipo de profesionales, tanto en plantilla como a través de servicios profesionales.
realidad del negocio es cambiante. Tanto los algoritmos como la definición misma del problema analítico tienen que ser actualizados constantemente. Hoy en día, la Inteligencia Artificial más
• Para obtener el máximo
avanzada no es capaz de reemplazar al
provecho, es necesario conjugar
hombre en las tareas anteriores. Es solo
una buena solución de Inteligencia
con la conjunción de las capacidades de
Artificial con un equipo de expertos
las máquinas y los conocimientos de las
en Data Science, que además domine
personas cuando las compañías pueden
el funcionamiento del negocio.
alcanzar todo su potencial.
20
Recomendaciones para directivos:
6. CONCLUSIONES El ser humano procesa un número muy
Aun así, nos seguimos preguntando, ¿es el
limitado de variables para tomar una
aprendizaje automático adecuado para mí?
decisión racional. Cuando nos enfrenta-
“Machine Learning & Big Data e Inteligencia Artificial ya no son un Nice-to-Have sino un Must-Have” “La pregunta no es ya si es necesario implementar una solución de Machine Learning & Big Data, sino cuándo”
mos a un problema complejo que excede
Desde esta perspectiva, la respuesta es,
nuestra capacidad de razonamiento,
claramente, sí. Porque la transformación
las mejores decisiones son, a menudo,
ya ha empezado y no se parará: para
inconscientes y se toman guiadas por la
poder sobrevivir en un mercado cada vez
intuición.
más competitivo, las claves serán conseguir mayor eficiencia (en forma de auto-
Con el aprendizaje automático esta
matización inteligente de los procesos) y
limitación desaparece: las decisiones
mayor eficacia (en forma de decisiones
óptimas vuelven a ser las decisiones
más acuñadas y de mayor impacto).
racionales. El aprendizaje automático ya está aquí. Los humanos tenemos toda la vida para
Las máquinas seguirán su carrera impa-
aprender; las máquinas no tienen tanta
rable de aprendizaje, la automatización
paciencia. Una de las disciplinas de
reemplazará al ser humano en los tra-
aprendizaje automático es el aprendizaje
bajos repetitivos, los vehículos circularán
reforzado, en el que las máquinas ad-
con conducción autónoma, el diagnóstico
quieren conocimiento solas, simplemente
médico se hará de forma remota, los equi-
captando información sobre las reglas
pos y los objetos estarán interconectados
del entorno.
-internet de las cosas- y será en torno a 2040. Aunque nos quede tiempo para vivir
Años de aprendizaje y conocimiento acu-
esta realidad, es hoy cuando tenemos que
mulado del ser humano se transforman
rotar hacia lo nuevo y convertir en realidad
en minutos para una máquina: pasa de
nuestras decisiones inteligentes: operati-
saber únicamente cómo se mueven las
vas, tácticas y estratégicas.
piezas en un tablero de ajedrez a convertirse en un experto y vencer al campeón
Machine Learning & Big Data e Inteligen-
del mundo en tan solo unas horas de
cia Artificial ya no son un Nice-to-Have
práctica.
sino un Must-Have.
21
Recomendaciones para directivos: El no reunir los requisitos necesarios debería leerse como una campana de
• La transformación digital y la
alerta: ya representa una desventaja
aplicación de nuevas tecnologías en
competitiva que cuestiona la superviven-
lo ordinario ya está aquí. Tendrás
cia en el medio y largo plazo.
que ponerte en marcha si no quieres verte superado por un mercado muy
La pregunta no es ya si es necesario
disruptivo donde la competitividad
implementar soluciones de Machine
será cada vez más extrema. La digi-
Learning & Big Data, sino cuándo. Y,
talización no es una opción.
cuanto antes, mejor.
22
7. GLOSARIO
• Algoritmos: conjunto de instruccio-
fenómeno históricamente observado y
nes o reglas bien definidas, ordenadas y
registrado. Por ejemplo, un modelo su-
que permiten llevar a cabo una actividad
pervisado de detección de fraude intenta
mediante una serie de pasos sucesivos. A
clasificar automáticamente los casos que
partir de un dato inicial, se llevan a cabo
históricamente has sido considerados
esta serie de pasos para obtener un re-
fraudulentos.
sultado final. En lo que se refiere a algoritmos de aprendizaje automáticos, estos
• Aprendizaje reforzado (o aprendizaje
reciben una entrada (los datos disponi-
por refuerzo): estos algoritmos aprenden
bles y tratados), de manera que puedan
interactuando con el mundo que los ro-
ser utilizados por el algoritmo. Se realiza
dea, es decir, se retroalimentan del mun-
la ejecución de los pasos necesarios, ya
do exterior. Su aprendizaje está basado
sea una clasificación, una previsión o una
en recompensas que obtienen cuando
segmentación, y se produce una salida
toman decisiones que permiten maximi-
que corresponde al objetivo buscado.
zar el objetivo deseado. Un algoritmo que juega al ajedrez tan solo conociendo las
• Algoritmos no supervisados: son
reglas del juego es un ejemplo de ello. El
aquellos algoritmos que intentan prede-
algoritmo aprenderá simulando partidas
cir un fenómeno que históricamente no
en las que, en cada situación, tomará una
ha podido ser observado. Por ejemplo, un
decisión posible, y recibirá una recom-
modelo no supervisado de detección de
pensa cuando su decisión lo conduzca a
fraude intenta agrupar casos que, debido
ganar la partida.
a sus características diferenciadas del resto de casos, podrían considerarse sos-
• Comportamiento automático: son
pechosos, pero no hay ninguna evidencia
aquellas decisiones que los modelos y
histórica de que lo hayan sido.
algoritmos de aprendizaje automático pueden tomar sin necesidad de la inter-
• Algoritmos semi-supervisados:
vención de los humanos.
combinación de algoritmos supervisados y no supervisados.
• Data Scientist: es la denominación que reciben actualmente los profesiona-
• Algoritmos supervisados: son aque-
les dedicados al análisis y manipulación
llos algoritmos que intentan predecir un
de datos. Utilizan metodologías estadís-
23
ticas avanzadas y tienen la capacidad de
analíticos y que nos permite tomar deci-
desarrollar algoritmos y modelos analíti-
siones que impactan en el negocio.
cos utilizando herramientas estadísticas de programación.
• Paralelización: en el contexto de este artículo, se refiere a la capacidad de eje-
• Datos estructurados y no estruc-
cutar algoritmos de aprendizaje automá-
turados: los datos estructurados son
tico utilizando varios CPU/ordenadores
aquellos que se encuentran organizados
simultáneamente logrando, así, mucha
en un repositorio de datos con un formato
rapidez en la ejecución.
específico; por ejemplo, códigos de identificación de clientes, importes o fechas.
• Patrones: en el contexto de este
Cada uno se corresponde con una co-
artículo, se refiere a perfiles de compor-
lumna en una base de datos. En cambio,
tamiento.
los datos no estructurados no tienen una estructura definida. Son, por ejemplo, los ficheros de texto, datos de redes sociales, fotos o vídeos, entre otros. • Estadística paramétrica: son análisis basados en distribuciones conocidas. Por ejemplo, en el análisis de supervivencia de ciertos productos, se asume que su ciclo de vida sigue una distribución de Weibull o distribución Exponencial que estima qué probabilidad tiene un producto de fallar en un momento determinado. • Granularidad: se refiere al nivel jerárquico o nivel de detalle de los datos. Por ejemplo, en el caso de una prenda de vestir, el análisis requerido podría ser a nivel de categoría de producto o producto / talla /color. • Información accionable: es el tipo de información que generan los modelos
24
Nube de palabras: representación de las palabras más destacadas en el presente informe.
8. BIBLIOGRAFÍA • Russell, Stuart and Norvig, Peter (2009, 3rd ed.). Artificial Intelligence: A Modern Approach. Prentice Hall. • Barrat, James (2013). Our Final Invention: Artificial Intelligence and the End of the Human Era. Thomas Dunne Books. • Sigman, Mariano (2015). La vida secreta de la mente. Debate. • Sutton, Richard S. & Barto, Andrew G. (2015). Reinforcement Learning: An Introduction. The MIT Press. • Tegmark, Max (2017). Life 3.0: Being Human in the Age of Artificial Intelligence. Knopf. • Alphago (2017). IMDB: https://www. imdb.com/title/tt6700846/.
25
9. SOBRE LOS AUTORES Javier Kuperman
Franz Naselli
Jesús E. Gabaldón
Ingeniero en Sistemas por la Uni-
Licenciado en Matemáticas por la
Doctor en Ciencias Físicas por la
versidad Tecnológica Nacional de
“Università degli Studi di Milano” y
Universitat Politècnica de Catalunya y
Buenos Aires, Argentina.
Post-Grado en “Matemàtiques pels
licenciado (MSc) en Bioquímica por la
Instruments Financers” por la “Uni-
Universidad de Barcelona.
Senior Manager en el grupo de
versitat Autònoma de Barcelona”. Senior Manager en el grupo de
Inteligencia Aplicada de Accenture y miembro del Centro de Innovación de
Ha trabajado en Consultoría TIC
Inteligencia Aplicada de Accenture,
Analytics. Más de 20 años de expe-
(Soluziona TI, ahora Indra), Con-
miembro del Centro de Innovación
riencia en el desarrollo y liderazgo
sultoría de Estrategia de Marketing
de Analytics y responsable del área
de soluciones basadas en analítica
y Ventas (Daemon Quest, ahora
de Mantenimiento Predictivo para el
avanzada, inteligencia artificial y
Deloitte) y, actualmente, es Senior
mercado europeo.
aprendizaje automático, principal-
Manager en el grupo de Inteligencia
mente en áreas vinculadas con la
Aplicada de Accenture y miembro del
Después de 12 años en investigación
cadena de suministro y operaciones.
Centro de Innovación de Analytics,
fundamental en simulación numéri-
donde es responsable del área de
ca, sistemas dinámicos y dinámica de
“Forecasting”.
fluidos en España, Alemania y Francia, a su vuelta a España emprende
Lleva más de 13 años trabajando en
su carrera profesional en el ámbito
la creación de soluciones analíticas
privado en ingeniería de software y
avanzadas, inteligencia artificial y
analítica, acumulando un total de
aprendizaje automático, tanto en las
más de 20 años de experiencia en
áreas de Marketing & Ventas (CRM,
análisis operacional, modelos mate-
Optimización de Redes de Ventas…)
máticos y arquitectura de sistemas.
como en Cadena de Suministro (Predicción y Planificación de la Demanda y Optimización de Inventario).
26
28