11 minute read

ACTUALIDAD

BIG DATA: DECISIONES BASADAS EN DATOS

El análisis de datos masivos tiene un gran potencial para impactar de manera positiva la vida de las personas, preservando su privacidad mediante la agregación y anonimización de los datos 1

alejandro maldonado

1 Presentación realizada en la Expo Internet 2017, organizada por la Cámara Nicaragüense de Internet y Telecomunicaciones ( canitel) el 17 de mayo 2017, Managua, Nicaragua.

LA implementación de datos masivos o inteligencia de datos (big data) 2 realizado por Telefónica Centroamérica y su análisis en tiempo real de tráfico utiliza un algoritmo predictivo para poder detectar de forma automática el patrón que usan las personas que hacen fraude en las llamadas entrantes internacionales ( ldi). Este año logramos frenar por primera vez este fraude de mucho impacto financiero en Centroamérica. También hemos logramos aumentar el ingreso proveniente del negocio de los datos masivos.

EL ORIGEN DE LOS DATOS MASIVOS

Los datos masivos son una respuesta a una problemática específica. El concepto se remonta al año 2000 cuando la joven compañía Google empezó a tener dificultades para manejar el volumen de información que transitaba por la Internet y que aumenta cada año. Se estima que para el 2020 cinco mil millones de personas estarán llamando, enviando mensajes de texto, navegando, descargando datos, etc., y que el contenido en Facebook y otras redes sociales se incrementará de manera exponencial, generando transacciones comerciales de US$ 400 millones diarios.

Google desarrolló un sistema de manejo de información denominado Google File System ( gfs) y un modelo de procesamiento de información llamado MapReduce. Ambas tecnologías pasaron a ser de dominio público entre 2003 y 2004, permitiendo que la Apache Software Foundation 3 creara un esquema de software conocido como Hadoop. 4

2 https://es.wikipedia.org/wiki/Big_data 3 Una organización sin fines de lucro creada para apoyar proyectos de software libre (código abierto) y el popular servidor HTTP Apache. 4 Hadoop es un esquema de software para el procesamiento distribuido de datos masivos en computadoras interconectadas; usa modelos sencillos de programación y permite a las aplicaciones trabajar con miles de nodos y petabytes de datos (datos masivos).

La tecnología Hadoop nos permite el manejo de grandes volúmenes de información de una forma accesible para las empresas. El análisis de los datos en tiempo real genera valor para los sistemas transaccionales de las empresas.

DATOS MASIVOS: UN TEMA DE NEGOCIOS

La implementación de la tecnología de datos masivos surge de la necesidad que tiene una empresa para cubrir una problemática específica, un reto estratégico, una meta comercial o de marketing, por lo que podemos decir que los datos masivos son un tema de negocios.

Describiré la tecnología de datos masivos como la combinación de varios factores: la infraestructura, el hardware, las herramientas de software que se montan sobre su entorno (como Hadoop) y las capacidades de las personas que manejan la información, tanto analíticas y científicas. Se ha demostrado que las compañías que adoptan esta tecnología son más efectivas, logran sus objetivos estratégicos más rápido, incrementan sus ingresos y mejoran su desempeño financiero.

Aunque el camino es difícil, es necesario emprenderlo desde ya. Si se desea que la compañía sea basada en datos, pues hay muchos retos por delante. Esos retos principalmente se orientan a que la compañía empiece a adoptar una cultura basada en análisis de datos. En el pasado, las decisiones se tomaban de una forma bastante intuitiva y al día de hoy también se sigue haciendo así, pero las áreas comerciales y marketing deben tomar sus decisiones según lo que pasa en el mercado y sabemos que las mejores decisiones se toman cuando tenemos un respaldo de datos.

Uno de los retos para implementar la tecnología de datos masivos en una empresa es empezar un cambio cultural:

lograr que se tomen decisiones basadas en datos y que se empiece a conectar los datos a la empresa. Los datos almacenados generan valor cuando se les extrae ese valor. La implementación de la tecnología de datos masivos tiene varias fases, detalladas a continuación.

DATOS MASIVOS Y SUS CUATRO FASES DE IMPLEMENTACIÓN

La primera fase es la ingeniería de los datos, saber si se cuenta con los datos suficientes, ver qué tenemos y comprobar si se tiene suficiente información para generar valor, conseguir fuentes externas y enriquecer las fuentes existentes. Cuando se tiene esa materia prima, se procede a verificar qué herramientas e infraestructuras son necesarias para almacenar y generar valor de esta información.

La tecnología de datos masivos nos ayuda a combinar los datos tradicionales —datos estructurados organizados en una base de datos relacional— con datos no estructurados, siendo estos últimos todos los datos que llegan por Internet, por ejemplo, un post de Facebook o un tuit. Esta tecnología nos permite conectar los datos no estructurados con los estructurados y enriquecer la data almacenada en los almacenes de datos tradicionales. 5

Por tanto, se puede caracterizar a la tecnología de los datos masivos como disruptiva, porque antes de su creación el análisis de datos requería de grandes despliegues de infraestructura, necesitando servidores muy costosos y de mucha capacidad, es decir, grandes inversiones. La tecnología de datos masivos permite romper ese paradigma. Hoy se monta un grupo de servidores (cluster) del tipo llamado commodity, servidores comunes y corrientes que se unen en un grupo y se configuran con el software de Hadoop.

Sobre Hadoop se monta una capa de herramientas de explotación de información como Hype, u otras que sirven para realizar análisis estadísticos como R o Python. 6 Además de esas herramientas, se debe comprobar que se disponga de las capacidades analíticas y de la infraestructura correcta, ya que la

5 Un almacén de datos (datawarehouse, en inglés) es una base de datos corporativa que integra y depura información de una o más fuentes, para luego procesarla a gran velocidad desde múltiples pespectivas.

6 R es un lenguaje de programación de código abierto para análisis estadístico. Python es un lenguaje de programación interpretado cuya sintaxis favorece un código legible.

tecnología de datos masivos requiere la creación del puesto de científico de datos (data scientist), cuyo perfil profesional demanda capacidades analíticas, estadísticas, matemáticas, tecnológicas, manejo de bases de datos, instinto empresarial (business sense), y que también pueda interpretar y comunicar lo que los datos le muestran. Es un perfil muy específico, pero necesario para aprovechar los datos.

En Telefónica hemos transformado los perfiles profesionales para las personas a cargo de inteligencia empresarial y almacenamiento de datos, para convertirlos en científicos de datos mediante un programa de capacitación.

Otro aspecto muy importante son las intuiciones o percepciones empresariales (business insights), el valor que generamos de la información. Todo esto debe ir de la mano con la estrategia y la transformación de la empresa, y obviamente con una capa de seguridad. Seguridad y Sociedad | año 7 | nº 15 | agosto 2017 | 7

TELEFÓNICA Y SU INNOVACIÓN EN TECNOLOGÍA DE DATOS

En octubre de 2016, Telefónica lanzó su nueva marca denominada luca, 7 que representa nuestra oferta de servicios de inteligencia. Después de recorrer este camino y convertirnos en una empresa basada en la información (data driven company), 8 pusimos esta experiencia a la disposición de otras compañías ofreciendo nuestras capacidades analíticas y de manejo de información.

Lo interesante de luca es el acompañamiento que Telefónica puede brindar a las demás empresas. En la parte de ingeniería de datos (data engeneering) podemos acompañar en las áreas de productos, servicios y capacidades para apoyar en la recolección de la información y el análisis de los datos.

7 luca son las siglas en inglés de Last Universal Common Ancestor (último y universal ancestro compartido), concepto que alude a que todas las personas compartimos un mismo ancestro. Por analogía, se dice que las empresas también tienen un ancestro común que es el dato, la información recabada. 8 Empresa que toma sus decisiones basada en un análisis de información real y no en las intuiciones de sus directivos.

En la parte de infraestructura hemos desarrollado varias herramientas que nos permiten realizar una asesoría o consultoría e identificar la infraestructura adecuada para las empresas. En la parte de ciencia de datos, en 2015 Telefónica adquirió una empresa de ciencia de datos llamada Synergy Partners con alrededor de 150 científicos de datos que forman ya parte de nuestro equipo y así apoyamos a empresas en Europa y en América a implementar sus proyectos de ciencia de datos.

Con respecto a las intuiciones empresariales, Telefónica está apoyando a las empresas con soluciones creadas y desplegadas de una forma rápida. A manera de ejemplo les contaré la historia de un producto basado en la huella digital que dejan los usuarios de redes móviles. Todos los usuarios de móviles tenemos patrones de uso bastantes peculiares, en vista de que llevamos el teléfono inteligente a todos lados; pues bien, Telefónica guarda de una forma no comprometedora la huella que dejan los usuarios de nuestras redes móviles, protegiendo su confidencialidad. Esas huellas nos sirven para realizar estudios de movilidad o pasos inteligentes (smart steps). Esta es una solución que ponemos a disposición de las empresas y hacer estudios de masas poblacionales basados en sus huellas de movilidad. Así, apoyamos a los gobiernos y a las empresas a hacer estudios de factibilidad. Uno de nuestros clientes principales en Europa es Transport for London, 9 y ellos no planifican una nueva estación de metro o de buses, sin que Telefónica les apoye con un estudio de factibilidad basado en pasos inteligentes. Estos estudios nos permiten aprovechar las huellas digitales que dejan nuestros abonados y conocer el contexto de la movilidad de masas poblacionales.

9 Transport for London (TfL), empresa municipal encargada del transporte público en la ciudad de Londres, Reino Unido. https://es.wikipedia.org/wiki/Transport_for_London

En Centroamérica tenemos las huellas de más de 15 millones de abonados, de los cuales —después de anonimizar la información y aplicar un algoritmo de extrapolación— obtenemos el comportamiento de movilidad de la población total de un área o de un país específico. En Nicaragua tenemos cerca del 50% de mercado, una población significativa —en otros países tenemos menos presencia— y la extrapolamos para hacer ciertos análisis que antes se hacían de forma manual. En el pasado, si una empresa quería hacer un estudio de impacto de despliegue de infraestructura para buscar una nueva ubicación para sus sucursales, realizaba estudios mediante encuestas en las calles, con contadores de personas o se usaban los datos del censo, información que en nuestros países está muy desactualizada. Algunos se han aventurado y utilizan algún tipo de sensor o cámara, pero el reto es mucho mayor cuando se quiere cubrir un área muy grande. La información obtenida por encuestas o contadores sí es de cierta utilidad, pero es ocasional, subjetiva y son datos declarados. En una encuesta las personas tienen que dar una respuesta y posiblemente expresan lo primero que se les ocurre, no los hechos reales.

La propuesta de valor de los pasos inteligentes es usar esta huella anónima y agregada de la señal del móvil por medio de nuestra red —la infraestructura de torres telefónicas— y procesar la información mediante la tecnología de datos masivos, almacenarla y generar las intuiciones empresariales. Estas intuiciones son importantes, precisas, rápidas, económicas, flexibles, y ricas en detalles. Podemos hacer este tipo de estudio cualquier día del año 24/7.

Para explicar cómo funcionan estos estudios de movilidad, relataré brevemente un trabajo que se hizo para el ayuntamiento de Barcelona. Se quería conocer el área de residencia de las personas que viven en dicha

Commuting y sostenibilidad: El big data en Barcelona

Gracias al big data, en LUCA creamos mapas de movilidad laboral que muestran datos de transporte de la ciudad de Barcelona en sus distintos distritos.

ciudad y su sitio de estudio o trabajo para hacer un mapa de movilidad de punto A a punto B. Ese estudio se hacía antes de forma manual cada 4 años con una muestra de 2,000 personas. Propusimos hacerlo con la tecnología de datos masivos con una población significativa de 300,000 personas de forma recurrente, usando el despliegue de infraestructura. Por medio de algoritmos, estudiamos las llamadas anonimizadas para identificar el punto A, que sería el hogar, y el punto B, que sería el trabajo o estudio. Habiendo identificado esos puntos, le entregamos al ayuntamiento los mapas de movilidad de cada sector importante de la ciudad, y así les brindamos intuiciones o nuevas percepciones empresariales para que ellos pudieran saber el volumen de información que entra en un área específica. En el mapa adjunto, podemos notar que muchas oficinas convergen en el área central. En resumen: pudimos decirles de dónde viene la población, cuánta gente hay allí, y también la población que sale de ese punto hacia otro. Este es un ejemplo de los estudios de pasos inteligentes con los que Telefónica apoya a las empresas para que se

fuente https://www.youtube.com/watch?v=l4Ehg20ehSg

conviertan en empresas basadas en la información y que puedan tomar decisiones usando la tecnología de datos masivos.

Estos estudios de movilidad pueden utilizarse para el turismo, porque podemos ver las huellas que dejan los visitantes extranjeros al usar sus dispositivos móviles. También sirven para hacer estudios de impacto o estudios de influencia con un punto específico, por ejemplo, para medir el impacto de una campaña publicitaria.

La conclusión es que hoy la tecnología de datos masivos es muy relevante y que ya no hay excusas para no usar estas herramientas en nuestros proyectos y convertirnos poco a poco en empresas basadas en la información. La tecnología de datos masivos nos ayudará a enfrentar la cuarta revolución industrial que es la revolución de los datos; aprovechemos que es una revolución anunciada, a diferencia de las anteriores. Así que ¡ manos a la obra! y contad con Telefónica para apoyarles en este viaje.

This article is from: