Índice Directorio Pág. 04
Editorial
Pág. 05
Semblanzas de los autores
Pág. 07
Las redes sociales en mi negocio.. Verónica López Martínez
Pág. 09
Por qué el sentido común y las imágenes son relevantes. Armando Jerónimo Cano
Pág. 14
2
Índice El uso de técnicas y métodos estadísticos ¿cuál es su importancia?. . Laura Elizabeth López Martínez Pág. 15
Cambridge Analytica y su influencia en las elecciones de los Estados Unidos. Diana Jazmín Meza Maldonado
Pág. 21
Aplicando la Ciencia de Datos ¿es una ciencia o un conjunto de técnicas? Alex Chimal Garcia Pág. 26
Construyendo el Almacén de Datos. Tercera parte. Ulianov Reyes Romero
Pág. 30
Todos mienten. La reseña. Patricia Quintero Soto
Pág. 45
El mundo de los datos Agosto 2020
3
Directorio Seis
Grados Data Es una revista digital gratuita de publicación trimestral a través de internet Año 1, número 2 Fecha de elaboración 30 de agosto de 2020 Director Ernesto Armando Jerónimo Cano Diseño Editorial e Ilustrador José Alberto González Garduño Ilustraciones Carlos Chantes M. Directora Comercial Verónica López Martínez Comité Editorial (por orden alfabético) Angélica Castañeda Sánchez Armando Jerónimo Cano Gustavo Alva Nieto Laura Dávila Lárraga Salvador García Ramírez Publicidad Verónica López Martínez vlopez@seisgradosdata.com Distribución y contactos www.seisgradosdata.com Facebook: seis grados data Correo: seisgradosdata@hotmail.com revista@seisgradosdata.com Teléfono: 55 7353 2667 Registro en trámite Revista Seis Grados Data, Número de Certificado de reserva 04-2019-102213133700-01. Los artículos, dibujos y fotografías publicados en la presente edición son responsabilidad de exclusiva de sus autores.
4
Editorial Cómo la ciencia de datos es utilizada en nuestra vida diaria, la vemos presente, lo mismo en las ofertas de artículos o la asignación de créditos, en la asignación de cajeros en horas pico cuando las colas se hacen más largas en los supermercados, en la elección de nuevos candidatos para laborar en las empresas, lo mismo que en la asignación de rutas y la identificación de oportunidades o de riesgos en la compra de acciones. En la medida que observamos a nuestro alrededor nos damos cuenta de que está presente en nuestra vida diaria y cada vez es más claro identificar su presencia. En este número nos hemos dado a la tarea integrar escritos que hablan de la aplicación de la ciencia de datos en actividades de la vida diaria; cómo el análisis de sentimientos puede ser usado para identificar preferencias, miedos o rechazos e influenciar la elección de los electores a partir de propuestas que los conglomeran de acuerdo con sus preferencias o afinidades. Sin que aún este en claro, si se pueden influir de manera determinante en el comportamiento de la audiencia, como lo indicaba Cambridge Analytica, no deja de ser inquietante la manera en que las empresas conocen nuestra intimidad y lo más grave es que nosotros damos permiso para que ellas nos conozcan.
En diversos campos de la ciencia como en la vida diaria, constante surgen preguntas cómo cual será el comportamiento de los precios de la gasolina o sobre la efectividad de un medicamento; para responder a estas y a muchas otras preguntas los científicos de datos se apoyan el uso de los modelos matemáticos y de las técnicas estadísticas. En particular, el uso de las técnicas estadísticas se ha hecho más común debido a que hay una disponibilidad cada vez más grande de datos, esto, aunado al poder y el abaratamiento en el procesamiento de los equipos de cómputo para su procesamiento, tanto en sitio como en la nube, hacen que el uso sea
Carlos Chantes Millan 2020
El mundo de los datos Agosto 2020
5
más recurrente en la realización de proyectos sin ser tan relevante su dimensión. No se puede negar el papel preponderante que ha venido adquiriendo la ciencia de datos para el análisis de los datos; sin duda, necesitamos contar con ciencia que asegure la calidad de los análisis, esto nos lleva a preguntarnos, tal y como se hace en uno de los artículos, si en verdad contamos con un ciencia en el sentido estricto o se trata más bien de un conjunto de técnicas interdisciplinarias, que se acogen bajo el nuevo paradigma de la información. De acuerdo con Chantal y Daniel Lorose, en su obra Data science and analytics with python, ellos definen a la ciencia de datos cómo “el análisis sistemático de datos dentro de un marco científico”, para estos autores aquí el método científico hace usos de los datos analizándolos para crear, corregir e integrar conocimiento. Como ambos señalan la ciencia de datos va más allá de hacer uso de los datos, de la estadística y de su sistematización, la ciencia de datos extrae información de diversas fuentes integrando habilidades, matemáticas, estadísticas y de negociones para hacer una representación de la realidad, explicarla o pronosticar a partir de la evidencia pasada. Sin duda, habrá mucho que comentar y discutir al respecto del papel de la ciencia de datos como ciencia; sin embargo, aún cuando muchas de las técnicas usadas por la ciencia de datos pueden ser cosa del pasado, lo cierto es que no es sino hasta que el costo del almacenamiento y del procesamiento se abarato que pudimos realmente hacer ciencia de datos, en este punto estamos apenas asomándonos a las maravillas que permite el análisis de los datos, el big data, el IOT o la IA. En este punto vale la pena destacar la reseña que se presenta
6
son el libro Todo mundo miente, en el que se nos presenta una visión de cómo los macrodatos son utilizados para identificar el comportamiento de las personas, si en las redes sociales, las personas presentan un estilo de vida estupenda, la huella que vamos dejando con nuestras consultas en Google reflejan algo completamente diferente. Es interesante el análisis que nos presenta el autor al darnos algunas aproximaciones de como los datos pueden ser utilizados para conocernos a profundad. Cuando hablamos de tendencias debemos reconocer que el 2020 marca un hito en el liderazgo de las redes sociales, este medio de comunicación ha revolucionado nuestra manera de interactuar con otras personas, transformando la manera en que socializamos y buscamos información y como está el comercio participando de esta nueva tendencia aprovechando las ventas en línea presentando experiencias más que productos. Sin duda, habrá que echar una mirada al artículo que tenemos preparado en este número para entender un poco hacia se dirigen las redes sociales y cómo debemos prepararnos para participar en él y no quedarnos fuera. Esperamos que la lectura de este número les permita ampliar su visión sobre el mundo de la ciencia de datos y sus aplicaciones.
Carlos Chantes Millan 2020
Los articulistas Andrea Verónica López Martínez
Mtra. Laura Elizabeth López Martínez.
Es licenciada en Economía por la Universidad Autónoma Metropolitana, se ha especializado en el uso de redes sociales lo que llevó a estudiar Marketing en las Redes Sociales. Actualmente administra el sitio de internet de la Revista Seis Grados y las redes sociales en Facebook, Linkedin e Instragram. Correo: vlopez@seisgradosdata.com
Actuaria de la Facultad de Ciencias de la UNAM. Es Maestra en Ciencias, con orientación en Estadística, por el Colegio de Postgraduados. Especialista en Política y Gestión del Desarrollo Social por la FLACSO México y Especialista en Estadística Aplicada por el Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas de la UNAM. Ha trabajado en la Coordinación Nacional de los Programas Oportunidades/PROSPERA. Actualmente es Jefe de Departamento en la Coordinación Nacional de Becas para el Bienestar Benito Juárez. Correo: lau.lm29@gmail.com
Ernesto Armando Jerónimo Cano
Alex Chimal García
Es Lic. en Economía por la Universidad Autónoma Metropolitana; Mtro. en Sistemas de Información por la Fundación Arturo Rosenblueth; cuenta con una especialidad en Política y Gestión del Desarrollo Social por el FLACSO. Ha trabajado en la Dirección de Sistemas de Información en Progresa-Oportunidades-Prospera diseñando e integrando indicadores bajo de la Metodología del Marco Lógico; ha publicado diversos artículos relacionados con la medición del indicador de economía del conocimiento. Correo: ajeronimo@seisgradosdata.com
Egresado de la licenciatura en Actuaria por parte de la Universidad Nacional Autónoma de México, realicé estudios de Diplomado en Minería de Datos en el Tecnológico de Monterrey, así como una Maestría con Especialidad en Mercadotecnia realizada en el Tec Milenio. Cuento con experiencia como consultor experto en la aplicación de modelos de optimización matemáticos en diversas áreas como ventas retail, telecomunicaciones, servicios y sistemas; he desarrollado para empresas nacionales e internacionales dedicadas a la distribución de servicios de comunicación, autoservicio, ventas, entre otros. Me especializo en realizar trabajos respecto El mundo de los datos Agosto 2020
7
Los articulistas a pronóstico de ventas y de indicadores económicos de relevancia, teoría de colas, muestreo, análisis de mercado, simulaciones. Asimismo, he sido colaborador activo en consultorías de Marketing, Pronósticos Econométricos, Sistemas y de Negocios para la toma de decisiones clave.
Ernesto Ulianov Reyes Romero
Diana Jazmín Meza Maldonado
Patricia Quintero Soto
Doctora en Dirección de Organizaciones por la Universidad del Distrito Federal. Maestría en Administración Pública por la Universidad del Valle de México. Especialista en Política y Gestión del Desarrollo Social por la FLACSO México y Especialista en Gestión Pública y Gobierno por la Universidad del Valle de México. Licenciatura en Derecho por la Universidad Autónoma de Nayarit. Ha trabajado como Subdirectora de Control de la Información en los Programas Sociales Progresa-Oportunidades-Prospera y actualmente en la Coordinación Nacional de Becas para el Bienestar Benito Juárez de la SEP. Autora del artículo “Análisis del programa Prospera sobre la disminución de la pobreza en México entre 1997-2017”Correo: diana_mezam@hotmail.com
8
Maestro en Ciencias de la Computación con más de 20 años de experiencia en dirección, gestión, administración y operación de Servicios de TICs. Reconocido a nivel nacional e internacional por las 40 más innovadores del sector público en el 2012, 2013 y 2014 por los proyectos de plataformas de misión crítica, y por Red Hat Innovation Award 2014. Correo: ulianov69@gmail.com
El pasado es memoria, nos conforma para poder actuar a cada momento, por ello estudie la licenciatura en Historia en la Facultad de Filosofía y Letras de la UNAM. Después una Maestría en docencia. Mi experiencia laboral ha sido dar clases a nivel medio y superior. He participado en Congresos de investigación, en múltiples cursos sobre docencia. En la creación de cuentos, poemas y en el rescate de Archivos municipales. Correo: pquintero63@hotmail.com.
LAS REDES SOCIALES EN MI NEGOCIO
Verónica López Martínez
Carlos Chantes Millan 2020
En este articulo encontraras las preferencias en Redes sociales y cuáles son las más utilizadas por las empresas al momento de realizar Marketing. Las redes sociales en la actualidad han dejado de ser solo para socializar. Hoy tener una fuerte presencia en las redes para cada empresa o negocio, es fundamental, ya que el descubrimiento de nuevas marcas o las ya existentes, por parte de los clientes, se da en la primera búsqueda que hacen en las redes, incluso, antes que en el sitio web de la marca. La cercanía de las redes permite la comunicación entre cliente y empresa y viceversa, lo que promueve la confianza, el compromiso y la lealtad a la marca. Las marcas deben mantenerse al tanto de las últimas tendencias en las redes sociales, para utilizar las plataformas digitales de manera efectiva; tanto Facebook como Instagram, continuamente están cambiando sus algoritmos, que hacen llegar la publicidad a
los usuarios; a esto, hay que agregar que generalmente cada 15 días aparecen nuevas plataformas con distintos algoritmos, como ejemplo tenemos TikTok, plataforma de video que fue lanzada en 2018 en EE.UU. y para el 2019 ya había sido descargado por el 32% de internautas, coincidiendo con Instagram y superando a Facebook; por esta razón, estas plataforma se convierte en tendencia para 2020. Como todo lo relacionado con Internet y las nuevas tecnologías, se está en continuo cambio; desde el punto de vista del Marketing, es necesario estar al día con estos cambios y adaptar nuestras estrategias de venta a las nuevas tendencias, ya que de ello depende captar nuevos clientes y mejorar nuestra imagen de marca. En 2020 estamos viendo como las diferentes redes sociales integran nuevas funcionalidades para el comercio electrónico, con el fin de que las empresas puedan vender sus El mundo de los datos Agosto 2020
9
productos; así podemos ver que una manera efectiva de realizar comercio en línea es utilizando plataformas como: Instagram, Facebook y WhatsApp que son las más utilizadas. Instagram sin duda ocupa un lugar preponderante en los proyectos de marketing, alrededor del 60% de las empresas usan elementos interactivos, como pegatinas (fotografías y videos) en sus historias de Instagram, así aumentan su compromiso y generan conversación con su audiencia. Las publicaciones centradas en el texto son magníficas para representar visualmente la marca y compartir mensajes únicos; para esto hay que ser creativos y concentrarse en el mensaje del texto, que debe invitar a compartir y a guardar. Para esto nos pueden ayudar las plantillas de publicación en Instagram. Aprovechando el tiempo libre de los usuarios de la red, surge como tendencia la gamificación, esta es una estrategia de contenidos que traslada la mecánica de los juegos a las redes sociales, particularmente en Instagram donde las marcas buscan con cuestionarios, bingo, publicaciones de estilo y de una forma divertida fomentar la interacción con publicaciones, aprovechando el distanciamiento social. Instagram ha lanzado un nuevo contenido IGTV (Instagram tv) de formato largo para ver videos de larga duración de hasta más de una hora, compitiendo con YouTube y Twitch; sin duda, en 2020 más marcas están optando por la creación de videos, para promocionar sus marcas, aprovechando esta excelente opción que brinda Instagram. Por otro lado, vemos que Instagram intenta eliminar los likes, a pesar de la oposición de los empresarios; para ellos, los likes son un
10
indicativo de la preferencia de los consumidores por su producto, pero para Instagram, los likes pueden significar, para una persona, la aceptación o rechazo social. Las historias AR (realidad aumentada) en Instagram, aumenta el alcance en los stories de Instagram y la visibilidad de la marca; los filtros AR pueden ser subidos a los perfiles y también a la biblioteca de los filtros, lo que permite a todos los usuarios usar su filtro en su propio contenido, con el nombre de su marca. El video de corta duración sigue ocupando el primer lugar en los stories de Instagram y Facebook (con alrededor de 900 millones de usuarios en todo el mundo), estos videos toman la delantera a partir de su corta duración de 24 horas, lo que provoca que los usuarios estén al pendiente de las notificaciones de sus marcas. El contenido efímero ha resultado todo un éxito en el marketing, debiendo estar orientado a la llamada a la acción y llevar a sus seguidores al punto de conversión final. El Social Listening o escucha social, es una nueva forma de escuchar al cliente y saber cuánto se habla de una marca en las redes sociales y en internet en general; las herramientas más comunes para llevar a cabo esta escucha son Social Mention, Hootsuite o Sproput social, las cuales permiten configurar alertas para palabras claves, como el nombre de la empresa, el nombre de un competidor o términos profesionales de una industria en particular. Toda la información obtenida ayuda a atender y entender las quejas de los clientes, gestionar crisis, recibir comentarios informales sobre los productos y conocer los puntos débiles de la empresa.
Carlos Chantes Millan 2020
El contenido generado por los usuarios se ha ido popularizando en las campañas publicitarias, las cuales se basan en él, UGC (User Generated Contend), contenido generado por el usuario, de esta manera se aprovecha la opinión de los usuarios para crear contenido en el perfil de la marca. Esta técnica, bien utilizada, puede beneficiar a la marca, haciendo que se vea más auténtica y confiable. El uso del video en el Marketing personalizado ha tenido resultados sorprendentes en las campañas publicitarias ya que han mejorado las estrategias de marketing en redes sociales, aprovechando la escucha social, que no es más que las recomendaciones de la marca, contadas por los consumidores o usuarios de las redes sociales. Las plataformas de redes sociales como Facebook, Instagram y Snapchat están moviendo a las marcas a producir y publicar contenido de video a través de las story ads, ya que obtienen más clics; por otro lado, Twitter también está publicando anuncios de video de seis segundos. Confiar en el contenido, que generan los seguidores de la marca, tiene muchas ventajas para las empresas; entre ellas, sobresale la generación de una mayor confianza, que repercuta en el engagement; en este caso hacemos referencia a los fans de una marca que publican su opinión sobre la marca, producto o servicio.
La utilización de videos es ya imprescindible en el marketing y ahora han surgido las transmisiones en vivo, como un instrumento más y han ido aumentando considerablemente a partir del distanciamiento social, tanto ha sido el éxito, que muchas marcas están haciendo uso de esta función en Facebook, en página y grupos internos. Hasta LinkedIn lanzo su función “LinkedIn live” y debido a su éxito, implementaron la función “Eventos virtuales”, con el cual se transmite eventos en vivo desde su página de eventos. Es importante hacer notar el surgimiento y crecimiento de grupos sociales, no solo de usuarios que comparten diferentes intereses, sino también de grupos que son afines a una marca. Las empresas buscan crear comunidades privadas en Facebook, que sean simpatizantes y a la vez promotores de sus marcas. Esto surge a raíz de que los algoritmos de Facebook han ido modificándose y actualmente se limita la visualización de las publicaciones, por lo cual es mejor tener o pertenecer a un grupo y de esta manera se garantiza que la información llegara más fácilmente al grupo al que va dirigido, ya que cuanto más específico sea el propósito de su grupo de Facebook, se tienen más posibilidades de atraer clientes comprometidos. Los usuarios con ideas afines se han encargado de formar comunidades en las redes sociales; generalmente son grupos privados, que comparten intereses particulares. Pero también existen grupos creados por marcas con el fin de proporcionar a sus clientes una El mundo de los datos Agosto 2020
11
Carlos Chantes Millan 2020
plataforma donde puedan interactuar entre sí y con la misma marca. Las marcas pueden utilizar estas comunidades para promocionar nuevos productos y aprovechar los comentarios e información de los clientes. Un método de atraer clientes, de manera directa, son los mensajes privados, táctica que va en aumento, debido a que ha demostrado gran efectividad. Las aplicaciones de mensajes con Facebook, Messenger, WhatsApp e Instagram Messenger permiten crear grupos más íntimos, donde los usuarios se sienten seguros a la hora de compartir información personal. Facebook Chatbot y Facebook Messenger permiten implementar campañas de marketing más directas y personalizadas que en los feeds de las redes sociales. Con los Chatbots, se crea prácticamente, un nuevo servicio de atención al cliente, este software ha sido desarrollado con inteligencia artificial y permite mantener una conversación, como si se tratara de una persona; los Chatbots se implementan en aplicaciones de mensajería como Facebook Messenger, con lo cual se automatizan las consultas, se resuelven dudas, se hacen reservaciones, compras, todo esto la hace una excelente herramienta para automatizar procesos y mejorar la experiencia de los usuarios de las redes sociales. Las empresas pueden utilizar también WhatsApp Business, esta herramienta ha
12
sido creada especialmente para las empresas, estas pueden utilizar esta plataforma para interactuar con sus clientes, utilizando herramientas que les permitan automatizar, organizar y responder ágilmente a los mensajes de sus clientes. La publicidad en mensajería instantánea puede ser una gran oportunidad para cualquier empresa, ya que por este medio pueden aprovechar para mantener contacto directo con su (Target) objetivo potencial y también promocionar productos y servicios de su interés. Existe un tipo de publicidad que acapara el mundo del Internet, la publicidad hecha por los Influencers, e influencer virtuales. El marketing que realizan los influencer, consiste principalmente en generar tendencias, la generación Z y los millennials dan más credibilidad a estos personajes que a cualquier celebridad, son más baratos que las celebridades y ya tienen un público. Los Influencer virtuales son humanoides que están triunfando en las redes sociales, como Lil Miquela, una influencer virtual, en la que ya han confiado grandes marcas del mundo de la moda; estos influencer al no ser humanos no cometen errores, ni se dejan llevar por las emociones. Por ultimo hablaremos de TikTok que ha revolucionado el mundo del video, es el cambio total en las redes sociales, especialmente
Carlos Chantes Millan 2020
entre los usuarios de la generación Z; es el formato de los influencer y por tanto de sus seguidores; que sin duda ocupa un lugar privilegiado en las redes, tanto las personas como las marcas comparten sus vidas TikTok en otras plataformas, lo que hace que las reacciones de una y de otras se difunda más allá de TikTok, donde solo se pueden crear videos rápidos y de formato corto , lo que no se encuentra en ninguna otra red social y es muy bien aprovechado por los expertos de marketing , que comparten sus videos nativos en TikTok a través de sus cuentas en Facebook, Instagram y Twitter. Durante los últimos años hemos visto crecer el uso del Social Seling, potenciando el comercio electrónico dentro de las Redes sociales, lo cual nos indica que el Marketing Online resulta imprescindible para cualquier
empresa. Así vemos que en 2020 la inclinación de las diferentes redes sociales es la difusión de nuevas funciones de comercio electrónico, para que las empresas puedan vender sus productos. BIBLIOGRAFIA es.wix.com>blog>2020/2>tendencias-redes-sociales 10 tendencias en redes sociales para el 2020-wix.com w w w.c a n v a .c o m .> l e a m > s o c i a l - m e dia-tends-blog. Media /blog/tendencias-redes-sociales-2020/ las 10 tendencias en redes sociales 2020, escrito por Enrique Peiró.
El mundo de los datos Agosto 2020
13
Por qué el sentido común y las imágenes son relevantes. Armando Jerónimo Cano
J. Alberto G G (2020)
En estadística el valor del sentido común y una simple mirada a nuestros datos pueden salvarnos de aplicar incorrectamente alguna técnica estadística, cuyos resultados más tarde nos lleven a de lanzar afirmaciones categóricas basadas en los valores de nuestros coeficientes estadísticamente significativos, pero cuyos resultados lógicos se alejan de la realidad. Traigo este tema a colación a partir de una consulta que me hizo una amiga ante un problema escolar, su equipo tenía que representar mediante un modelo estadístico un problema cotidiano que tuvieran en su trabajo; el problema propuesto consistió en conocer el tiempo de falla en meses de las baterías para un modelo de auto a partir de su kilometraje recorrido; para ello, se contaba con un set de datos de autos a los que la batería les había fallado, con los valores de dos variable: tiempo en meses en el que se había presentado la falla y número de kilómetros recorrido hasta ese momento. Lo primero que le propuse es que se pre-
14
guntaran si únicamente el kilometraje recorrido era la variable que determinaba el tiempo de vida útil de las baterías, acaso habría otras variables que no estuvieran considerando como el número de mantenimientos dados las baterías, o el número de días que el vehículo había estado sin usarse, entres otras posibles variables. Para documentarse podrían recurrir al manual de usuario del vehículo, o bien al manual de garantía del fabricante de las baterías. Por otro lado, que pasaba con el kilometraje y el tiempo de vida de las baterías de los vehículos que no presentaron la misma falla, era diferente al que presentaban los vehículos con fallas. Una mala identificación o una identificación incompleta de las variables que determinan el comportamiento de la variable dependiente, pueden llevar a realizar esas afirmaciones categóricas que comentábamos al principio de este artículo. Una mala identificación puede llevarnos a identificar relaciones espurias, en las que las variables
no tienen una conexión lógica o bien que la tienen, pero solo a partir de una tercera variable que no están siendo considerada en nuestro modelo explicativo. En la literatura hay ejemplos clásicos como de la alta correlación por ejemplo la identificada en las estadísticas holandesas en las que se presenta un alto grado de relación entre la tasa de nacimientos y el número de avistamientos de nidos de cigüeñas en una determinada zona de estanques. Entonces nuestra primera recomendación es platear adecuadamente el problema, lo que nos lleva a revisar si existe una relación funcional entre las variables y verificar si las variables que estamos utilizando son suficientes para el problema que pretendemos explicar, un problema distinto es si contamos con esas variables para nuestro análisis. Además, debemos considerar recurrir a la teoría, manuales o fuentes documentales que puedan respaldar la relación funcional que estamos tratando de identificar en nuestro problema.
Una vez resuelto el problema de identificar aquellas variables que mejor expliquen el comportamiento que estamos buscando explicar, el siguiente paso consiste en revisar su representación gráfica. No hay nada más revelador que una imagen gráfica de los datos, esta sirve de guía para orientar la creación de modelos que simbolicen la mejor la abstracción de nuestro problema. Y para entender la importancia que esta acción significa no hay mejor ejemplo que el del Cuarteto de Anscombe, se trata de un ejercicio elaborado por Francis. John. Anscombe, publicado en “Graphs in Statistical Analysis”. The American Statistician” en el año de 1973. El cuarteto de Anscombe Se proponen cuatro grupos de datos, cada grupo integrado por 11 pares de valores para x-y; en los primeros tres conjuntos de datos los valores de x son los mismos:
El mundo de los datos Agosto 2020
15
Obsérvese que la media de x, la media de y, la varianza de x, la varianza de y, los coeficientes de R y la recta de regresión tienen valores iguales para los cuatro grupos de pares x, y:
Sin embargo, basta una mirada a su representación gráfica para darnos cuenta de que el comportamiento de los datos en cada grupo es diferente:
16
Carlos Chantes Millan 2020
De la observación gráfica podemos concluir que, cada conjunto de datos representa un problema diferente y por lo tanto cada uno responde a modelo distinto; por lo que, utilizar una ecuación de basada en un modelo lineal no necesariamente reflejan el comportamiento real de los datos. Edward Tufte utilizó, en su libro The Visual Display of Quntitative, los resultados del cuarteto de Anscombe para enfatizar la importancia que tiene observar los datos antes de analizarlos. Finalmente, no se podía concluir el apoyo solicitado, sin antes mencionarle a mi amiga que, una vez que se tienen varias representaciones de nuestro problema, habría que pensar en el Principio de Parsimonia que nos dice que “en igualdad de condiciones, la explicación más sencilla suele ser la correcta”. Este principio también es conocido como la Navaja de Ockham en honor del fraile franciscano Guillermo Ockham (1280-1349) a quien se le atribuye su origen. Este principio debiera ser aplicado cuando tenemos más de una propuesta debidamente especificada
y distintos grados de complejidad para cada uno de ellos. En este caso debiéramos aplicar la máxima de menos, es más. Por supuesto que hay otros temas importantes como la elección del grupo de datos, la disponibilidad, calidad y la limpieza de estos, para poder avanzar en el planteamiento del problema, pero consideramos que estos elementos son un punto de partida bastante robusto para iniciar el análisis. Concluyo esta participación citando esta frase que encontré en un chat en internet hace unos días: “A veces es mejor no saber de estadística que saber poca estadística”. Anscombe, F. J.. Graphs in Statistical Analysis. The American Statistician, Vol. 27, No. 1. (Feb., 1973), pp. 17-21. Cuarteto de Anscombe. https://es.wikipedia.org/ wiki/Cuarteto_de_Anscombe Por qué no puedo estar callado. http://ptarra.blogspot.com/2013/05/el-cuarteto-de-anscombe.html Tufte, Edward. The Visual Display of Quntitative. 1983
El mundo de los datos Agosto 2020
17
El uso de técnicas o métodos
estadísticos, ¿cuál es su importancia? Mtra. Laura Elizabeth López Martínez
J. Alberto G G (2020)
Actualmente, las técnicas estadísticas representan herramientas matemáticas que se han convertido en aplicaciones indispensables tanto en la vida científica (ya sea en diversos campos de la medicina, la arquitectura, la meteorología, la biología, la política, entre otras) como en la vida cotidiana, porque, sin darnos cuenta a menudo procesamos información, un ejemplo de ello es cuando escuchamos en las noticias el aumento o disminución del precio de la gasolina y lo comparamos con el precio de los días anteriores, o cuando nos preguntarnos ¿cómo se comportará el clima al día siguiente? Todo esto se formaliza a través de la aplicación de modelos matemáticos estadísticos, cuyo fin es la obtención de información sobre ciertos temas. Hablar de métodos o técnicas estadísticas es hablar de procedimientos que se utilizan para manejar datos cuantitativos y cualitativos empleando técnicas de recolección, recuento, presentación, descripción y análisis.
18
Cada vez son más recurrentes las aplicaciones de la estadística en la realización de proyectos de todo tipo y dimensión. En los últimos años, el avance de la estadística se ha ido acelerando, tanto que a los especialistas de la rama les cuesta adueñarse de las distintas técnicas existentes. Aunado a esto, los datos han pasado de ser insuficientes a ser abundantes. Sin embargo, los avances en la computación, mediante paquetes de software estadísticos, en los sistemas de información y en la inteligencia artificial, permiten el tratamiento de grandes volúmenes de datos, para realizar consultas o informes a fin de obtener información valiosa sobre los datos. Ante esto, cabría preguntarse, además del apropiado tratamiento de los datos, ¿cuál sería la técnica más adecuada para su análisis? Algunas técnicas de análisis de datos que son básicas pero que ayudan a tener preci-
sión en la información, son las utilizadas en la estadística descriptiva como la tabulación de datos y su presentación en forma gráfica, el cálculo de la media aritmética, la desviación estándar, entre otras. Por ejemplo, al momento de realizar una primera exploración de un conjunto de datos, nos podrían ayudar una serie de técnicas gráficas simples a efecto de conocer su dispersión, la forma en que se correlacionan los datos, si presentan alguna tendencia, la prevalencia de alguna variable o el valor promedio, así como las diferencias o similitudes entre estos. Por otro lado, también están los métodos estadísticos que permiten comprobar hipótesis o establecer relaciones de causalidad en un determinado fenómeno, basado solo en los resultados obtenidos de una muestra, y mediante los cuales, podemos hacer inferencia y obtener conclusiones para deducir el comportamiento de una población o conjunto de datos, con un riesgo de error, el cual es medible en términos de probabilidad. Estos métodos son los que engloba la estadística inferencial, la cual se divide en paramétrica y no paramétrica. La estadística paramétrica comprende los procedimientos estadísticos y de decisión que están basados en distribuciones de los datos conocidas. Sin embargo, en ocasiones se desconoce la función de distribución de los datos, y es entonces cuando es necesario aplicar la inferencia estadística, mediante una prueba no paramétrica, que nos permita conocer la naturaleza de los datos. Algunos métodos estadísticos inferenciales, paramétricos y no paramétricos, son: Paramétricos • Estimadores Puntuales • Estimadores por Intervalos
• Pruebas de Hipótesis • Análisis de Regresión Lineal No paramétricos • Prueba de Cochran • Prueba de signos • Prueba de Wald-Wolfowitz De igual modo, cuando se necesita considerar la influencia de más de dos factores simultáneamente, se requiere otro tipo de modelos matemáticos, los cuales se conocen como técnicas estadísticas multivariantes. Para Salvador Figueras, M (2000), estas pueden ser definidas como los métodos estadísticos cuya finalidad es analizar simultáneamente grupos de datos multivariantes, en el sentido de que hay varias variables medidas para cada individuo u objeto de estudio. Algunas de éstas técnicas son el análisis de componentes principales, análisis factorial, regresión lineal múltiple, regresión logit, entre otras. En un entorno de producción, usar técnicas y análisis estadístico se le conoce como Control Estadístico de la Calidad, y tiene como objetivo reducir de manera sistemática la variabilidad y el aislamiento asociados con las fuentes de dificultades durante la producción (Walpole, et al. 2012), es decir, ayuda a controlar la calidad de la producción, para así obtener productos nuevos, mejores y más baratos. En definitiva, un investigador dispone de diversas técnicas estadísticas para la realización de un estudio. No obstante, cada método tiene supuestos matemáticos que debe cumplir la población que se encuentra bajo estudio. Por lo tanto, es importante elegir adecuadamente el procedimiento si queremos estar seguros de obtener resultados confiables.
El mundo de los datos Agosto 2020
19
J. Alberto G G (2020)
Cuando los datos de la investigación satisfacen estos supuestos matemáticos, se puede decir que las conclusiones son válidas y confiables. Vazquez y De Bernard (1992) señalan que considerar todos los criterios de cada procedimiento, asegurará que la elección de la prueba sea la adecuada para un análisis de los datos de una investigación particular. Como se observa, son muchos los conocimientos estadísticos que se pueden aplicar para la realización de estudios o investigaciones, los cuales, nos permiten mejorar los procesos de producción de bienes y servicios o ayudar a la toma de decisiones en empresas u organizaciones tanto públicas como privadas y de los giros más diversos. Se concluye destacando la importancia de tener conocimiento de los métodos y técnicas estadísticas, pues gracias a ellos es posible tomar mejores decisiones en el mundo real, sin duda, hoy en día, tanto la estadística como el rápido avance de las nuevas tecnologías, se han constituido en dos conceptos de gran importancia en la investigación aplicada.
20
Bibliografía
Barreto-Villanueva, Adán. The progress of statistics and its usefulness in development assessment. Papeles de población [online]. 2012, vol.18, n.73 [citado 2020-05-20], pp.241-271. Fleiss JL. Statistical methods for rates and proportions. 2nd ed. New York: John Wiley & sons, 1981. Lizón MA. Estadística y causalidad en la sociología empírica del XX. Papers. 2006 [citado 27/05/2020];(80):223-55. Disponible en: https://core. ac.uk/download/pdf/13270350.pdf Peña, D.: Análisis de Datos Multivariantes; McGraw Hill, Madrid, 2002. Salvador Figueras, M (2000): “Introducción al Análisis Multivariante”, [en línea] 5campus.com, Estadística <http://www.5campus.com/leccion/anamul> [citado 9/06/2020]. Vázquez Villazón, M y Bernard Cerezo, M.E. (1992) Métodos Estadísticos aplicados a la Investigación Psicológica. Facultad de Psicología, Universidad de La Habana. Walpole, R., Myers, R., Myers, S., & Ye, K. (2007). Probabilidad y estadística para ingeniería y ciencias. México: Pearson Educación
Cambridge Analytica
y su influencia en las elecciones 2016 de los Estados Unidos Dra. Diana Jazmín Meza Maldonado
J. Alberto G G (2020)
La evolución histórica de Cambridge Analytica se ha basado en una cauda de acciones en el campo de la minería de datos y el análisis de estos, distantes de toda axiología empresarial. Como referencia mediata tenemos su participación en Estados Unidos en el proceso electoral de 2016, cuya estrategia se caracterizó por la manipulación del sentir de la población, a través de procesos de recolección de datos personales en redes sociales a fin de influir en el ánimo de los electores mediante la creación de modelos inductivos (Rosenberg y Dance, 2018). ¿Quién es Cambridge Analytica?, una empresa de consultoría inglesa con sedes en Londres, Nueva York y Washington D.C. que basada en el incuestionable prestigio de la Universidad de Cambridge, sin nexo de vinculación alguno, se mimetiza del nombre en aras de beneficiar su desarrollo de manera ventajosa.
Se caracteriza por influir en la opinión pública mediante campañas de marcas publicitarias y políticas que sustentadas en el análisis de datos, con el objetivo de manipular a la audiencia en favor de determinados sujetos. (Pastor, 2018). Durante el periodo de 2013 a 2018, se abocó a recabar masivamente datos personales aplicando en Facebook el test de personalidad que diseñó el profesor Aleksandr Kogan a fin de conformar una base de información con un universo aproximado de 270 mil usuarios norteamericanos; quienes, al contestarlo, ignoraron que autorizaban el uso de sus datos conjuntamente con el de contactos; con ello, se estima que se recolectó información personal de 50 millones de usuarios de Facebook sin el concurso de su expreso consentimiento, ello, con el objeto de ser comercializada.
El mundo de los datos Agosto 2020
21
Ello, despertó el interés del entonces candidato republicano Donald Trump, quien contrató sus servicios para levantar su campaña en la contienda con la fuerza demócrata de Hillary Clinton.
de comunicación entre Trump y el electorado (Hendricks, 2017), posicionando con ello, a las redes sociales por encima de los medios publicitarios tradicionales como la televisión, radio, periódicos y espectaculares.
Con la información recabada procesada por sus programas informáticos, diseñó perfiles psicológicos de personalidad, basados en el análisis de gustos y preferencias, con el propósito de determinar si a las personas les agrada estar solas o acompañadas, asistir a las fiestas o eventos, detectar factores de temor, frustraciones, y posibles factores de condicionamiento conductual. Al grado de contar con herramientas para conocer y definir a las personas encuestadas, más que sus familiares. (Rosenberg y Dance, 2018).
Su precedente no solo se limitó a utilizar las redes como medio publicitario para captar la simpatía de los electores en favor de los candidatos; sino que, al proponer las llamadas “operaciones psicológicas” (psyops), se abocó a manipular la opinión a la gente mediante estrategias de persuasión de “dominio informativo”; acciones poco convencionales que incidieron en las personas, con mensajes, desinformación, noticias y rumores falsos en redes sociales (Pastor, 2018), como lo fue, el supuesto apoyo del Papa Francisco a Trump, el presunto abuso sexual de Bill Clinton a una menor de 13 años; influyendo drásticamente sobre la intención final del voto presidencial en beneficio de Trump.
Con los perfiles psicológicos de votantes obtenidos, Cambridge Analytica identificó el bloque indeciso electoral, para armar una batería de bombardeo de propaganda política personalizada con el objetivo de influenciar su voto en favor del candidato republicano. Según el director digital de campaña, fueron cruciales para Trump: “Por eso ganamos. Conocíamos perfectamente a los votantes que necesitábamos convencer y los convencimos a gran escala” (Lambrecht, 2016). El empleo de estas herramientas de inducción en procesos electorales con base en la información que aportan las redes sociales desempeñó un papel importante en las victorias de Obama en las campañas presidenciales de 2008 y 2012. En 2016 su ámbito de influencia e impacto se amplió, gracias al avance de las tecnologías de la información, la recolección de datos personales y los bancos que conforman las redes sociales; con ello, Cambridge Analytica, se constituyó en el primer canal
22
En entrevista para el informativo 60 minutos de CBS, Trump señaló, que una parte importante de su triunfo se debió al empleo de sus redes, reconociendo que: “El hecho de que tenga ese poder en términos de números con Facebook, Twitter, Instagram, etcétera, creo que me ayudó a ganar en una carrera en la que otros gastaron más dinero que yo” (Morín, 2016). Ante el cuestionamiento de ¿Cuáles fueron las consecuencias para Facebook por compartir los datos personales de sus usuarios?, la red se limitó a expresar que ella y sus usuarios, fueron objeto de un engaño por parte de Cambridge Analytica y Kogan. No sin antes establecer que, en las letras chiquitas de los términos y condiciones de uso que se acompañaron al cuestionario, se incluían advertencias a los usuarios de que sus datos podrían usarse con fines comer-
ciales (Rosenberg y Dance, 2018); lo que da pauta a inferir una posible colusión de Facebook, al haber sido omisa en revisar y prever tal circunstancia. Lo anterior motivó que se acusará a Facebook ante la Comisión Federal de Comercio de Estados Unidos (FTC, por sus siglas en inglés) de haber compartido de manera inapropiada los datos de 87 millones de usuarios con Cambridge Analytica, resultando sancionada con el pago de US$5.000 millones de dólares por prácticas indebidas en el manejo de la seguridad de datos de los usuarios, obligándosele asimismo a crear un comité independiente para revisar los temas de seguridad y privacidad y sobre el cual Mark Zuckerberg presidente de Facebook carecía de control (BBC News Mundo, 2019). Con ello, Mark Zuckerberg, reconoció públicamente en Facebook que la red tenía “una responsabilidad de proteger la privacidad de las personas”, comprometiéndose a cambiar la forma en que se desarrollan y funcionan sus productos. Preciso que, “En general, los cambios van más allá de cualquier requerimiento bajo la ley estadounidense”, accediendo a ejercer mayores mecanismos de control y supervisión sobre las apps de terceros, ordenando la inmediata suspensión del acceso a datos de amigos a las compañías Microsoft y Sony (BBC News Mundo, 2019) Causa de ello, en 2018, Cambridge Analytica anunció el cierre de sus operaciones en Estados Unidos y Reino Unido; limitándose a señalar, mediante un comunicado que la decisión obedecía a cuestiones económicas generadas por la pérdida de clientes y gastos jurídicos relacionados con el escándalo de Facebook, concluyendo que: “se ha determinado que ya no es viable continuar
J. Alberto G G (2020)
operando el negocio, lo que dejó a Cambridge Analytica sin una alternativa realista” (Guimón, 2018). Con el cierre de Cambridge Analytica, se dio la impresión que se hizo justicia, sin embargo, el diario británico The Register informó que los responsables e inversores de la consultora seguirían operando con la empresa denominada Emerdata, con giro idéntico a su predecesora y oficinas en el edificio de Londres. Es decir, una simulación para desvanecer el desprestigio y todo nexo de vinculación con el escándalo de la filtración de datos, para continuar operando. Ante este contexto, debemos reflexionar sí ¿La recolección de datos personales que obtuvo Cambridge Analytica fue legal? Para ello, tomaremos el caso de México, bajo el marco que conforman los artículos: • 3º de la Declaración Universal de Derechos Humanos adoptada por la Asamblea General de las Naciones Unidas; que a la letra dispone que “Todo individuo tiene derecho a la vida, a la libertad y a la seguridad de su persona”. • 1º y 6°, inciso A, fracción II, de la Constitución Política de los Estados Unidos Mexicanos que disponen que: “todas las personas gozarán de los derechos huEl mundo de los datos Agosto 2020
23
manos reconocidos en esta Constitución y en los tratados internacionales de los que el Estado Mexicano sea parte, así como de las garantías para su protección” y que “la información que se refiere a la vida privada y los datos personales será protegida en los términos y con las excepciones que fijen las leyes”. • 7º y 30, de la Ley Federal de Protección de Datos Personales en Posesión de los Particulares, que señala: “Datos personales: Cualquier información concerniente a una persona física identificada o identificable”. Ordenamiento que define como datos personales sensibles, “Aquellos datos personales que afecten a la esfera más íntima de su titular, o cuya utilización indebida pueda dar origen a discriminación o conlleve un riesgo grave para éste. En particular, se consideran sensibles aquellos que puedan revelar aspectos como origen racial o étnico, estado de salud presente y futuro, información genética, creencias religiosas, filosóficas y morales, afiliación sindical, opiniones políticas, preferencia sexual”, y que, “Los datos personales deberán recabarse y tratarse de manera lícita conforme a las disposiciones establecidas…La obtención de datos personales no debe hacerse a través de medios engañosos o fraudulentos”. La recolección de información personal de usuarios de Facebook sin su consentimiento expreso, vulneró su esfera jurídica al trasgredir el principio de protección de datos personales, al ser omisos los responsables de la red, en el debido control y adecuado tratamiento y manejo de la “obtención, uso, divulgación o almacenamiento de datos personales…El uso abarca cualquier acción de acceso, manejo, aprovechamiento, transferencia o disposición de datos personales”, en los términos que expresamente dispone
24
la ley de la materia, por ende, siendo omisos en la salvaguarda de la información de los usuarios, que en su carácter de garante legal tienen a cargo de manera directa, atributo que impone la obligación de implementar políticas de seguridad que así lo garanticen. Las acciones a través de las cuales, Cambridge Analytica recabó los datos a través del test, sin el consentimiento de los usuarios de Facebook, constituyen notorias y manifiestas maquinaciones que vulneran lo dispuesto por el artículo 7 de la ley de materia, que tutela, que en la obtención, manejo y control de datos personales, no deben emplearse medios engañosos ni fraudulentos. La creación de perfiles psicológicos con los que Cambridge Analytica influyó en la decisión de los electores indecisos, trasgredió flagrantemente los pilares de autonomía demócrata de las personas minimizando su esencia a entes de programación sugestiva, afirmación, que toma como premisa, el respeto irrestricto al derecho inalienable de toda persona a decidir de manera consciente y libre las acciones que le benefician o afectan; atributo que en el ámbito electoral resguarda el derecho a decidir el voto de manera informada y razonada, así como, a emitirlo en favor del candidato de elección. Al utilizar la información de las personas e inducir el cambio en sus preferencias electorales, se enclaustro su autodeterminación, reflejó el manifiesto secuestro del derecho a decidir de manera libre y espontanea del que goza toda persona en un régimen democrático, amén de exhibir las deficiencias preventivas y de control de los órganos del Estado garantes de la sanidad electoral. Lo expuesto deja en claro que las redes sociales como bancos de datos personales fueron de trascendencia en el triunfo de Trump.
Facebook, consciente o inconscientemente, omitió salvaguardar la información personal de sus usuarios al facilitar que un externo de manera maquiavélica dispusiera para si del universo de elementos confidenciales de usuarios a su resguardo al punto de poner en riesgo su integridad, en razón, que a través, de un modus operandi sincronizado recabó con engaños información, al fin de influir en la voluntad personal, vulnerando el consiente libre albedrío del que todo ser debe gozar en una democracia plena. Ante esto, surgen las interrogantes: ¿Realmente Facebook con sus políticas de seguridad garantiza la protección de los datos personales de sus usuarios?, ¿Cambridge Analytica destruyó la información que recabó de manera ilícita?, ¿En la actualidad, las instituciones públicas y/o privadas que cuentan con datos personales, disponen de mecanismos de control para su reserva?, ¿Lo sucedido en Estados Unidos en las elecciones presidenciales de 2016, puede reflejarse en México en futuros procesos electorales?. Hay muchas cuestiones por resolver, normar o definir pero… Que la labor de Cambridge Analytica en las elecciones de 2016, para llevar a Trump a la Casa Blanca, sirva de reflexión y nos sensibilice, a ser cautos con la información que proporcionamos y manejamos; ya que, como dijo Thomas Hobbes “¡Quien tiene la información tiene el poder!”. Lo sucedido, minimizó al Príncipe de Nicolás Maquiavelo, degradó su diálogo en el infierno con Montesquieu y rebasó a Joseph Fouche, como padre del espionaje. Referencias
BBC News Mundo. (Julio 24, 2019). Cambridge Analytica: la multa récord que deberá pagar Face-
book por la forma en que manejó los datos de 87 millones de usuarios. Junio 22, 2020, de BBC Sitio web: https://www.bbc.com/mundo/noticias-49093124. Constitución Política de los Estados Unidos Mexicanos. URL: http://www.diputados.gob.mx/LeyesBiblio/pdf_mov/Constitucion_Politica.pdf. Declaración Universal de los Derechos Humanos. URL: https://www.ohchr.org/EN/UDHR/Documents/ UDHR_Translations/spn.pdf Guimón, P. (Mayo 3, 2018). Cierra Cambridge Analytica, la empresa clave en el escándalo de Facebook. Junio 23, 2020, de El País Sitio web: https://elpais.com/internacional/2018/05/02/actualidad/1525285885_691249.html. Hendricks, J. A. (2017). The social media election of 2016. En R. E. Denton (Ed.), The 2016 US presidential Champaign (pp. 121-150). Nueva York: Springer. Lambrecht, B.(noviembre 15, 2016). Trump’s digital ad exec based in San Antonio. En San Antonio Express-News. Recuperado de https://goo.gl/R28eh. Ley Federal de Protección de Datos Personales en Posesión de los Particulares. URL: http://www.diputados.gob.mx/LeyesBiblio/pdf/LFPDPPP.pdf. Morín, R. (noviembre 12, 2016). Trump says social media was key to victory. En Político. Recuperado de https://www.politico.com/story/2016/11/donald-trump-social-media-231285. Pastor, J. (Abril 9, 2018). El escándalo de Cambridge Analytica resume todo lo que está terriblemente mal con Facebook. Junio 22, 2020, de Xataka Sitio web: https://www.xataka.com/privacidad/el-escandalo-de-cambridge-analytica-resume-todo-lo-que-esta-terriblemente-mal-con-facebook. Rodríguez-Andrés, R. (2018). Trump 2016: ¿presidente gracias a las redes sociales? Palabra-Clave, vol. 21, pp. 831-859. Rosenberg, M. y Dance, G. 2018. (Abril 10, 2018). Así funcionaba la recolección de datos de Cambridge Analytica. Julio 1, 2020, de New York Time. Sitio web: https://www.nytimes.com/es/2018/04/10/espanol/facebook-cambridge-analytica.html.
El mundo de los datos Agosto 2020
25
Aplicando la Ciencia de Datos ¿es una ciencia o un conjunto de técnicas? Alex Chimal García
J. Alberto G G (2020)
Cada vez es más común encontrarse con los términos Ciencia de Datos (Data Science) y Minería de Datos (Data Mining), aun cuando existe un gran debate en la definición de ambas disciplinas, siendo una realidad que éstas aún no cuentan con una definición exacta como, por ejemplo, las matemáticas o la estadística. ¿Pero qué es la Ciencia de Datos y la Minería de datos? De manera general, Data Science es un paraguas de distintas técnicas que son utilizadas para la extracción de información y el análisis de datos. Data Mining es el conjunto de métodos que son usados para el proceso de descubrir y obtener conocimiento entre relaciones y patrones que son previamente desconocidos en una gran cantidad de datos (Heiler, 2020). Entre las distintas definiciones refieren que la Ciencia de Datos se enfoca al estudio de los datos, para lo cual se auxilia de distintas áreas del conocimiento, como la estadística, las matemáticas y la informática, (Neoland, 2020). Por otro lado, en el sitio de la Universidad de Alcalá, institución que forma profesionales en dicha área, establece que los científicos de datos deben poseer una combinación de habilidades analíticas, de machine learning, Data Mining y estadística, así como
26
experiencia con algoritmos y codificación (Universidad de Alcalá, 2020). Sin embargo, considero que hay que incluir otra herramienta que es muy importante: la visualización de datos. Diversas definiciones como éstas se encontrarán tanto en libros como en sitios web. Sea cual fuese la definición formal, es claro que hacen referencia a una disciplina muy importante como lo es la estadística. Trasladándonos al terreno aplicado de los problemas de negocios, aunque se use el término ciencia, dista mucho de dicha acepción, como tal, pues las actividades no están definidas por problemas evidentes y claramente establecidos, es decir, no existe una “pregunta de investigación”, en realidad debe ser un proceso para convertir los datos (o lo que haya de…) en información, buscando que aporte elementos que permitan visualizar un panorama de la situación a fin de tomar decisiones a problemas o necesidades que surjan dentro del contexto del negocio. Abundando, como ejemplo, expondré un caso de un negocio de un comercio mayorista-minorista, en específico, una tienda que comercializa productos al menudeo a precio de mayoreo. En alguna de sus sucursales, un gerente identificó que, a ciertas horas durante el transcurso del día,
se incrementaba la cantidad de personas formadas para realizar el pago de los productos adquiridos, provocando un incremento en el tiempo de espera en la(s) caja(s) registradoras. Una pregunta lógica a esta situación sería ¿por qué el científico de datos podría no percatarse de tal situación? La respuesta es simple, porque no tiene la visión de lo que está pasando “en campo”. Esta situación tiene un costo que no necesariamente se mide en términos monetarios, pues si el tiempo de espera le parece excesivo al comprador (desde mi experiencia, no es lo mismo comprador que cliente, a menos que se cuente con el historial del comportamiento de compra de una persona para poder decir que ya es cliente), puede preferir realizar sus compras en otro establecimiento, o puede dar una mala referencia sobre el servicio en dicha sucursal, lo que conlleva a que la posibilidad de perder a un comprador o posible cliente, se incremente. ¿En qué medida? Si los datos lo permiten, se podría elaborar un modelo de regresión logística para determinar el peso de cada variable, con los odds-ratio. Haciendo un paréntesis, actualmente se habla de la inmensa cantidad de información que se genera, pero poco se habla de su disponibilidad. Este es otro de los problemas que enfrentamos los científicos de datos. Este punto del problema corresponde a la primera fase que se conoce en marketing como una filosofía, una actitud, una perspectiva o una orientación gerencial que hace hincapié en la satisfacción del cliente (William J. Stanton, 2007), (Arellano Cueva, 2000). Desde esta perspectiva, no únicamente se está abordando el problema del tiempo que un comprador espera para pagar cuando hay una o más filas largas, sino que también entra en juego un elemento subyacente como la experiencia de compra. Otro punto que debe tomarse en consideración es que el problema fue identificado por el gerente de una tienda, cuando se tiene un total de 50 tiendas. No siempre el problema de uno es de todos y no todos lo pueden identificar.
J. Alberto G G (2020)
empresa no existe información completa que permita dar solución sin necesidad de recopilar nuevos datos. La alta gerencia determinó que hay un problema que resolver, pero únicamente se tienen disponibles datos de ventas, no existen registros del tráfico de personas, por lo que el proyecto debe incluir la definición de los medios para obtener información del flujo de compradores (evidentemente esto incrementa costos). La solución al problema involucra más áreas, no se trata de ejecutar solo un algoritmo de solución, esto confirma que la ciencia de datos no es la solución, es únicamente una parte de ella. Para continuar, nos centraremos es los siguientes puntos: • Problema: en las horas de mayor tránsito, las filas de pago son extensas y se incrementa el tiempo de espera. • Objetivo: reducir el tiempo de espera abriendo más puntos de venta (cajas) dependiendo del personal disponible. • Descripción del objetivo: contar con un “sistema” que indique en qué momento se deben abrir más puntos de venta dependiendo de la cantidad de compradores, así como del personal disponible.
Una vez identificado el problema, el siguiente paso es determinar cómo abordarlo, por lo que se debe de definir claramente el objetivo que buscamos alcanzar. Al no tratarse de un problema académico, no es necesario definirlo de manera formal.
• ¿Cómo se obtendrán los datos? Tanto en ciencia de datos como en la minería de datos, un insumo muy importante es la data, tan simple pero tan profundo.
El primer paso es realizar un análisis para identificar la información con que se cuenta. En este caso, en la
• Como se ha planteado, la solución no se limita únicamente a la formulación de un modelo matemático, sino que se debe considerar un enfo-
El mundo de los datos Agosto 2020
27
que holístico al momento de definir el camino a la solución. Solución: La alta gerencia decidió adquirir la tecnología para medir el flujo diario de personas, que incluye cámaras de video en las que se pueden contar la cantidad de personas adultas que ingresan a la tienda (registrando el tiempo de llegada), discriminando entre adultos y niños. Esta información se registra en los servidores de datos. Posteriormente, se determinó realizar un análisis de los datos de ventas disponibles. Esto permitió conocer, mediante indicadores, el panorama actual de las ventas. Por ejemplo, el monto promedio de los tickets en determinado periodo, la cantidad promedio de productos por ticket, tiempo promedio o tiempo mediano entre transacciones y promedio de personas atendidas por caja en un rango de tiempo, entre otros varios, requeridos para tener un contexto de la situación actual. Dado que el flujo de personas son datos nuevos, se determinó que el periodo inicial para el análisis inicial sería de tres meses. ¿Por qué tres meses? No existe un consenso sobre esto, pero la experiencia me ha enseñado que tres meses es el periodo mínimo suficiente para la obtención de datos iniciales y que requiere de otros tres meses para verificar si ha habido un cambio en la estructura de estos. En este caso, fue una ventaja que los datos nuevos se recabaran conforme al uso que se les daría. Una vez recolectada la información, la siguiente pregunta fue ¿qué modelo se utilizaría para llevar a cabo la solución? Dada la naturaleza del problema, el mejor método es un modelo probabilístico denominado Teoría de Colas o Líneas de Espera. La teoría de colas se aplica en casos donde la demanda actual de un servicio se compara contra la capacidad actual de proporcionarlo, la meta es lograr un equilibrio entre las llegadas y las salidas. En otras palabras, se analizan situaciones en las que existe una demanda de un servicio de forma que no puede ser satisfecho satisfactoriamente, por lo cual se provocan esperas (Hillier & Lieberman, 2010). Resulta redundante mencionar que todo modelo conlleva unos supuestos, por lo que hay que tener cuidado que éstos se cumplan, pues en caso contrario el modelo resultaría inestable. El data scientist
28
debe valorar y decidir qué hacer en caso de que los supuestos no se cumplan, como comúnmente sucede en los modelos econométricos. Por último, aun cuando exista un modelo que solucione todo el problema, se debe planear cómo implementar la solución. En ocasiones el área de sistemas cree que es posible ejecutar el algoritmo utilizado, pero no es tan simple. En otros casos se requiere de la ejecución on-line, por ejemplo a un comprador, basado en su canasta de compra, ofrecerle una opción de otro producto y saber que es muy probable que lo recibirá. Conclusión: No existe una receta única de solución, los problemas son muy diversos. Un científico de datos deber ser versátil en la aplicación de un modelo de solución. La solución no siempre será aplicar un modelo de redes neuronales, de segmentación, de reducción de dimensionalidad, de agrupamiento, de relación entre variable o de pronósticos, en ocasiones la solución puede ser un modelo de retorno de inversión, de simulación estocástica o alguno de la investigación de operaciones. La aplicación de cada uno de estos modelos, conlleva una teoría subyacente, por lo que es necesario saber de por si hay que relajar los supuestos. De manera personal, en ocasiones he aplicado modelos de pronósticos en donde formalmente no se cumplen los supuestos. Bibliografía Arellano Cueva, R. (2000). Marketing. Enfoque América Latina. (G. H. Editores, Ed.) Graw Hill / Interamericana Editores. Heiler, L. (2020). Data Science Central. Obtenido de https://www.datasciencecentral.com/profiles/blog/ show?id=6448529%3ABlogPost%3A541305 Hillier, F. S., & Lieberman, G. J. (2010). Introduccion a la Investigación de Operaciones. McGraw Hill. Neoland. (2020). Obtenido de https://www.neoland. es/blog/que-es-data-science Universidad de Alcalá. (2020). Obtenido de https:// www.master-data-scientist.com/que-es-masters-indata-science/ William J. Stanton, M. J. (2007). Fundamentos de Marketing (14 ed.). McGraw-Hill / Interamericana Editores.
El modelo DW. Parte III Ernesto Ulianov Reyes Romero
Carlos Chantes Millan 2020
Como se ha mencionado en los artículos anteriores el proyecto de Data Warehouse consis-
tió en la implementación de un modelo de datos para el cual se consideró un caso en la industria de las telecomunicaciones, este proyecto sintetiza la experiencia adquirida en múltiples implantaciones de soluciones de inteligencia de negocios. El modelo se adaptó a las necesidades del negocio de una compañía dedicada a la telefonía celular, tomando en cuenta los siguientes aspectos: • Reconocer el comportamiento de cada uno de las terminales y su nivel de ingreso con base en el tráfico, sus mo-
vimientos, los comportamientos de sus saldos y los abonos realizados a sus cuentas. • Identificar las oportunidades o riesgos de manera oportuna, bajo una visión consistente de los datos. • Reconocer el impacto en el comportamiento de consumo e ingresos de ciertas ofertas o promociones. • Iniciar la identificación y segmentación por valor de los clientes de la empresa, ya sea que se traten de personas físicas, pequeñas y medianas empresas
El mundo de los datos Agosto 2020
29
Figura 1. Diagrama descriptivo de la solución.
o grandes corporaciones, a fin de tratar de manera más enfocada las necesidades de cada segmento. El modelo de datos debe estar orientado apoyar las actividades de análisis del perfil y comportamiento de las terminales en un corto plazo, para luego considerar el análisis al nivel de clientes. La solución está compuesta de 4 aspectos, sin ser límitativa, tales aspectos se muestran en el diagrama de la figura 1: Aunque se define de manera conceptual la representación de los clientes de los distintos tipos de servicios ofrecidos, la implantación se acotó a las terminales del servicio de Prepago, donde los aspectos requeridos que deben ser estudiados son: •
30
Ingresos por Tráfico.
•
Activaciones de Terminales.
•
Movimientos de Terminales.
•
Abonos de Tiempo Aire.
• Comportamiento del saldo de terminales. • Política Saldo Cero (estatus de una terminal después de 60 días de tener saldo cero y no haber abonado tiempo aire). • Churn (Estatus de una Terminal que esta en política de saldo cero y que no tiene tráfico entrante, es decir, no recibe llamadas a su teléfono del tipo el que llama paga). • ARPU (Ingreso obtenido por el tráfico de llamada entrante y/o saliente a una Terminal). • Financieros. La solución debe considerar los siguientes
grupos de indicadores como los más importantes:
te, donde se deberá proveer en forma oportuna la semántica correspondiente.
• Tráfico: Indicadores que facilitarán el análisis de las ventas, consumo, costos de interconexión y frecuencia (llamadas) del tráfico de voz y mensajes realizado por las terminales de Prepago.
• Meta data Técnica. Apoyará el control y monitoreo de los procesos de Extracción, Transformación y Carga (ETL) de la solución (desde el área temporal de archivos planos hasta las estructuras del Data Warehouse de la compañía), así como el manejo de errores, será implantado una entidad que de seguimiento de los procesos de carga. Se considerán reportes que permitán analizar la ejecución de los programas, con los siguientes datos:
• Tiempo aire: Indicadores que permitán estudiar la cantidad de abonos realizados al saldo de las terminales de prepago, así como el monto y regalos realizados. • Terminales: Indicadores que incluyen todas aquellas mediciones orientadas al movimiento de las terminales, ya sea activaciones, cancelaciones, churn, usuarios activos, cambios de planes, promociones y equipos. • Saldos: Indicadores que permitirán analizar de manera general la situación de las terminales de prepago con respecto a los saldos, ya sean saldos que impliquen ingresos, descuentos, regalos u otros. Manejo
de Metadata.
La implantación de la metadata en la solución se debe basar en los siguientes aspectos: • Metadata Funcional. Consiste en la definición de un modelo de acceso a los datos de la Base de Datos del Data Warehouse que traduzca las definiciones de las estructuras físicas de la base de datos en términos del negocio que puedan ser entendidos y empleados fácilmente por parte de los analistas de la compañía. Además, es el modelo de acceso que será instrumentado empleando las facilidades ofrecidas por una herramienta que permita tener el acceso más ágil y eficien-
Para Control y monitoreo de carga: •
Identificador del proceso ejecutado.
• Fecha, hora de inicio / Fecha, hora de fin. •
Cantidad de registros leídos.
•
Cantidad de registros procesados.
•
Cantidad de registros rechazados.
•
Estatus final de ejecución.
•
Para el manejo de errores:
•
Identificador del proceso ejecutado.
•
Fecha, hora de inicio
•
Descripción del error
•
Cantidad de registros rechazados.
La arquitectura de referencia debe describir primero desde un punto de vista abstracto y simplificado a alto nivel, del modo siguiente: • Un conjunto de datos extraídos de la base de datos operacionales. • Un software que prepara los datos para que los usuarios accedan. •
Un conjunto de aplicaciones y heEl mundo de los datos Agosto 2020
31
rramientas que ejecutan un conjunto de consultas y análisis complejos. Una arquitectura que propone Harjnder es descomponer sistemáticamente en detalles, partiendo de la Infraestructura, transporte, administración de metadatos, para ir subiendo de nivel, hacia las fuentes de datos, construcción del Data Warehouse. construcción de los niveles de agregación, acceso de datos y administración de datos. El planteamiento de dicha arquitectura contempla en su proceso tres fases importantes: la de Refinamiento, Reingeniería y después de obtener el modelo de Data Warehouse aplicar otra fase de Refinamiento y Reingeniería, esto requiere de varias etapas y fases incluidas la etapa de infraestructura donde deben participar los: Administradores de Configuración, Administradores de Almacenamiento, Administradores de Seguridad, Administración de Distribución, Administración de Licencias, Monitores de Desempeño y Analizadores de la Capacidad. Todo esto hace que construir el modelo a implantar, pueda volverse un proyecto complicado y largo por lo que en este artículo nos centraremos en el diseño del Data Warehouse.
J. Alberto G G (2020)
32
Diseño del Modelo. El modelo debe permitir almacenar grandes volúmenes de información haciendo uso de dimensiones, que es una forma de mostrar (y a veces de almacenar) datos muy útiles que se vuelven ejes fundamentales para el análisis y son usados, como criterios de clasificación de la información se integra un índice a los datos mediante una lista de valores. Por ejemplo, son dimensiones “Tiempo”, “Productos”, “Geografía” y “Suscriptores”. Para tal fin lo que se pretende desarrollar es un Data Warehouse, para conseguir que cualquier departamento pueda acceder a la información de cualquiera de los otros mediante un único medio, así como obligar a que los mismos términos tengan el mismo significado para todos. Por lo que se necesita crear un Data Mart (almacén de datos históricos relativos a un departamento de una organización), que puede ser simplemente una copia de parte de un Data Warehouse para uso departamental. Un Data Warehousing debe contener tres grandes componentes: 1. Depósito para almacenar los datos. 2. Herramientas para extraer, transformar y cargar fuentes de datos externos y opcionales. 3. Herramientas para hacer referencia y analizar los datos en el depósito. Tanto el Data Warehouse como el Data Mart son sistemas orientados a la consulta, en los que se producen procesos batch de carga de datos con una frecuencia baja y conocida. Ambos son consultados mediante herramientas OLAP (On Line Analytical Processing) que ofrecen una visión multidimensional de la información. Sobre estas bases de datos se pueden construir EIS (Executive Information) y DSS (Decision Support Systems) a través de métodos de
extracción de información denominados BI (Business Intelligence). Por otra parte, se conoce como Data Mining al proceso no trivial de análisis de grandes cantidades de datos con el objetivo de extraer información
útil, por ejemplo, para realizar clasificaciones o predicciones. El modelo se basá en la siguiente propuesta, que se expone en la figura 2.
Figura 2. Modelo propuesto.
Los datos contenidos en los archivos fuentes (Files) son normalmente extractos que contienen las transacciones que constituyen normalmente la mayor parte de la información en un Data Warehousing. Dentro del Modelo Base se instrumentan el uso de dimensiones. Cuando se usan dimensiones se hace uso de variables multidimensionales [DE LA HERRÁN, 2006], en donde por un lado se tienen los valores de la dimensión y dentro están contenidos los datos. Una variable unidimensional se ocupa, por ejemplo, cuando se va a hacer el cambio de tipo de moneda, mientras que una variable de dos dimensiones se ocupa para definir a un usuario que se mueve entre las dimensiones del “Tiempo” y “Geografía” y por último para el caso de los ingresos de una organización en donde se almacenan mediante J.Alberto G G (2020) Emociones-Trabajo 08
variables de tres dimensiones como son: “Productos”, “Tiempo” y “Geografía”. Normalmente los elementos de una dimensión forman una jerarquía, con lo que algunos son padres de otros. Cuando las variables multidimensionales de un data mart o Data Warehouse son cargadas con nueva información (por ejemplo, mensualmente a partir de ficheros de texto), ésta se refiere a los nodos hoja del árbol jerárquico de cada una de las dimensiones. Por ejemplo, la información de ventas llega detallada por producto, por ubicación y por mes, pero si queremos obtener el total de ventas de todos los productos, el total de ventas de todas las ubicaciones, el total de todos los meses del año, o alguna combinación de estos, se debe realizar un proceso de agregación de la información. El mundo de los datos Agosto 2020
33
Por ejemplo, en la dimensión Producto se incluye un valor llamado “Total Productos” que será padre de todos los demás productos y que contendrá el acumulado de todos ellos. En la dimensión tiempo se puede tener, por ejemplo, el año 2000 descompuesto en trimestres, y estos a su vez en meses. La información llega detallada por producto y por mes, y posteriormente a la carga de datos, es decir, la información es cargada a la base de datos y se realiza un proceso de agregación que calcula los acumulados por las diferentes dimensiones. Para tal fin se puede hacer uso de sistemas OLAP el cual se puede entender como la generalización de un generador de informes, que lo que permite es extraer la información. Existen aplicaciones informáticas clásicas de consulta, orientadas a la toma de decisiones, las cuales deben ser programadas, para poder atender a las necesidades del usuario, por medio de una interfaz para la consulta de la información. Sin embargo, muchos desarrolladores se dieron cuenta de que estas aplicaciones eran susceptibles de ser generalizadas y servir para casi cualquier necesidad, esto es, para casi cualquier base de datos. Los sistemas OLAP evitan la necesidad de desarrollar interfaces de consulta, y ofrecen un entorno único valido para el análisis de cualquier información histórica, orientado a la toma de decisiones. A cambio, es necesario definir dimensiones, jerarquías y variables, organizando de esta forma los datos. En general, el diseño de dimensiones y variables es mucho más sencillo e intuitivo que un diseño relacional. Esto es debido a que las dimensiones y variables son el reflejo directo de los informes en papel utilizados por la organización. Una vez que se ha decidido emplear un entorno de consulta OLAP, se debe de elegir entre R-OLAP y M-OLAP. R-OLAP es la arquitectura de base de datos
34
multidimensional en la que los datos se encuentran almacenados en una base de datos relacional, la cual tiene forma de estrella. En R-OLAP, en principio la base de datos sólo almacena información relativa a los datos en detalle, evitando acumulados (evitando redundancia). En un sistema M-OLAP, en cambio, los datos se encuentran almacenados en ficheros con estructura multidimensional, los cuales reservan espacio para todas las combinaciones de todos los posibles valores de todas las dimensiones de cada una de las variables, incluyendo los valores de dimensión que representan acumulados. Es decir, un sistema M-OLAP contiene precalculados (almacenados) los resultados de todas las posibles consultas a la base de datos. M-OLAP consigue consultas muy rápidas a costa de mayores necesidades de almacenamiento, y retardos en las modificaciones (que no deberían producirse salvo excepcionalmente), y largos procesos batch de carga y cálculo de acumulados. En R-OLAP, al contener sólo las combinaciones de valores de dimensión que representan detalle, es decir, al no haber redundancia, el fichero de base de datos es pequeño. Los procesos batch de carga son rápidos (ya que no se requiere agregación) y, sin embargo, las consultas pueden ser muy lentas, por lo que se aplica la solución de tener al menos algunas consultas precalculadas. En M-OLAP, el gran tamaño de las variables multidimensionales o el retardo en los procesos batch puede ser un inconveniente. Modelo de Datos. Es importante establecer para el modelo y los procesos estándares como los siguientes:
• Nombre de tablas - todas las tablas inician con el prefijo DW, enseguida un nombre descriptivo del contenido de dicha tabla y finalizan con los siguientes sufijos. • Tablas de interfaz – terminan con el sufijo INTERFACE. • Tablas tipo Fact – termina con el sufijo FACT. • Tablas sumarizadas – terminan con el sufijo AGG. • Tablas externas – terminan con el sufijo TE. • Tablas de temporales para transformación terminan con el sufijo TMP. • Tablas de homologación para carga de interfaz terminan con el sufijo CAT. Los estándares que se pueden considerar para elaborar los procesos son: • Los procesos de carga de fuentes a interfaz inician con el prefijo M de mapeo, así como también los procesos de sumarización, estos últimos también llevan el sufijo AGG.
• Los procesos de carga de interfaz al Data Warehouse inician con el prefijo DW. El modelo de datos lógico a instrumentar debe al menos componerse de la siguiente forma: • Área de Interfaz: Conjunto de tablas independientes las cuales son el primer paso en la carga de datos puente. Estas tablas mantendrán los datos de forma temporal y serán el puente entre las fuentes de información y el modelo de datos final del Data Warehouse. • El objetivo de esta área es resolver las transformaciones y homologaciones requeridas por los datos fuente. • Modelo Estrella: Conjunto de dimensiones y tablas de hechos con un modelado tipo estrella. El modelo considera cuatro estrellas relacionadas entre sí a través de las dimensiones. • Modelo de Resúmenes (Tablas Sumarizadas): Conjunto de tablas que resumen el contenido de las tablas de hechos del modelo estrella, o resulten algún cruce entre ellas.
Figura 3. Modelo Data Warehouse. Adquisición de Datos.
El mundo de los datos Agosto 2020
35
El proceso de adquisición de datos consiste en el método y pasos para la carga de información al Data Warehouse, para el caso del Data Warehouse de la compañía, el proceso de adquisición de datos se conforma de las siguientes fases: 1. Generación de fuentes de datos. 2. Carga de información desde las fuen-
tes de datos hasta el modelo de interfaz, a través de ETL’s. 3. Carga de información desde el modelo de interfaz al modelo estrella (Dimensiones y Facts). 4. Cargo y/o actualización de tablas sumarizadas. En la figura 4 se muestra el mapeo entre cada una de las fases de carga de información.
Figura 4. Modelo para Mapeos ETL.
1.Extracción Transformación y Carga. Para la estrategia de extracción, transformación, transporte y carga de datos en este proyecto se describe en los siguientes pasos: • El modelo de datos del Data Warehouse se sugiere sea alimentado de archivos planos los cuales serán generados por el área de sistemas de la compañía. Por lo que será necesario definir en conjunto con la compañía el layout para estos archivos fuente. • Estos archivos serán depositados en el servidor y directorios destinados para su almacenamiento con la frecuencia requerida para cada tipo de información.
36
• Estos archivos serán leídos por el ETL correspondiente para extraer los datos que contengan. • El contenido de los archivos se cargará al Data Warehouse a un área temporal o de interfaz, a través de los procesos que se desarrolla por medio del ETL. • Una vez contenidos los datos en el área temporal del modelo se ejecutarán los pasos adicionales contenidos dentro de los procesos de transformación y carga que llevará los datos de esquema temporal al esquema estrella, considerando carga de Dimensiones y Hechos (Facts). • Posteriormente se ejecutarán los procesos de sumarización de información y generación de indicadores.
2. Interfaz. En el proceso de Adquisición de Datos se instrumenta por medio del mapeo de las fuentes de datos al modelo de interfaz por ejemplo con Oracle Warehouse Builder para elaborar los procesos de extracción, transformación y carga de los datos desde las fuentes de información que proporcionan las diferentes áreas de la compañía hasta el área temporal del modelo para que posteriormente con los procesos de carga se inserte la información hasta el modelo del Data Warehouse, entre las principales áreas que proporciona dicha información para el caso de este tipo de industria son: • Caja de Prepago • Customer Care • Gateway / Switch • ERP Enterprice Relation Planning (SAP) • Facturación • Tiempo Aire • Club y Red Para realizar la carga hasta la interfaz se tienen definidos los layout para los archivos fuente requeridos, esta definición aplicará tanto para la carga histórica como para carga incremental. Esta etapa se encargará de la extracción, transformación y transporte de los datos desde los sistemas transaccionales hasta los archivos planos que serán la fuente de información para el Data Warehouse, depurando la información y haciendo los cruces pertinentes con los catálogos que establecen los códigos que están definidos en las dimensiones del modelo del Data Warehouse. En el proceso de la adquisición de datos considera la instrumentación de procesos de transformación para:
• Limpieza de datos • Estandarización de datos • Homologación de datos históricos • Aplicación de reglas de negocio. Se debe considerar para la implantación de un solo proceso de ETL, el cual se utilizará tanto para la carga histórica como para la carga incremental. Es decir, no se deben desarrollar procesos independientes ni específicos para la carga histórica y para la carga incremental. La población inicial y pruebas integrales de carga de información se realiazó con archivos fuentes proporcionados de un período de no más de tres meses de información. 3. Carga al modelo extrella (tablas de dimensiones y hechos). Para la etapa en donde se cargará la información a producción en las tablas de Hechos (Facts), es decir, al Data Warehouse se consideran los siguientes puntos: • Se elaborarán los procesos de carga y transformación de los catálogos desde las TABLAS DE INTERFAZ hasta las diversas estructuras de datos que conforman el modelo de datos de dimensiones. • Se diseñará y construirá a través de procesos independientes de extracción y transformación de datos desde las TABLAS DE INTERFAZ al modelo de datos del Data Warehouse para ser depositados en el área de producción (Tablas Facts), considerando aspectos como volumen de datos y periodicidad. • Se adecuán los programas y procesos preconstruidos contenidos en la plantilla de Business and Customer Intelligence for Telecomms, para con ellos transformar y cargar los datos contenidos en el El mundo de los datos Agosto 2020
37
área temporal del modelo al modelo estrella. • Se adecuán los programas y procesos preconstruidos contenidos en la plantilla de Business and Customer Intelligence for Telecomms, con las reglas de negocio de la compañía para con ellos generar las sumarizaciones para los indicadores definidos en la sección “Indicadores de Gestión”. • Se deben construir programas de transformación únicamente para los siguientes casos: o Generación de llaves alternas para el caso de las Dimensiones. o Obtención información de aspectos asociados a la terminal (modelo, cadena, etc.) y ligarlos a los Hechos. Por ejemplo, la cadena, modelo etc. De manera que los Hechos puedan en el análisis agruparse por cualquiera de estos aspectos. o Obtención del tipo de tráfico, para
realizarlo se proporcionará una tabla de relación donde por la combinación de operadora y tarifa se determinará el tipo tráfico, el proceso de transformación buscará en esta tabla de relación la operadora y tarifa correspondiente para obtener el tipo de tráfico y asociarlo al hecho. o Sumarización de información, considerando funciones de agrupación estándar (suma, promedio, máximos, mínimos etc.). o Los procesos de transformación que se desarrollen deben funcionar para carga incremental, como para la carga histórica, no se sugiere construir procesos de transformación específicos para cada caso. Se muestra en la figura 4 como debe quedar el modelo estrella para cada tipo de tabla de Hechos (FACT) que es la que contendrá el detalle de la información diaria del Data Warehouse.
Figura 5. Modelo Estrella [RAMOS, 2006].
38
Existe otro esquema que se le denomina de copos (de nieve) y que ocupa tablas dimensionales organizadas jerárquicamente, pero se considera el modelo estrella debido al modelo propuesto de entidad-relación entre las tablas de Facts (Hechos) y las Dimensiones. Es importante considerar la separación correcta de las tablas de Hechos por distintos niveles de granuralidad para así acceder a un grupo reducido de datos (Data Marts). Una consulta en estrella, o esquema de estrella, se ocupa cuando existen una o más tablas muy grandes, denominadas a menudo tablas de Hechos, que mantienen relaciones con varias tablas más pequeñas denominadas tablas de Dimensiones. Oracle [EMAGISTER, 2006] introdujo la funcionalidad de optimización de consultas en estrella, que proporciona mejores rendimientos para este tipo de consultas. En Oracle el procesamiento de las consultas en estrella se ha mejorado significativamente para aportar una optimización aún mayor de este tipo de consultas. El algoritmo de optimización de consultas en estrella no produce combinaciones de producto cartesiano, procesa una consulta en estrella en dos fases: 1. Recupera el número exacto de filas necesarias de la tabla de eventos, esta recuperación se realiza a través de índices de mapa de bits y es sumamente eficiente. 2. Combina el conjunto de resultados de la tabla de eventos con las tablas de dimensiones pertinentes, lo cual permite una mejor optimización de consultas en estrella más complejas, como por ejemplo las que tienen varias tablas de eventos. El algoritmo aprovecha los índices de mapa de bits, que ofrecen un considerable aho-
rro de espacio de almacenamiento en comparación con los métodos anteriores, que precisaban índices en árboles tipo B con columnas concatenadas. La exploración de estos índices puede realizarse en tablas tanto particionadas como no particionadas. Las transacciones de inserción, actualización y eliminación se pueden ejecutar en paralelo. Estas operaciones, denominadas DML (lenguaje de manipulación de datos), se ejecutan en paralelo a través de varios procesos. Al ejecutar estas operaciones en paralelo, la transacción se realiza con mayor rapidez que si la misma transacción se ejecutara en serie. Las operaciones DML en paralelo resultan útiles en soporte para la toma de decisiones (DSS) o de Data Warehouse. De igual forma se admiten inserciones, actualizaciones y eliminaciones en paralelo en tablas particionadas y no particionadas. La inserción en paralelo en una tabla mejora el rendimiento al dar formato y escribir los bloques de disco directamente en los archivos de datos, eludiendo los cuellos de botella que se producen en la memoria caché intermedia y en la gestión del espacio. En este caso, cada proceso de exploración de la consulta de inserción introduce datos en un segmento situado por encima del límite máximo de ocupación de la tabla. Cuando finalizan todos los procesos de inserción, la transacción se graba en la memoria y el límite máximo de ocupación se traslada más allá de los nuevos segmentos. Normalmente, las operaciones DML en paralelo se realizan en programas de procesamiento batch o desde dentro de una aplicación que ejecuta una inserción, actualización o eliminación en bloque. Para realizar los procesos de carga se debe de tomar en cuenta lo siguiente:
El mundo de los datos Agosto 2020
39
• Estructura destino. • Sistema Fuente. • Procedimiento almacenado. • Scheduler del sistema: carga de la tabla de interfaz y carga de la dimensión. • Nivel de detalle: diaria, semanal y mensual. • Cada tabla almacená la información asociada a la información fuente. • Requerimientos realizados o a realizar para acceder a los datos: o Que se cargue con datos válidos la información a la interfaz de servicios. o Que las tablas relacionadas con servicios se hayan cargado correctamente. o Que el procedimiento almacenado (SP) se encuentre compilado sin errores de compilación. • Descripción del flujo de proceso: o Para el caso de dimensiones: Se leen los datos almacenados en la interfaz y de allí se procesa cada uno. En caso de que exista un registro con la misma clave para una fecha igual o mayor a la fecha de proceso este se rechaza. De lo contrario si existe una versión previa para fechas anteriores a la versión original se “versiona” y se da de alta la nueva. En caso de que el registro sea procesado de manera exitosa este se marca como correcto en caso contrario se marca como incorrecto, para que si es necesario reprocesar información únicamente aquella marcada como rechazada sea afectada. o Para el caso de la dimensión de Cuentas y Terminales (Suscriptores)
40
se leen los datos almacenados en la interfaz de cuentas o terminales según sea el caso y de allí se procesa cada uno. En caso de que exista un registro con la misma clave para una fecha igual o mayor a la fecha de proceso éste se rechaza. De lo contrario si existe una versión previa para fechas anteriores la versión original se versiona y se da de alta la nueva. En caso de que el registro sea procesado de manera exitosa este se marca como correcto en caso contrario se marca como incorrecto, para que, si es necesario, reprocesar información únicamente aquella marcada como rechazada sea afectada. o Para el caso de la dimensión de Suscriptores se usa para administrar la base de usuarios de la compañía. Los Id’s asociados a esta dimensión son los que se usan para asociarse a las distintas tablas de Hechos (Facts) en lo que respecta a la base de usuarios. Así como la dimensión de Cuentas se usará para administrar las cuentas asociadas a la base de usuarios. o Para el caso de los demás tipos de información que serán cargados a las Facts se leen los datos almacenados en la interfaz del tipo de información a cargar y de allí se procesa cada uno. Se ejecutan procesos para buscar los Id’s asociados a cada una de las dimensiones por las cuales vaya a ser medida la información procesada. En caso de que el registro sea procesado de manera exitosa, éste se marca como correcto en caso contrario se marca como incorrecto, para que, si es necesario reprocesar información únicamente aquella marcada como rechazada, sea afectada.
o Para procesar toda la información rechazada, primero se tiene que generara un Id en la tabla de Suscriptores con una cuenta por default, para que posteriormente se pueda relacionar a dicha información con un Id al momento de cargarla.
de roaming, compra de equipos), incluyendo impuestos.
4. Indicadores de gestión. Para elaborar los procesos que calcularan los indicadores se debe realizar previamente una serie de matrices que representaran los indicadores que serán tratados. Las matrices se construyen poniendo el indicador y su definición para luego hacer la selección contra la serie de dimensiones contra las que se desea cruzar la tabla de Hechos (Facts) y las dimensiones para obtener las características por tipo de indicador, de esta manera se obtiene las características al realizar las agregaciones por tipo de información o el calculo de indicadores específicos.
• Ajustes realizados a los cargos por tráfico, cargos recurrentes o no recurrentes. Pueden tratarse de débitos o créditos. Los débitos tendrán signo positivo, mientras que los créditos serán negativos.
• Ingresos por cargos no recurrentes por servicios no contabilizados en tráfico (Ej. consulta de saldos, expirados, llamadas entrantes de LD, cargo por servicio de roaming, compra de equipos), sin incluir impuestos.
• Total de ingresos por las terminales de prepago, incluyendo impuestos: Venta con IVA + Cargos recurrentes con IVA+Cargos no recurrentes con IVA + Ajustes. • Total de ingresos por las terminales de prepago, sin incluir impuestos: Venta sin IVA+Cargos recurrentes sin IVA+Cargos no recurrentes sin IVA + Ajustes.
Se calcularán indicadores de ingresos por otros rubros con respecto a las dimensiones de geografía, servicios, promoción, modelo, tipo de plan, tipo de saldo, canal de venta, clasificación de terminales y tiempo:
Además de los indicadores base se deben considerar los siguientes indicadores calculados con respecto a las dimensiones de geografía, servicios, promoción, modelo, tipo de plan, tipo de saldo, canal de venta, clasificación de terminales y tiempo:
• Ingresos por cargos recurrentes por servicios no relacionados directamente a tráfico (Ej. Seguro, membresía de Club, membresía de la red), incluyendo impuestos.
• ARPU. Promedio del total de ingresos entre la cantidad de terminales activas para un momento dado. Ingresos totales sin IVA / Cantidad de terminales activas.
• ngresos por cargos recurrentes por servicios no relacionados directamente a tráfico (Ej. Seguro, mensualidad de la red, etc.), sin incluir impuestos. • Ingresos por cargos no recurrentes por servicios no contabilizados a tráfico (Ej. consulta de saldos, expirados, llamadas entrantes de LD, cargo por servicio
• ARPU ETRANTE. Promedio del total de ingresos por tráfico entrante entre la cantidad de terminales activas para un momento dado. Ventas sin IVA entrante / Cantidad de terminales activas. • ARPU SALIENTE. Promedio del total de ingresos por tráfico saliente sin IVA + cargos recurrentes sin IVA + cargos no El mundo de los datos Agosto 2020
41
recurrentes sin IVA entre la cantidad de terminales activas para un momento dado. Ingresos totales sin IVA / Cantidad de terminales activas. • ACPU. Promedio del total de la rentabilidad entre la cantidad de terminales activas para un momento dado. Ingresos totales sin IVA – costos de Ix / Cantidad de terminales activas. • MOUS. Promedio de minutos de uso entre la cantidad de terminales activas de prepago. MOUS = (Minutos Tarificados / Cantidad de terminales activas).
Acceso a Datos. En el Acceso a Datos a implantar en el Portal de acceso servirá para las consultas y análisis de las áreas de estudio: Tráfico medido (tarificado) e Ingresos, Movimientos, Saldos, Tiempo Aire y Terminales. Al acceder al portal se debe visualizar una pantalla con algunas tablas y gráficas con los indicadores más importantes que se definan. Dentro de esta misma pantalla, se podrá tener acceso a diferentes ligas de acuerdo con el perfil del usuario firmado, como se muestra en la figura 5 el cual expone la jerarquía de navegación del portal, el usuario que tiene todos los privilegios es el de administrador. Hacer uso de un Portal permite a los directivos y usuarios de la compañía realizar
Figura 6. Navegación del Portal (ROADMAP)
consultas generales y específicas de indicadores del negocio. Dicho portal se compone de las siguientes partes: • Portal, se implantará un portal con los siguientes elementos: o Acceso a la información a través de un código de acceso (clave y password por usuario).
42
o Reportes y gráficos que serán utilizados por los usuarios según sus privilegios. o Liga a consulta de reportes predefinidos. o Liga para generación de consultas Ad-Hoc. o Esquemas de seguridad por gru-
pos, usuario u objeto. o Publicación de Reportes, Consultas y Gráficas. • Modelo de Datos, se implantará un modelo de datos que consta de los siguientes elementos: o EUL (End User Layer). Estructura de Metadatos que permite al usuario final enfocarse en el negocio en lugar de orientarlo al acceso de datos. o Business Área. Colección de información interrelacionada. • Reportes Preconstruidos o Los reportes por construir se basarán 100% en las áreas de estudio e indicadores de gestión considerados listados y descritos en la sección “Áreas de Estudio” de este documento. o En conjunto con el usuario se diseñarán los reportes considerados en este alcance. Se debe considerar intrumentar para la seguridad en los siguientes niveles: • Base de Datos: cada usuario contará con una cuenta de acceso a la base de datos del Data Warehouse por la naturaleza de este tipo de solución los usuarios contarán con permisos de solo lectura (consulta). • Discoverer: dentro de la herramienta maneja niveles de seguridad que permite un control para el acceso a consultas y reportes específicos o a temas de estudio. Esta seguridad se podrá instrumentar por Rol o por usuario de base de datos. • Portal o La seguridad a nivel del portal será implantada a través de grupos de
trabajo o grupos de acceso. Cada Grupo de trabajo tendrá los accesos a las Secciones, Páginas, Regiones u Objetos del Portal. Estos accesos estarán definidos según el perfil de cada usuario, y estarán directamente relacionados con los permisos asignados a cada usuario en Discoverer. o Dentro del Portal se debe proveer el manejo fácil y controlado de los privilegios a través de grupos. Los grupos otorgan los privilegios relacionados que se conceden a los usuarios o a otros grupos. Los grupos se diseñan para facilitar la administración de los privilegios del objeto del sistema. o Un usuario de Portal podrá tener asignado uno o más grupos, de tal manera que los privilegios de cada grupo son acumulados para el usuario, es decir, los privilegios que tendrá un usuario serán todos los privilegios de los grupos a los que se encuentre asignado. • Roles de Seguridad, el esquema de seguridad a implantar considera los siguientes roles o perfiles de usuario: o EJECUTIVO – Usuario con acceso al portal para visualización de indicadores de gestión y consulta de reportes preconstruidos o ANALISTA - Usuario con acceso al portal para visualización de indicadores específicos, consulta de reportes preconstruidos y generación de nuevos reportes o elaboración de consultas Ad-Hoc. o ADMINISTRADOR – Usuario responsable de mantener el funcionamiento de la interfaz de usuario final, y responsable de asignar privilegios y permisos de acceso a otros usuarios. El mundo de los datos Agosto 2020
43
Por último, las herramientas Ad-Hoc que se consideren deben servir para la construcción de reportes permitiendo realizar: • Drill up/down (Contraer/Desplegar detalles hacia la arriba/abajo). • Drill in/out (Contraer/Desplegar detalles hacia la derecha/izquierda). • Pivoteo • Exportación de datos • Ordenamiento de datos • Graficación • Grabar reportes • Consultas desde Discoverer Viewer. • Ranking. Selección y Ordenamiento de Datos más representativos de una variable.
J. Alberto G G (2020)
Bibliografía.
BERTHOLD, M.; Hand, D.J. Intelligent Data Analysis, An Introduction. Springer 1999.
THURAISINGHAM, B. Data Mining. Technologies, Techniques, Tools, and Trends, CRC Press, 1999.
COREY, Michael J., Abbey, Michael. Oracle Data Warehousing. Oracle Press. Osborne/Mc Graw-Hill. 1997.
ORACLE, SOA Data Warehouse, enero 2005.
COREY, Michael J. & Michael Abbey. Oracle Data Warehousing. Computer World 1993 - pág. 218. DUNHAM, M.H. Data Mining. Introductory and Advanced Topics. Prentice Hall, 2003. EDWARDS, John. Building the Right Data Mart. Oracle Magazine. U.S. Marzo/Abril 1998. HARJNDER, S. Gil y Prakash C. Rao. La integración de la información para la mejor toma de decisiones data warehousing. Prentice Hall Hispanoamérica, 1996, México. INMON, W.H. et al. Managing the data warehouse, John Wiley, 1997.
44
Páginas de Internet. DE LA HERRÁN Gascón Manuel; Catellar-Busó Vicent. Cómo diseñar grandes variables en bases de datos multidimensionales. México, http://www.redcientifica.com, consultada el15/febrero/2006. EMAGISTER, Gestor Base de Datos, http://grupo6. freeservers.com/aplicaci.htm, consultada el 19/ abril/2006.
Todos Mundo Mienten .
Patricia Quintero Soto
“Todo el mundo miente”, es un libro escrito por el filósofo y economista Seth Stephens-Davidowitz, norteamericano que a través de la editorial Paidós no ofrece un texto de 288 pp. La temática es sobre los macrodatos que se manejan en las redes sociales. No es nuevo saber que los seres humanos mentimos. Es una de nuestras características que nos han llevado a ver las mentiras como un pecado, un acto deshonesto y a veces hasta pusilánime. Existen estudios en los que, por nuestros gestos, posturas, tonos de voz, tics nerviosos, nos dicen si mentimos o no. Hasta se han inventado máquinas para detectar nuestras mentiras, porque no somos confiables. Lo cierto es que siempre estamos mintiendo, desde lo que llamamos mentiras piadosas, hasta las que te llevarías a la tumba.
En el fondo creo mentimos por sobrevivencia, adaptación y no sentirnos agredidos, juzgados y en ocasiones, hasta para conservar nuestra vida. Nuestras primeras mentiras las utilizamos en la niñez por temor a ser reprendidos, evidenciados, golpeados. Y qué tal en las redes sociales, ¿cómo nos comportamos? Precisamente Seth Stephens-Davidowitz lanza su percepción sobre el asunto. Su texto está dividido fundamentalmente en 3 partes: la primera de ellas llamada Datos grandes, datos pequeños, nos explica todo lo que refleja lo que escribimos cuando nos metemos a buscar información en Google. Es un universo de posibilidades que revelan nuestros gustos, necesidades, preocupaciones, inquietudes, prejuicios, perversiones, deseos. Esos rostros ocultos que no nos atrevemos a manifestar por miedo a ser juzgados y taEl mundo de los datos Agosto 2020
45
chados de estúpidos, miedosos, ignorantes, malévolos, morbosos, dementes y sucios. Se nos ha manejado que somos el tipo de amigos que tenemos, la música que escuchamos, la ropa que nos ponemos, los libros que leemos, la manera de hablar. Sin duda alguna también nos revela mucho lo que consultamos en las redes sociales con las grandes contradicciones e incongruencias que nos conforman. En el fondo vivimos mucho de la apariencia, únicamente en la soledad de nuestra computadora y en el anonimato, mostramos esa parte que negamos a los demás. En ese sentido Stephens-Davidowitz muestra un espejo donde estamos desnudos y todos nos podemos ver. Esto parecería hasta doloroso y bochornoso. Lo cierto es que muchísima gente lo hace, no estamos solos, son cientos de miles que tienen las mismas inquietudes, comportamientos conductas parecidas a las nuestras. El libro no tiene una estructura bien organizada, es tomar muestras de cualquier tema en forma azarosa y encontrar una heterogeneidad que parece no tener pies ni cabeza: elecciones políticas, sexualidad, enfermedades, relaciones humanas, problemas sociales. Lo interesante y rescatable es la perspectiva que utiliza el autor para interpretar la información. Y aunque las opiniones que arroja pueden ser de lo más variado, el escrito nos ayuda a comprender o reafirmar como nuestra visión y relación con las redes sociales ha cambiado y nos ha cambiado. Sin duda alguna, las grandes empresas comerciales y de servicios, el gobierno, los científicos y los intelectuales, trabajan con los datos que dejamos en los buscadores.
46
Para ellos, son indicadores que les sirven para lanzar nuevos productos, cambiar estrategias sociales o políticas. Stephens-Davidowitz aclara que no todo sirve y que como investigador debes tener esa capacidad analítica y de juicio para saber discriminar esa información. La segunda parte del libro llamada Las capacidades de los macrodatos, constituye la parte medular de los resultados de sus investigaciones con la población norteamericana y concluye que en las cuestiones sexuales el hombre está más preocupado por el tamaño de sus genitales, la mujer por su apariencia como aumentar el tamaño de sus senos. Pero que la mayoría miente en cuanto al número de relaciones sexuales y su satisfacción. En Facebook hacemos creer que somos lo máximo, que somos muy cultos o que nuestra familia es lo primero. Google demuestra lo contrario. Resulta entretenido leer esa parte donde nos proyectamos de manera espectacular. En cuanto a los prejuicios y odios, los norteamericanos son racistas, discriminan a afroamericanos, mexicanos, judíos, musulmanes. Y cuando el presidente lanza un discurso moralista contra el racismo, crece el odio o repudio a esos grupos. Por lo que resulta muy interesante saber que, la forma como conduces la publicidad y mensajes será significativo a la hora de ver los resultados, ya que te pueden llevar al fracaso o al éxito en de lo que deseas impactar. El autor también analiza el papel de equipos deportivos, escuelas, desempleo, consumismo. Fenómenos sociológicos como el maltrato infantil, el aborto, las enfermedades, la comida. Nuestras preferencias sexuales, relaciones amorosas, la intimidad, los suicidios. No se diga sobre los impuestos, las
clases sociales, las tendencias políticas, las zonas donde vives, los amigos de Facebook. Hasta las palabras que se emplean y si un país es o no, feliz.
medicina, ya que si hay alguien con tu mismo padecimiento, puede efectuar el mismo proceso que te llevó a mejorar, por supuesto con su determinada mesura.
En ese sentido es muy impresionante y polémico lo que deduce, esto nos ayuda a realizar una reflexión, terminar con prejuicios o estereotipos, ideas que se difundían como verdad. Resulta muy rescatable lo que sale de los datos. Nos ayuda a saber y comprender más a los otros y conocer lo que hay en nuestro interior. Esa parte de la reflexión y análisis es muy entretenida, curiosa, cada uno de nosotros podrá estar o no de acuerdo, en eso estriba el leerlo, por la controversia que en determinado momento puede generar. Además te puede servir para tomarlos en tu vida cotidiana.
La tercera parte se refiere a la precaución al usar los macrodatos, no tienen la verdad absoluta, pueden ser de gran ayuda, incluso una herramienta para corroborar y complementar información. Es determinante, tomar en cuenta la ética, todo debe tener cierto límite, se ha sabido cómo las redes sociales toman parte de tus datos, cómo algunos pueden hacer mal uso de ellos. Esa es otra de las grandes preocupaciones que se plantea, rebasar esas demarcaciones e introducirte en la vida privada o intimidad de alguien, ha generado choques, puntos de vista diferentes.
Afirma que recurrir a los macrodatos de Google para ciertas cuestiones, es útil y ventajoso. Por ejemplo, gastas y tardas menos en obtener resultados. Las muestras son más transparentes y honestas. Nos introduce en lo que se conoce como “ciencia de datos”, saber que es lo que persiste o es constante, realizar deducciones. Utiliza términos como “el suero de la verdad digital”, algo nuevo y revelador, porque en nuestras búsquedas nos destapamos. Varias empresas digitales han tenido éxito gracias a esa información: Netflix, Amazon, etc.
Las conclusiones del libro es mejor no leerlas, no son contundentes y precisas en los puntos claves y medulares del libro. Evidentemente, algunos de los datos expuestos resultan rescatables y nos ayudan a ver desde otra perspectiva nuestra entrada a las redes sociales, en ese sentido va la recomendación, ya nos constituyen, son parte de nosotros.
Me pareció sobresaliente el uso científico que se le puede dar a la información con el método de buscar a tu “doble”, empleado para que sepas que personas son más o menos como tú. Pero más allá de saber que existen seres humanos que tienen una serie de inquietudes y gustos parecidos a los tuyos, este método se puede aprovechar en
El mundo de los datos Agosto 2020
47
48
El mundo de los datos Agosto 2020
49