Extra-Byte Junio 2022

Page 1

Extra Byte Junio 2022 Conozca como leer archivos tipo PDF que contienen un formato variado utilizando las herramientas Power BI y R

Ofreceremos algunas recomendaciones que le serán útil si necesita prepara un entrenamiento. ¿Sabe usted que es RPA y que beneficios aporta?

Se ha preguntado, ¿Qué tipo de computador necesita para trabajar en el área de análisis de datos?

La gestión de equipos de datos es una labor que no hay que tomarse a la ligera, la experiencia es un factor clave…

Seguridad de los datos, cuidándonos de nosotros mismos.




Extra-Byte Edición: Gabriel Gómez Co-Edición: Pablo Moreno

Prologo Sabemos que los datos por si solos no representan mucho, son una combinación de letras que pueden describir un nombre, edad, nacionalidad pero que cuando se combinan generan información tan poderosa que resulta difícil controlarla. Es cuando se decide crear estrategias para mantener estos datos seguros, saber como presentarlos de forma tal que generen sabiduría, como gobernarlos, administrarlos, como capturarlos, a donde publicarlos, como almacenarlos, etc.

En esta versión de la revista Extra-Byte, presentamos artículos que son parte de nuestra vivencia, de escenarios que nos ha tocado resolver, o preguntas que hemos tenido que responder. Cubrimos áreas técnicas como la lectura de archivos tipo PDF o requerimientos de hardware para profesionales de los datos. También tratamos temas relacionados a los entrenamientos ya que en muchas ocasiones nos toca diseñar espacios de aprendizajes, pero desconocemos como empezar. De igual manera, hablamos sobre la gestión de equipos de datos y ofrecemos recomendaciones muy valiosas para administrarlos de forma eficiente. Esperamos que el contenido desarrollado sea de su agrado.

Atentamente,

Los Editores.


Muro Social Si deseas ser parte de nuestra comunidad de datos, te invitamos a que te unas en el siguiente canal:

Grupo de Usuarios de Power BI de Panamá https://www.meetup.com/power-bi-panama-user-group/

Beneficios: ✓ Entremientos gratuitos o Power BI, Excel, Análisis de datos

✓ Presentación de temas de interés o o o o o o

Modelado de Datos. DataStoryTelling Inteligencia de Negocios. Machine Learning. Power Platform. Otros.

Eventos Pasados


Leyendo archivos PDF con R Por: Gabriel Gómez

Probablemente en más de una

En esta ocasión mostraré como

ocasión usted ha tenido la

extraer datos de un archivo .pdf

necesidad de acceder a los datos

que contiene la cantidad de

que están en un archivo .PDF,

personas

provenientes

de

estos

diferentes

países

de

Latinoamérica

que

pueden

estadísticos

de

ser

cuadros población,

visitaron

ventas, estadísticas sociales que

Panamá durante los años 2020 y

nos

2021. Fuente: INEC.

permitan

identificar

oportunidades o amenazas y de esta manera diseñar mejores estrategias de posicionamiento en el mercado.

Paso # 1 Lo primero que haremos es cargar los datos en Power BI utilizando el Script de R. Para ello,

asegúrese

de

haber

instalado las librerías pdftools y tidyverse (puede hacerlo desde R Studio). Cargue el archivo .pdf y

Para realizar esta lectura se

asígnelo a una variable. En mi

utilizó la versión de R 4.1.0.

caso utilicé “Visitantes”.


En Power BI


Paso # 2 Limpie los datos de la consulta resultante. Este procedimiento variará dependiendo del archivo que esté leyendo en mi caso seguí los siguientes pasos:

El resultado de haber aplicado los pasos de limpieza será una columna con los países y sus respectivas estadísticas.

Paso # 3 Agregamos un Scrip de R e incluimos el siguiente código: Primero le damos formato a

Si intenta replicar el ejemplo se

lectura, no siempre aplica para

la columna que contiene los

dará cuenta que los archivos .pdf

todo y es ahí en donde debe

datos y luego procedemos a

no siempre tienen el mismo

decidir si separa la consulta en 2

asignar los valores a cada

formato y aunque una de las

partes y luego las vuelve a unir

nueva columna utilizando

formas más sencillas es indicar

utilizando anexar consultas.

coordenadas.

en el código las coordenadas de

Luego se limpian los espacios en

blanco

que

estén

alrededor de los valores y finalmente se convierte la variable dataframe

dataset

en

para

mostrar los resultados.

un

poder


Paso # 4 Aplique nuevamente acciones de limpiezas como, por ejemplo, eliminar comillas, espacios en blanco, etc. Hasta que los datos en cada columna estén listos para ser utilizados.

En este punto solo nos quedaría una transformación pendiente y es cambiar los tipos de datos de texto a numérico en donde aplique.


Computadores para Análisis de Datos Por: Luca Piatelli

Desde el inicio de los tiempos

¿Sabes qué capacidad debe

El procesador está compuesto

como

utilizamos

tener un computador si deseas

por núcleos, que básicamente

herramientas para facilitar las

utilizarlo para análisis de datos?.

son

tareas que necesitamos realizar,

En este artículo veremos que es

cada uno puede realizar una

desde cazar, cocinar, construir y

cada

una

tarea distinta al mismo tiempo.

trabajar. A día de hoy, todos

recomendación

de

Luego están los hilos los cuales se

sabemos

computadoras para trabajar en

encargan

el área.

trabajo y dividen el trabajo en

humanos

que

la

principal

herramienta en el ámbito laboral es

la

computadora.

Este

dispositivo nos permite realizar

componente

y

subprocesadores

de

donde

administrar

el

partes para realizarlas de una

Procesador

manera

más

rápida.

múltiples tareas y sobre todo lo

Podemos decir que es el cerebro

Generalmente cada núcleo tiene

que nos interesa jug… perdón,

de

dos hilos.

trabajar con datos.

encarga de resolver cálculos y

nuestro

ordenador,

se

cumplir instrucciones, toda tarea que realicemos debe pasar por el procesador (CPU).

Lo que debemos buscar aquí para trabajar con datos es tener la mayor cantidad de núcleos e hilos posibles.


Las marcas principales en este

Unidad

componente son Intel y AMD. En

Almacenamiento

de

espacio tenemos para almacenar

cuanto a Intel es recomendable para nuestros trabajos contar con procesadores i5 o i7, además cada año se crea una nueva generación procesadores,

de mientras

estos más

cerca de la generación actual (12ª) mejor. En AMD es similar en este caso los modelos se llaman Ryzen 5 y 7.

No solo impacta en cuanto

en nuestro dispositivo si no que La unidad de almacenamiento se encarga

de

información

almacenar de

la

datos debemos contar con una unidad de almacenamiento SSD o M2 que son unidades muy rápidas y permiten que nuestro lea

y

escriba

información a la velocidad más alta posible.

un archivo.

nuestra

computadora. Para trabajar con

procesador

tan rápido podemos abrir o crear

En cuanto a capacidad de almacenamiento requieren

y

instalar

no

se

muchas

aplicaciones o se realiza mucho trabajo con aplicaciones en la nube es 256 GB es suficiente, si necesitamos realizar más tareas de manera local 512 GB es lo recomendado.


Memoria RAM La memoria RAM se encuentra entre el procesador

y

la

unidad

de

almacenamiento y se encarga de proveer

una

memoria

temporal

intermedia para no utilizar todo el tiempo a la unidad de almacenamiento para realizar determinadas tareas. A mayor cantidad de RAM más cosas podemos hacer al mismo tiempo. Existen

distintos

estándares

de

memorias RAM que son el DDR3 y DDR4, si puedes optar por este último mejor. En cuanto a capacidad es recomendable tener como mínimo 8GB

de

memoria

RAM,

como

recomendado 16GB y en el mejor de los casos 32GB.

Tarjeta gráfica Es un procesador que se denomina GPU diseñado para videojuegos, pero es muy utilizado en el caso de trabajar

Pantalla

en Inteligencia Artificial, si esta es tu

Este aspecto es muy conocido, existen

área es recomendable contar con una

múltiples tamaños y tipos de pantallas,

tarjeta gráfica de por lo menos 4GB en

pero para trabajar lo mejor es utilizar

adelante, mientras más, mejor.

uno o dos monitores por lo que no

Para trabajar con herramientas como

tiene que ser el aspecto principal que

Excel, Power BI, bases de datos y

busques en tu notebook ya que

similares, no es necesario contar con

utilizaras

este componente.

pulgadas.

un

monitor

de

24-27


Si necesitas lo mejor de lo mejor tienes

Recomendaciones Si estás iniciando, estudiando o quieres comenzar a trabajar en datos te recomendamos que busques

una

notebook con un procesador i5 de 8ª generación o superior (o Ryzen 5), 8 GB de RAM y el almacenamiento que consideres necesario en tu caso. Si ya has comenzado a trabajar y

que ir por un i7 o i9 de última generación, con 32 o 64 GB de RAM y porque no una placa de video con 8 GB de

RAM.

escritorio y no una notebook.

Modelos recomendados •

Asus Vivobook (base e intermedio)

almacenamiento que se ajuste a tus necesidades.

Acer Swift (base e intermedio)

un i7 de 10ª generación o superior (o Ryzen 7), 16 o más GB de RAM y el

esta

configuración es mejor en un pc de

necesitas aumentar tu productividad y matar los tiempos de carga necesitas

Probablemente

Asus Zenbook (intermedio y alto)

Lenovo IdeaPad (base e intermedio)

Lenovo ThinkPad (intermedio y alto)

Dell Inspiron (base e intermedio)

Dell XPS (intermedio y alto)

Macbook Air con chip M1 (si no usas Power BI), (intermedio y alto)


Como Diseñar Entrenamientos Por: Gabriel Gómez

En ocasiones nos encontramos

y esto hace que pierdan el

con

hacer

interés ya sea porque se

de

aburren del contenido que

herramientas, de cuadros de

muestras porque ya lo dominan

mandos o de aplicaciones que

o que no comprendan lo que

hemos estado desarrollando

dices y se pierdan en el intento

durante meses. Esta tarea se

de aprender.

la

tarea

de

demostraciones

torna compleja cuando las personas

que

debemos

entrenar (clientes, estudiantes, usuarios, etc) no comprenden muy bien el uso del producto a mostrar o nosotros no sabemos cómo expresarnos. Puede ser el caso que los receptores del mensaje

tengan

niveles

de

tecnológico

diferentes

conocimiento

En

este

algunos

artículo consejos

ayudaran

a

sesiones

para

ofreceré que

organizar que

te tus tus

entrenamientos sean todo un éxito.

Lo

mejor

es

preparado

hasta

para

estar los

inconvenientes que puedan surgir.


Define objetivos claros:

Esto será de suma importancia

Cuando de aprendizaje se trata,

para

debemos estar claros en cuales

contenido ya que, por ejemplo,

son los objetivos que queremos

si el objetivo es desarrollar las

lograr porque de esto dependerá

capacidades analíticas de un

las

individuo, solo con enseñarle el

estrategias

que

implementaremos.

Objetivos

organizar

el

uso de una herramienta no se

del

entrenamiento: Debemos primero conocer cuál será el objetivo del entrenamiento, es decir, cual es la verdadera razón por la cual entrenaremos a los usuarios.

poder

logrará

el

mismo,

pero

aprender a usar la herramienta puede objetivo.

ayudar

a

alcanzar



Objetivos Generales de

La pregunta que nos hacemos

Seleccionar las actividades

aprendizaje del usuario o

ahora es, ¿Cómo me aseguro

a realizar

de que el estudiante sepa

estudiante

medir

el

impacto

en

los

Teniendo claro el punto previo,

proyectos y como me aseguro

ahora podemos definir qué es

que sepa justificarlo? Aquí se

lo que espero que el estudiante

pone interesante todo, para

sepa de forma general al

ello

finalizar

actividades que nos permitan

el

entrenamiento.

Estos objetivos nos ayudaran a definir objetivos específicos que nos ayuden a alcanzar los generales. Por ejemplo: Si ya sé que deseo desarrollar las capacidades analíticas de un individuo

(objetivo

del

entrenamiento), entonces un objetivo general de aprendizaje sería:

debemos

diseñar

La descripción de los objetivos de aprendizaje lleva algunos aspectos técnicos que no podré ampliar en este artículo pero que involucra la forma como se redacta el verbo, como se compone

el

objetivo,

taxonomía de Bloom que es

que

de aprendizaje entre otros.

positivo en el negocio”.

en grupos. Tomando en cuenta el mismo ejemplo, podríamos dividir el entrenamiento en de

análisis

conocer los tipos de análisis (descriptivo,

diagnostico…),

diseño de proyectos de datos (planificación,

metodologías

ágiles, herramienta de valor ganado, etc).

la

educativa para definir objetivos

impacto

y pueden dividirse el contenido

(Python, R, Tableau, etc. ),

“Justificar proyectos de datos un

a lograr los objetivos generales

herramientas

lograr esto.

muy utilizada en el área tengan

Estas actividades nos ayudaran

Por

cada

tema,

debemos

también definir los objetivos específicos de esa actividad ya que

también

necesitamos

saber lo que lograremos al completar el tema.


Conozca a su público

Defina técnicas didácticas

objetivo

Las personas aprendemos de

Las personas aprendemos a

diferentes formas y es por ello

diferentes ritmos y es por eso

por lo que algunas técnicas

que

a

didácticas se dificultan para

nuestro público objetivo, sobre

algunas personas y para otras

todo, el nivel de conocimiento

será su técnica preferida. Es

que

por

debemos

poseen

conocer

referente

entrenamiento desarrollaremos. podemos

a que

Para

ello,

evaluaciones

que y

hacer

conocer

al

ellos

público objetivo como se indicó

en

en el punto previo, es muy

apoyarnos

pero si funciona). Consiste en entregar un código con errores y que la persona lo corrija, puede tardar unos minutos o hasta años si usted se pone creativo.

Defina tiempos: Luego de que cuente con todas las actividades a realizar es hora de establecer los tiempos que durará cada una de ellas.

evaluaciones del conocimiento

importante.

cortas o quiz en la que

En este punto definimos que

final del entrenamiento porque

podamos

obtener

técnica didáctica usará (taller,

nos quedamos sin tiempo o

retroalimentación del nivel que

mesa redonda, debate (sirve

evitamos dar recesos muy

tiene cada individuo, esto nos

muy bien para sustentar puntos

largos para hacer tiempo.

permitirá incluso ubicarlos en

de

presentación

por ello por lo que debemos

un grupo con personas que

magistral, etc.) en este punto le

hacer la pregunta, ¿Cuánto

tengan el mismo nivel. Así no

recomiendo

las

tiempo tardaré en desarrollar

tenemos que ir tan básicos ni

técnicas didácticas existentes y

el tema analítica descriptiva?

tan

como aplicarlas, en mi caso me

¿haré

gusta mucho utilizar la técnica

didáctica?

del error (no le he visto hasta el

hacen muchas preguntas?

avanzados,

velocidad correcta.

sino

a

la

vista),

Así no andamos corriendo al

investigar

momento en ningún libro de texto,

alguna

Es

actividad

¿los estudiantes


Con

estas

respuestas,

podremos estimar el tiempo que tardará cada actividad y la suma de todas ellas serán las horas

de

entrenamiento.

Siempre es saludable agregar tiempo extra para tener algo de holgura en caso de que no cuente con internet si es una sesión en línea o si se va el suministro eléctrico si es una sesión presencial o que ocurra cualquier incidente.

 

  


RPA Robotic Process Automation Por: Gabriel Gómez

Los tiempos en los que vivimos

En mi opinión, resultaría muy

hacen que nos detengamos a

aburrido tener que dedicar

meditar en lo que realmente es

toda una jornada laboral a

importante no solo a nivel

realizar acciones repetitivas,

corporativo sino también a

creo que el ser humano tiene

nivel personal. Estamos en un

una capacidad grandiosa para

buen momento para aprender

hacer cosas diferentes, para

a usar nuevas herramientas

crear, para innovar y si nuestro

tecnológicas o técnicas para

tiempo lo dedicamos a hacer lo

analizar los datos de forma

mismo,

eficiente e incluso adentrarnos

llegaremos a estancarnos.

en el mundo del aprendizaje

Todo lo previamente dicho

un bot, nosotros tendremos

automático

(Machine

tiene el objetivo de concienciar

más

Learning). En ocasiones, ese

al lector sobre el uso de la

estrategias, o para analizar

tiempo que podemos invertir

tecnología

mercados,

en aprender y ejecutar, lo

beneficios que esta aporta. En

nuevas tecnologías que nos

utilizamos

realizar

este caso, comentaré sobre

permitan

que

automatización de procesos a

soluciones

través

Learning, o para dedicar tiempo

para

trabajos

rutinarios

consumen

gran

nuestra agenda.

parte

de

en

de

algún

y

RPA

punto

todos

pero

Si la carga de trabajo de estos procesos repetitivos las hace

los

no

tiempo

mencionaré herramientas en

a

pensar

específico sino las bondades

nuestras

que la tecnología aporta.

resilientes.

para

para

crear

estudiar

implementar de

cómo

Machine

hacemos

organizaciones


No

solo se

agilizarán

los

tiempos de respuestas sino se eliminarían

posibles

insatisfacciones de parte de los clientes por falta de respuesta de la persona a quien dirigió su correo. Otro ejemplo de aplicación sería tener que registrar a un listado de clientes en un sistema

partiendo

de

información provenientes de archivos pdf que contienen los datos del cliente. el proceso RPA puede escanear el archivo pdf e identificar campos claves tales como nombre, apellido, ID_cliente,

número

de

Se imagina usted trabajar en

Si la carga de trabajo de estos

dependientes, etc. Luego ir a la

una empresa de seguros y que

procesos repetitivos las hace

aplicación

los correos que envíen los

un bot, nosotros tendremos

clientes y llenar todos los

clientes los pueda clasificar de

más

crear

campos requeridos y luego

forma

estrategias, o para analizar

salvar la información. También

peticiones nuevas para las

mercados,

estudiar

se podría configurar la opción

ventas de pólizas de seguro o

nuevas tecnologías que nos

de enviar un correo al cliente

reclamos por parte de un

permitan

implementar

solicitando datos adicionales

cliente y que la aplicación

soluciones

Machine

para luego ser agregados a su

pueda evaluar si la persona está

Learning, o para dedicar tiempo

perfil. Esto eliminaría mucho

de vacaciones pueda redirigir el

a

trabajo que usualmente se

correo a una lista de contactos

nuestras

previamente predeterminada.

resilientes.

automática

entre

tiempo

pensar

para

para

de

cómo

hacemos

organizaciones

de

registros

hace manualmente.

de


¿Qué beneficios aporta RPA?

¿Al momento de seleccionar una herramienta para RPA qué

✓ Mejora

los

tiempos

de

respuesta a solicitudes. ✓ Funciona

perfecto

debemos tomar en cuenta?

con

procesos repetitivos y estables.

Proyectarse siempre es importante, es

✓ Se pueden gestionar alertas en

por ello por lo que hay que sentarse a

procesos atrasados para tomar

meditar como vemos a la empresa en

acciones tempranas.

los

próximos

años

ya

que,

si

aplicaciones

selecciona una herramienta RPA

inteligencia

pensando en su situación actual, es

evalúan

probable que, al futuro cercano, la

diferentes escenarios y toman

misma no cubra la necesidad que

acciones

tendrá el negocio. O, por el contrario,

✓ Algunas incorporan artificial

que

con

base

a

podemos adquirir la herramienta y

probabilidades. ✓ Al reducir tiempo también

serán

reduce costos. ✓ Se

integran

herramientas cubrir

más

negocios.

pagar altas sumas de dinero que no aprovechadas.

Dicho

eso,

múltiples

evalúe qué procesos de negocios

permitiendo

desea usted automatizar y cuando lo

con

procesos

de

hará, así podrá entender su realidad y elegir

la

apropiado.

herramienta

y

plan


La herramienta o los planes deben ser flexibles para que pueda migrar a un nuevo entorno cuando así lo requiera. Que la herramienta sea fácil de utilizar. Si usted tiene una empresa pequeña, tal vez requiera a una sola persona haciendo el trabajo de configuración en lugar de tener a usuarios con roles diferentes, esto también ayuda a que, si los usuarios no son tecnológicos, puedan aprender la herramienta con facilidad. En el caso de ser una empresa mediana o grande, es probable que si le interese tener personal a cargo de diferentes funciones

en

los

procesos

de

una

demostración

automatización. Puede

pedir

gratuita o versiones de prueba que le permitan evaluar la herramienta antes de adquirirla. Estoy seguro de que una vez automatice su primer proceso, va a querer automatizar muchos más.


Gestionando un equipo de datos Por: Pablo Moreno

‘Para llegar a ser un buen

Para convertirse en un buen

Hay una gran necesidad de

capitán, primero debes ser un

administrador de equipo de

científicos de datos en muchas

buen marinero’ Es algo que

datos, primero debe ser un buen

empresas, todos lo sabemos,

siempre escuché de mi abuelo.

científico de datos. Sí, científico

pero he observado que los

La sencillez de la sabiduría

de

tradicional es algo que nosotros,

Proyecto,

como seres humanos, debemos

Administración de Empresas, no

como científicos de datos están

llevar siempre con nosotros en

un

dirigidos

todo

hacemos.

de-hoja-de-cálculo’. Es cierto que

experiencia en ciencia de datos.

Específicamente, la práctica hace

un gerente de personas debe

He conocido Project Managers o

al maestro. Es cierto que para

poseer una gran experiencia en

profesionales

de

llegar a ser Capitán es necesario

el manejo de las expectativas

gestionando

equipos

estudiar mucho tiempo y muchas

humanas,

para

científicos de datos. A veces,

cosas, pero, aunque inviertas

resolver problemas, habilidades

personas con un largo historial

años estudiando no es posible

para la gestión de proyectos,

de ser empleados en cualquier

llegar a ser un buen Capitán si no

entre otros. Algunas de estas

organización que han escalado

se tiene experiencia previa en un

habilidades se pueden aprender,

posiciones en la jerarquía de la

barco. Lo mismo sucede en el

pero la mayoría de ellas se deben

organización, y terminan siendo

mundo de los datos.

experimentar.

propietarios y administradores

lo

que

datos,

no no

Gerente

de

nuevos miembros del equipo

Máster

en

contratados

‘maestro-analista-de-datos-

habilidades

por

recientemente

personas

sin

MBA de

de un equipo de ciencia de datos. Esta es la receta perfecta del fracaso.


Permítanme continuar con más

Muchos gerentes piensan que “al

de experiencia y descubre que su

errores. Sucede que cuando esos

final del día, todo se trata de la

gerente no tiene experiencia en

‘managers sin experiencia’ se

gestión de personas, la gestión

ciencia de datos, generalmente

están preparando para contratar

de recursos y los entregables de

comienza a buscar otro trabajo,

un equipo de científicos de

la línea de tiempo”. Esto agrava

ya que se desalienta muy rápido.

datos, pueden pensar que ir a

aún más la situación.

Esta situación complica aún más

una formación de 40 a 60 horas

En este escenario, cuando se

sobre Big Data es suficiente para

contrata a un científico de datos

entender los conceptos básicos.

con al menos 2 años

el mercado laboral de datos. Todos

conocemos

la

alta

rotación de profesionales de datos.


Aquí hay algunas recomendaciones para administrar con éxito un equipo de datos: 2. Gerente con experiencia real en datos

3. La experiencia primero

1. La diversidad es clave

Parece obvio, pero no lo es. Si no

Si la organización está por

Cuando construya un equipo de

hay ningún científico de datos

comenzar,

gerentes

datos exitoso, no se concentre

experimentado con habilidades

quieren iniciar el equipo con

solo en traer científicos de datos,

de gestión de personas y gestión

analistas de datos / científicos de

asegúrese de que se involucren

de

datos

a

múltiples roles especializados en

alguien del departamento de TI o

restricciones presupuestarias-. Si

múltiples campos -ya sea nuevas

con experiencia en Gestión de

está a punto de comenzar, traiga

contrataciones o combinados

bases de datos / Arquitectura de

primero a un científico de datos

con los recursos existentes de la

bases de datos. Esas personas

experimentado

organización-,

entienden varias cosas cruciales:

allanar el terreno y comprender

administración

I) cómo trabajar con grandes

lo que se debe hacer de la

datos, inteligencia de negocios,

cantidades de datos (no a nivel

manera en que se debe hacer.

ingeniería de datos, aprendizaje

de Excel); ii) administrar datos

Más tarde puedes traer juniors

automático, etc. Además, cuanto

desordenados; iii) gestionar el

para

más diversos sean los miembros

acceso a los datos; iv) trabajar

principales y ganar experiencia.

proyectos,

identifique

a

con lenguajes de programación; v) infraestructura digital; entre muchas otras cosas críticas.

muchos

junior

apoyar

-debido

que

los

pueda

proyectos

del

equipo,

como de

mejor

resultado global.

bases

será

de

el


4. Olvídese de ‘waterfall’, adopte la metodología ágil

Desafortunadamente, este es

Los proyectos de datos están

uno de los mayores problemas

menos

que detecto en muchos equipos

ejecución y pueden moverse en

y

quieren

cualquier dirección con mucha

establecer cronogramas e hitos

facilidad. Tenga en cuenta un

específicos,

objetivo global y asegúrese de

gerentes:

todos

ya

que

muchos

gerentes

han

seguido

este

método

históricamente.

Los

proyectos de datos no son tan simples y no son fáciles de dividir en ámbitos muy específicos con subproyectos y subtareas que siguen

un

cronograma

muy

estricto para entregar algo muy específico.

estructurados

en

su

que haya flexibilidad para ofrecer una solución. Recuerde que ‘metodologia ágil’ no es hacer las cosas rápidas, sino conseguir micro-objetivos en cualquier dirección.


Seguridad de los datos análisis de datos Por: Gabriel Gómez

Cuando hablamos de tableros de control o dashboards, la mayor parte del tiempo nos enfocamos en temas importantes tales como transformación de los datos, técnicas de data story telling, como mejorar los desempeños de los modelos de datos o como combinar herramientas de análisis de datos como Power BI con otras herramientas para hacer cosas maravillosas como crear soluciones de Machine learning.

1

Son pocas las veces en las que se habla acerca de las medidas de seguridad que se deben implementar para que esos dashboards puedan utilizarse de forma segura y cómo podemos minimizar los riesgos asociados a robos de información.

A continuación, ofrezco algunas recomendaciones que espero sean de utilidad. Las desarrollaré en forma de preguntas para que podamos medir si estamos siguiendo estas recomendaciones, pero de no ser así, tenemos la oportunidad de considerarlas para colaborar en las iniciativas de seguridad de los datos.

De qué forma se educa a los usuarios sobre temas relacionados a la seguridad de los datos

Los hackers buscan identificar debilidades en las estrategias de seguridad de las empresas para ingresar a sus sistemas. En muchas ocasiones, la debilidad se encuentra en los individuos que, por falta de conocimiento, les abren las puertas a los delincuentes ya sea instalando aplicaciones que contienen virus, ingresando a sitios web no seguros o siendo víctimas de physhing o sus variantes.

Se hace necesario entonces tener planes que eduquen a nuestros usuarios sobre la importancia de mantener los datos seguros, cuáles son los posibles tipos de ataques a los que se pueden enfrentar y a que riesgos se enfrentan en caso de que los hackers cumplan su objetivo. Se pueden diseñar entrenamientos anuales en donde se hable de la seguridad de los datos en general y que perfiles tiene los correos fraudulentos, como identificar un sitio web no confiable y toda información importante que sus colaboradores deban saber.


en entornos de Por: Gabriel Gómez


2

3

¿Cuentan con políticas para definir niveles de acceso a los tableros de control? (dashboards)

¿Quiénes tienen acceso a las fuentes de datos y que tipo de permisos tienen?

Uno de los puntos importantes que debemos

Un tema son los usuarios que tienen acceso a

tratar es definir quienes tendrán acceso a qué

los dashboards y otro es quienes tienen acceso

tablero de control (dashboard). Un tablero de

a las fuentes de datos para diseño. ¿Realmente

control de diseña para alcanzar objetivos en

sabemos nosotros todas las personas que

específicos, por ejemplo, si se requiere

tienen acceso a las diferentes fuentes de datos

monitorear

nuestros

en la organización? Esto es importante ya que

vendedores y necesitamos niveles de detalles

como validamos que las personas correctas

sobre los días en que se vendió, así como sus

tengan acceso a las fuentes de datos correctas.

respectivos montos y nombre de clientes,

En una ocasión fui testigo como usuarios no

entonces es probable que necesitemos dar

autorizados se conectaban directamente a la

acceso tanto a los vendedores como a sus

base de datos de producción del CRM de la

gerentes. Sin embargo, si diseñamos un tablero

organización en donde laboraba (no a cubos de

de control que contenga información de ventas,

datos ni vistas). Resulta que dichos usuarios

compras, e incluso información de centro de

reportaron que la base de datos estaba

costos tales como los gastos y los salarios de los

fallando, y al validar esta situación con el

empleados, vamos a querer limitar este

departamento de TI nos percatamos que esas

dashboard a personas en específico tales como

personas no debían tener acceso, pero ¿Cómo

directores de departamentos o miembros de un

ocurrió esto? Pues al parecer, una persona que

equipo ejecutivo.

había renunciado hace años a esa empresa les

el

desempeño

de

Debemos definir de qué manera pensamos controlar los accesos y de qué manera vamos a darle mantenimiento a este proceso.

había dado acceso, pero el departamento de TI nunca se percató. Aquí hubo falta de controles. Entonces, es siempre importante validar el acceso a nuestras fuentes de datos.


4

¿Están los datos utilizados en fuentes que pueden ser respaldadas (disponibilidad de los datos)

En ocasiones, los tableros de control son

Es por ello por lo que es imprescindible contar

conectados a fuentes de datos tales como

con las fuentes de datos en medios tales como

archivos excel o texto que residen en los

bases de datos que les ofrezcan mayor

computadores personales de quienes los

seguridad. Esto también ayudará a que se hagan

desarrollan. Pero, que pasa si la persona deja

los respaldos correspondientes para alinear

de laborar en la empresa o deciden prescindir

estos procesos a los planes de continuidad del

de sus servicios o si le llegan a robar el

negocio.

computador.

Ocurriría una violación a la

seguridad de los datos provocando la no disponibilidad de estos en los tableros de control y, por lo tanto, afectaría la toma de decisión.


5

¿Utilizan técnicas de modelado de datos eficientes? (accesibilidad, se busca que la carga de datos sea rápida y no tome tanto tiempo haciendo que los dashboards sean inutilizables) El

objetivo

de

muchos

ataques

informáticos es evitar que los usuarios tengan acceso a los datos. Si creamos modelos eficientes

tan

complejos

podemos

y

poco

afectar

esta

disponibilidad de los datos y es como si nosotros

mismos

nos

auto

hackeáramos. Es por ello por lo que es fundamental aplicar buenas técnicas de modelados de datos. Cargar solo lo necesario, utilizar el schema y las relaciones de tablas apropiadas, etc.

6

¿cuentan con planes de actualizaciones de servidores? (para evitar actualizar servidores de último momento y que se tengan que migrar los datos a nuevos ambientes, teniendo datos desactualizados por mucho tiempo) La migración a nuevas plataformas debe

plataforma antes de deshabilitar la anterior,

ser planificadas de modo tal que sea lo más

tendrá

transparente posible para los usuarios.

reportándole no disponibilidad de los recursos.

Suponga que usted tiene todos sus análisis

Esto mismo puede ocurrir si se migra de un

y los tableros de control en una plataforma

sistema manejador de bases de datos a otro

(Power BI, Tableau, OBIEE, etc.) y que por

(SQL,

temas de costos o seguridad decida migrar

Diferentes. Entre más grande la empresa, más

a otra plataforma.

departamentos pueden estar involucrados y

Si no logra ofrecer a sus clientes (usuarios finales) los tableros de control en la nueva

mucha

ORACLE,

gente

contactándole

MongoDB,

etc.)

más compleja puede ser la migración.

o

y

CRM


La seguridad de los datos no solo está relacionada con evitar que un hacker robe información o interrumpa el funcionamiento habitual de la operación del negocio. También, se debe considerar como nosotros como analistas de datos evitamos convertirnos en hackers sin darnos cuenta.

7

¿Tienen los procesos documentados? Si la persona que maneja los tableros de

ciertos filtros en los procesos de transformación

control deja de laborar en la empresa,

de datos o se desconoce los orígenes de datos

¿Podría usted seguir dando soporte?

para poder solicitar nueva información o

¿Cuánto tiempo le tardaría entender lo

reportar un problema existente. Es por ello por

que la otra persona desarrollo? En muchas

lo que documentar todos los procesos, contar

ocasiones, ser el nuevo propietario de

con diccionarios de datos, crear documentos de

trabajo desarrollado por alguien más se

levantamientos

convierte en un dolor de cabeza porque no

importante. Esta es una buena práctica que la

se conoce las razones por las que se

recomiendo para que los datos se mantengan

crearon las medidas o por las que se

disponibles.

aplicaron

de

requerimientos,

es


101101010000101011101001001001010 101010101010101100100010101011100 110100011100101010100111101110001 100100101

Xtra-Byte

10010010101010101010101 01100100010101011100110 10001110010101010011110 11100001 100100101 110100100100101010101010101010110 010001010101110011010001110010101 010011110111000100101010101110111

Análisis de Sentimiento

10010010101010101010101 Supervisando modelos de Machine 01100100010101011100110 100100101 100100101 Learning 10001110010101010011110 01101010000101011101001001001010 110100100100101010101010101010110 11100001 010001010101110011010001110010101 01010101010101100100010101011100

10100011100101010100111101110001 010011110111000100101010101110111

Aprendizaje Automático

Metodologías ágiles para proyectos de datos Administración de Tableros de control (Usuarios, Fuentes de datos)

Educando a los miembros del equipo en temas de seguridad de los datos

Errores frecuentes en la creación de Modelos de datos


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.