Extra Byte Junio 2022 Conozca como leer archivos tipo PDF que contienen un formato variado utilizando las herramientas Power BI y R
Ofreceremos algunas recomendaciones que le serán útil si necesita prepara un entrenamiento. ¿Sabe usted que es RPA y que beneficios aporta?
Se ha preguntado, ¿Qué tipo de computador necesita para trabajar en el área de análisis de datos?
La gestión de equipos de datos es una labor que no hay que tomarse a la ligera, la experiencia es un factor clave…
Seguridad de los datos, cuidándonos de nosotros mismos.
Extra-Byte Edición: Gabriel Gómez Co-Edición: Pablo Moreno
Prologo Sabemos que los datos por si solos no representan mucho, son una combinación de letras que pueden describir un nombre, edad, nacionalidad pero que cuando se combinan generan información tan poderosa que resulta difícil controlarla. Es cuando se decide crear estrategias para mantener estos datos seguros, saber como presentarlos de forma tal que generen sabiduría, como gobernarlos, administrarlos, como capturarlos, a donde publicarlos, como almacenarlos, etc.
En esta versión de la revista Extra-Byte, presentamos artículos que son parte de nuestra vivencia, de escenarios que nos ha tocado resolver, o preguntas que hemos tenido que responder. Cubrimos áreas técnicas como la lectura de archivos tipo PDF o requerimientos de hardware para profesionales de los datos. También tratamos temas relacionados a los entrenamientos ya que en muchas ocasiones nos toca diseñar espacios de aprendizajes, pero desconocemos como empezar. De igual manera, hablamos sobre la gestión de equipos de datos y ofrecemos recomendaciones muy valiosas para administrarlos de forma eficiente. Esperamos que el contenido desarrollado sea de su agrado.
Atentamente,
Los Editores.
Muro Social Si deseas ser parte de nuestra comunidad de datos, te invitamos a que te unas en el siguiente canal:
Grupo de Usuarios de Power BI de Panamá https://www.meetup.com/power-bi-panama-user-group/
Beneficios: ✓ Entremientos gratuitos o Power BI, Excel, Análisis de datos
✓ Presentación de temas de interés o o o o o o
Modelado de Datos. DataStoryTelling Inteligencia de Negocios. Machine Learning. Power Platform. Otros.
Eventos Pasados
Leyendo archivos PDF con R Por: Gabriel Gómez
Probablemente en más de una
En esta ocasión mostraré como
ocasión usted ha tenido la
extraer datos de un archivo .pdf
necesidad de acceder a los datos
que contiene la cantidad de
que están en un archivo .PDF,
personas
provenientes
de
estos
diferentes
países
de
Latinoamérica
que
pueden
estadísticos
de
ser
cuadros población,
visitaron
ventas, estadísticas sociales que
Panamá durante los años 2020 y
nos
2021. Fuente: INEC.
permitan
identificar
oportunidades o amenazas y de esta manera diseñar mejores estrategias de posicionamiento en el mercado.
Paso # 1 Lo primero que haremos es cargar los datos en Power BI utilizando el Script de R. Para ello,
asegúrese
de
haber
instalado las librerías pdftools y tidyverse (puede hacerlo desde R Studio). Cargue el archivo .pdf y
Para realizar esta lectura se
asígnelo a una variable. En mi
utilizó la versión de R 4.1.0.
caso utilicé “Visitantes”.
En Power BI
Paso # 2 Limpie los datos de la consulta resultante. Este procedimiento variará dependiendo del archivo que esté leyendo en mi caso seguí los siguientes pasos:
El resultado de haber aplicado los pasos de limpieza será una columna con los países y sus respectivas estadísticas.
Paso # 3 Agregamos un Scrip de R e incluimos el siguiente código: Primero le damos formato a
Si intenta replicar el ejemplo se
lectura, no siempre aplica para
la columna que contiene los
dará cuenta que los archivos .pdf
todo y es ahí en donde debe
datos y luego procedemos a
no siempre tienen el mismo
decidir si separa la consulta en 2
asignar los valores a cada
formato y aunque una de las
partes y luego las vuelve a unir
nueva columna utilizando
formas más sencillas es indicar
utilizando anexar consultas.
coordenadas.
en el código las coordenadas de
Luego se limpian los espacios en
blanco
que
estén
alrededor de los valores y finalmente se convierte la variable dataframe
dataset
en
para
mostrar los resultados.
un
poder
Paso # 4 Aplique nuevamente acciones de limpiezas como, por ejemplo, eliminar comillas, espacios en blanco, etc. Hasta que los datos en cada columna estén listos para ser utilizados.
En este punto solo nos quedaría una transformación pendiente y es cambiar los tipos de datos de texto a numérico en donde aplique.
Computadores para Análisis de Datos Por: Luca Piatelli
Desde el inicio de los tiempos
¿Sabes qué capacidad debe
El procesador está compuesto
como
utilizamos
tener un computador si deseas
por núcleos, que básicamente
herramientas para facilitar las
utilizarlo para análisis de datos?.
son
tareas que necesitamos realizar,
En este artículo veremos que es
cada uno puede realizar una
desde cazar, cocinar, construir y
cada
una
tarea distinta al mismo tiempo.
trabajar. A día de hoy, todos
recomendación
de
Luego están los hilos los cuales se
sabemos
computadoras para trabajar en
encargan
el área.
trabajo y dividen el trabajo en
humanos
que
la
principal
herramienta en el ámbito laboral es
la
computadora.
Este
dispositivo nos permite realizar
componente
y
subprocesadores
de
donde
administrar
el
partes para realizarlas de una
Procesador
manera
más
rápida.
múltiples tareas y sobre todo lo
Podemos decir que es el cerebro
Generalmente cada núcleo tiene
que nos interesa jug… perdón,
de
dos hilos.
trabajar con datos.
encarga de resolver cálculos y
nuestro
ordenador,
se
cumplir instrucciones, toda tarea que realicemos debe pasar por el procesador (CPU).
Lo que debemos buscar aquí para trabajar con datos es tener la mayor cantidad de núcleos e hilos posibles.
Las marcas principales en este
Unidad
componente son Intel y AMD. En
Almacenamiento
de
espacio tenemos para almacenar
cuanto a Intel es recomendable para nuestros trabajos contar con procesadores i5 o i7, además cada año se crea una nueva generación procesadores,
de mientras
estos más
cerca de la generación actual (12ª) mejor. En AMD es similar en este caso los modelos se llaman Ryzen 5 y 7.
No solo impacta en cuanto
en nuestro dispositivo si no que La unidad de almacenamiento se encarga
de
información
almacenar de
la
datos debemos contar con una unidad de almacenamiento SSD o M2 que son unidades muy rápidas y permiten que nuestro lea
y
escriba
información a la velocidad más alta posible.
un archivo.
nuestra
computadora. Para trabajar con
procesador
tan rápido podemos abrir o crear
En cuanto a capacidad de almacenamiento requieren
y
instalar
no
se
muchas
aplicaciones o se realiza mucho trabajo con aplicaciones en la nube es 256 GB es suficiente, si necesitamos realizar más tareas de manera local 512 GB es lo recomendado.
Memoria RAM La memoria RAM se encuentra entre el procesador
y
la
unidad
de
almacenamiento y se encarga de proveer
una
memoria
temporal
intermedia para no utilizar todo el tiempo a la unidad de almacenamiento para realizar determinadas tareas. A mayor cantidad de RAM más cosas podemos hacer al mismo tiempo. Existen
distintos
estándares
de
memorias RAM que son el DDR3 y DDR4, si puedes optar por este último mejor. En cuanto a capacidad es recomendable tener como mínimo 8GB
de
memoria
RAM,
como
recomendado 16GB y en el mejor de los casos 32GB.
Tarjeta gráfica Es un procesador que se denomina GPU diseñado para videojuegos, pero es muy utilizado en el caso de trabajar
Pantalla
en Inteligencia Artificial, si esta es tu
Este aspecto es muy conocido, existen
área es recomendable contar con una
múltiples tamaños y tipos de pantallas,
tarjeta gráfica de por lo menos 4GB en
pero para trabajar lo mejor es utilizar
adelante, mientras más, mejor.
uno o dos monitores por lo que no
Para trabajar con herramientas como
tiene que ser el aspecto principal que
Excel, Power BI, bases de datos y
busques en tu notebook ya que
similares, no es necesario contar con
utilizaras
este componente.
pulgadas.
un
monitor
de
24-27
Si necesitas lo mejor de lo mejor tienes
Recomendaciones Si estás iniciando, estudiando o quieres comenzar a trabajar en datos te recomendamos que busques
una
notebook con un procesador i5 de 8ª generación o superior (o Ryzen 5), 8 GB de RAM y el almacenamiento que consideres necesario en tu caso. Si ya has comenzado a trabajar y
que ir por un i7 o i9 de última generación, con 32 o 64 GB de RAM y porque no una placa de video con 8 GB de
RAM.
escritorio y no una notebook.
Modelos recomendados •
•
Asus Vivobook (base e intermedio)
•
almacenamiento que se ajuste a tus necesidades.
Acer Swift (base e intermedio)
un i7 de 10ª generación o superior (o Ryzen 7), 16 o más GB de RAM y el
esta
configuración es mejor en un pc de
necesitas aumentar tu productividad y matar los tiempos de carga necesitas
Probablemente
Asus Zenbook (intermedio y alto)
•
Lenovo IdeaPad (base e intermedio)
•
Lenovo ThinkPad (intermedio y alto)
•
Dell Inspiron (base e intermedio)
•
Dell XPS (intermedio y alto)
•
Macbook Air con chip M1 (si no usas Power BI), (intermedio y alto)
Como Diseñar Entrenamientos Por: Gabriel Gómez
En ocasiones nos encontramos
y esto hace que pierdan el
con
hacer
interés ya sea porque se
de
aburren del contenido que
herramientas, de cuadros de
muestras porque ya lo dominan
mandos o de aplicaciones que
o que no comprendan lo que
hemos estado desarrollando
dices y se pierdan en el intento
durante meses. Esta tarea se
de aprender.
la
tarea
de
demostraciones
torna compleja cuando las personas
que
debemos
entrenar (clientes, estudiantes, usuarios, etc) no comprenden muy bien el uso del producto a mostrar o nosotros no sabemos cómo expresarnos. Puede ser el caso que los receptores del mensaje
tengan
niveles
de
tecnológico
diferentes
conocimiento
En
este
algunos
artículo consejos
ayudaran
a
sesiones
para
ofreceré que
organizar que
te tus tus
entrenamientos sean todo un éxito.
Lo
mejor
es
preparado
hasta
para
estar los
inconvenientes que puedan surgir.
Define objetivos claros:
Esto será de suma importancia
Cuando de aprendizaje se trata,
para
debemos estar claros en cuales
contenido ya que, por ejemplo,
son los objetivos que queremos
si el objetivo es desarrollar las
lograr porque de esto dependerá
capacidades analíticas de un
las
individuo, solo con enseñarle el
estrategias
que
implementaremos.
Objetivos
organizar
el
uso de una herramienta no se
del
entrenamiento: Debemos primero conocer cuál será el objetivo del entrenamiento, es decir, cual es la verdadera razón por la cual entrenaremos a los usuarios.
poder
logrará
el
mismo,
pero
aprender a usar la herramienta puede objetivo.
ayudar
a
alcanzar
Objetivos Generales de
La pregunta que nos hacemos
Seleccionar las actividades
aprendizaje del usuario o
ahora es, ¿Cómo me aseguro
a realizar
de que el estudiante sepa
estudiante
medir
el
impacto
en
los
Teniendo claro el punto previo,
proyectos y como me aseguro
ahora podemos definir qué es
que sepa justificarlo? Aquí se
lo que espero que el estudiante
pone interesante todo, para
sepa de forma general al
ello
finalizar
actividades que nos permitan
el
entrenamiento.
Estos objetivos nos ayudaran a definir objetivos específicos que nos ayuden a alcanzar los generales. Por ejemplo: Si ya sé que deseo desarrollar las capacidades analíticas de un individuo
(objetivo
del
entrenamiento), entonces un objetivo general de aprendizaje sería:
debemos
diseñar
La descripción de los objetivos de aprendizaje lleva algunos aspectos técnicos que no podré ampliar en este artículo pero que involucra la forma como se redacta el verbo, como se compone
el
objetivo,
taxonomía de Bloom que es
que
de aprendizaje entre otros.
positivo en el negocio”.
en grupos. Tomando en cuenta el mismo ejemplo, podríamos dividir el entrenamiento en de
análisis
conocer los tipos de análisis (descriptivo,
diagnostico…),
diseño de proyectos de datos (planificación,
metodologías
ágiles, herramienta de valor ganado, etc).
la
educativa para definir objetivos
impacto
y pueden dividirse el contenido
(Python, R, Tableau, etc. ),
“Justificar proyectos de datos un
a lograr los objetivos generales
herramientas
lograr esto.
muy utilizada en el área tengan
Estas actividades nos ayudaran
Por
cada
tema,
debemos
también definir los objetivos específicos de esa actividad ya que
también
necesitamos
saber lo que lograremos al completar el tema.
Conozca a su público
Defina técnicas didácticas
objetivo
Las personas aprendemos de
Las personas aprendemos a
diferentes formas y es por ello
diferentes ritmos y es por eso
por lo que algunas técnicas
que
a
didácticas se dificultan para
nuestro público objetivo, sobre
algunas personas y para otras
todo, el nivel de conocimiento
será su técnica preferida. Es
que
por
debemos
poseen
conocer
referente
entrenamiento desarrollaremos. podemos
a que
Para
ello,
evaluaciones
que y
hacer
conocer
al
ellos
público objetivo como se indicó
en
en el punto previo, es muy
apoyarnos
pero si funciona). Consiste en entregar un código con errores y que la persona lo corrija, puede tardar unos minutos o hasta años si usted se pone creativo.
Defina tiempos: Luego de que cuente con todas las actividades a realizar es hora de establecer los tiempos que durará cada una de ellas.
evaluaciones del conocimiento
importante.
cortas o quiz en la que
En este punto definimos que
final del entrenamiento porque
podamos
obtener
técnica didáctica usará (taller,
nos quedamos sin tiempo o
retroalimentación del nivel que
mesa redonda, debate (sirve
evitamos dar recesos muy
tiene cada individuo, esto nos
muy bien para sustentar puntos
largos para hacer tiempo.
permitirá incluso ubicarlos en
de
presentación
por ello por lo que debemos
un grupo con personas que
magistral, etc.) en este punto le
hacer la pregunta, ¿Cuánto
tengan el mismo nivel. Así no
recomiendo
las
tiempo tardaré en desarrollar
tenemos que ir tan básicos ni
técnicas didácticas existentes y
el tema analítica descriptiva?
tan
como aplicarlas, en mi caso me
¿haré
gusta mucho utilizar la técnica
didáctica?
del error (no le he visto hasta el
hacen muchas preguntas?
avanzados,
velocidad correcta.
sino
a
la
vista),
Así no andamos corriendo al
investigar
momento en ningún libro de texto,
alguna
Es
actividad
¿los estudiantes
Con
estas
respuestas,
podremos estimar el tiempo que tardará cada actividad y la suma de todas ellas serán las horas
de
entrenamiento.
Siempre es saludable agregar tiempo extra para tener algo de holgura en caso de que no cuente con internet si es una sesión en línea o si se va el suministro eléctrico si es una sesión presencial o que ocurra cualquier incidente.
RPA Robotic Process Automation Por: Gabriel Gómez
Los tiempos en los que vivimos
En mi opinión, resultaría muy
hacen que nos detengamos a
aburrido tener que dedicar
meditar en lo que realmente es
toda una jornada laboral a
importante no solo a nivel
realizar acciones repetitivas,
corporativo sino también a
creo que el ser humano tiene
nivel personal. Estamos en un
una capacidad grandiosa para
buen momento para aprender
hacer cosas diferentes, para
a usar nuevas herramientas
crear, para innovar y si nuestro
tecnológicas o técnicas para
tiempo lo dedicamos a hacer lo
analizar los datos de forma
mismo,
eficiente e incluso adentrarnos
llegaremos a estancarnos.
en el mundo del aprendizaje
Todo lo previamente dicho
un bot, nosotros tendremos
automático
(Machine
tiene el objetivo de concienciar
más
Learning). En ocasiones, ese
al lector sobre el uso de la
estrategias, o para analizar
tiempo que podemos invertir
tecnología
mercados,
en aprender y ejecutar, lo
beneficios que esta aporta. En
nuevas tecnologías que nos
utilizamos
realizar
este caso, comentaré sobre
permitan
que
automatización de procesos a
soluciones
través
Learning, o para dedicar tiempo
para
trabajos
rutinarios
consumen
gran
nuestra agenda.
parte
de
en
de
algún
y
RPA
punto
todos
pero
Si la carga de trabajo de estos procesos repetitivos las hace
los
no
tiempo
mencionaré herramientas en
a
pensar
específico sino las bondades
nuestras
que la tecnología aporta.
resilientes.
para
para
crear
estudiar
implementar de
cómo
Machine
hacemos
organizaciones
No
solo se
agilizarán
los
tiempos de respuestas sino se eliminarían
posibles
insatisfacciones de parte de los clientes por falta de respuesta de la persona a quien dirigió su correo. Otro ejemplo de aplicación sería tener que registrar a un listado de clientes en un sistema
partiendo
de
información provenientes de archivos pdf que contienen los datos del cliente. el proceso RPA puede escanear el archivo pdf e identificar campos claves tales como nombre, apellido, ID_cliente,
número
de
Se imagina usted trabajar en
Si la carga de trabajo de estos
dependientes, etc. Luego ir a la
una empresa de seguros y que
procesos repetitivos las hace
aplicación
los correos que envíen los
un bot, nosotros tendremos
clientes y llenar todos los
clientes los pueda clasificar de
más
crear
campos requeridos y luego
forma
estrategias, o para analizar
salvar la información. También
peticiones nuevas para las
mercados,
estudiar
se podría configurar la opción
ventas de pólizas de seguro o
nuevas tecnologías que nos
de enviar un correo al cliente
reclamos por parte de un
permitan
implementar
solicitando datos adicionales
cliente y que la aplicación
soluciones
Machine
para luego ser agregados a su
pueda evaluar si la persona está
Learning, o para dedicar tiempo
perfil. Esto eliminaría mucho
de vacaciones pueda redirigir el
a
trabajo que usualmente se
correo a una lista de contactos
nuestras
previamente predeterminada.
resilientes.
automática
entre
tiempo
pensar
para
para
de
cómo
hacemos
organizaciones
de
registros
hace manualmente.
de
¿Qué beneficios aporta RPA?
¿Al momento de seleccionar una herramienta para RPA qué
✓ Mejora
los
tiempos
de
respuesta a solicitudes. ✓ Funciona
perfecto
debemos tomar en cuenta?
con
procesos repetitivos y estables.
Proyectarse siempre es importante, es
✓ Se pueden gestionar alertas en
por ello por lo que hay que sentarse a
procesos atrasados para tomar
meditar como vemos a la empresa en
acciones tempranas.
los
próximos
años
ya
que,
si
aplicaciones
selecciona una herramienta RPA
inteligencia
pensando en su situación actual, es
evalúan
probable que, al futuro cercano, la
diferentes escenarios y toman
misma no cubra la necesidad que
acciones
tendrá el negocio. O, por el contrario,
✓ Algunas incorporan artificial
que
con
base
a
podemos adquirir la herramienta y
probabilidades. ✓ Al reducir tiempo también
serán
reduce costos. ✓ Se
integran
herramientas cubrir
más
negocios.
pagar altas sumas de dinero que no aprovechadas.
Dicho
eso,
múltiples
evalúe qué procesos de negocios
permitiendo
desea usted automatizar y cuando lo
con
procesos
de
hará, así podrá entender su realidad y elegir
la
apropiado.
herramienta
y
plan
La herramienta o los planes deben ser flexibles para que pueda migrar a un nuevo entorno cuando así lo requiera. Que la herramienta sea fácil de utilizar. Si usted tiene una empresa pequeña, tal vez requiera a una sola persona haciendo el trabajo de configuración en lugar de tener a usuarios con roles diferentes, esto también ayuda a que, si los usuarios no son tecnológicos, puedan aprender la herramienta con facilidad. En el caso de ser una empresa mediana o grande, es probable que si le interese tener personal a cargo de diferentes funciones
en
los
procesos
de
una
demostración
automatización. Puede
pedir
gratuita o versiones de prueba que le permitan evaluar la herramienta antes de adquirirla. Estoy seguro de que una vez automatice su primer proceso, va a querer automatizar muchos más.
Gestionando un equipo de datos Por: Pablo Moreno
‘Para llegar a ser un buen
Para convertirse en un buen
Hay una gran necesidad de
capitán, primero debes ser un
administrador de equipo de
científicos de datos en muchas
buen marinero’ Es algo que
datos, primero debe ser un buen
empresas, todos lo sabemos,
siempre escuché de mi abuelo.
científico de datos. Sí, científico
pero he observado que los
La sencillez de la sabiduría
de
tradicional es algo que nosotros,
Proyecto,
como seres humanos, debemos
Administración de Empresas, no
como científicos de datos están
llevar siempre con nosotros en
un
dirigidos
todo
hacemos.
de-hoja-de-cálculo’. Es cierto que
experiencia en ciencia de datos.
Específicamente, la práctica hace
un gerente de personas debe
He conocido Project Managers o
al maestro. Es cierto que para
poseer una gran experiencia en
profesionales
de
llegar a ser Capitán es necesario
el manejo de las expectativas
gestionando
equipos
estudiar mucho tiempo y muchas
humanas,
para
científicos de datos. A veces,
cosas, pero, aunque inviertas
resolver problemas, habilidades
personas con un largo historial
años estudiando no es posible
para la gestión de proyectos,
de ser empleados en cualquier
llegar a ser un buen Capitán si no
entre otros. Algunas de estas
organización que han escalado
se tiene experiencia previa en un
habilidades se pueden aprender,
posiciones en la jerarquía de la
barco. Lo mismo sucede en el
pero la mayoría de ellas se deben
organización, y terminan siendo
mundo de los datos.
experimentar.
propietarios y administradores
lo
que
datos,
no no
Gerente
de
nuevos miembros del equipo
Máster
en
contratados
‘maestro-analista-de-datos-
habilidades
por
recientemente
personas
sin
MBA de
de un equipo de ciencia de datos. Esta es la receta perfecta del fracaso.
Permítanme continuar con más
Muchos gerentes piensan que “al
de experiencia y descubre que su
errores. Sucede que cuando esos
final del día, todo se trata de la
gerente no tiene experiencia en
‘managers sin experiencia’ se
gestión de personas, la gestión
ciencia de datos, generalmente
están preparando para contratar
de recursos y los entregables de
comienza a buscar otro trabajo,
un equipo de científicos de
la línea de tiempo”. Esto agrava
ya que se desalienta muy rápido.
datos, pueden pensar que ir a
aún más la situación.
Esta situación complica aún más
una formación de 40 a 60 horas
En este escenario, cuando se
sobre Big Data es suficiente para
contrata a un científico de datos
entender los conceptos básicos.
con al menos 2 años
el mercado laboral de datos. Todos
conocemos
la
alta
rotación de profesionales de datos.
Aquí hay algunas recomendaciones para administrar con éxito un equipo de datos: 2. Gerente con experiencia real en datos
3. La experiencia primero
1. La diversidad es clave
Parece obvio, pero no lo es. Si no
Si la organización está por
Cuando construya un equipo de
hay ningún científico de datos
comenzar,
gerentes
datos exitoso, no se concentre
experimentado con habilidades
quieren iniciar el equipo con
solo en traer científicos de datos,
de gestión de personas y gestión
analistas de datos / científicos de
asegúrese de que se involucren
de
datos
a
múltiples roles especializados en
alguien del departamento de TI o
restricciones presupuestarias-. Si
múltiples campos -ya sea nuevas
con experiencia en Gestión de
está a punto de comenzar, traiga
contrataciones o combinados
bases de datos / Arquitectura de
primero a un científico de datos
con los recursos existentes de la
bases de datos. Esas personas
experimentado
organización-,
entienden varias cosas cruciales:
allanar el terreno y comprender
administración
I) cómo trabajar con grandes
lo que se debe hacer de la
datos, inteligencia de negocios,
cantidades de datos (no a nivel
manera en que se debe hacer.
ingeniería de datos, aprendizaje
de Excel); ii) administrar datos
Más tarde puedes traer juniors
automático, etc. Además, cuanto
desordenados; iii) gestionar el
para
más diversos sean los miembros
acceso a los datos; iv) trabajar
principales y ganar experiencia.
proyectos,
identifique
a
con lenguajes de programación; v) infraestructura digital; entre muchas otras cosas críticas.
muchos
junior
apoyar
-debido
que
los
pueda
proyectos
del
equipo,
como de
mejor
resultado global.
bases
será
de
el
4. Olvídese de ‘waterfall’, adopte la metodología ágil
Desafortunadamente, este es
Los proyectos de datos están
uno de los mayores problemas
menos
que detecto en muchos equipos
ejecución y pueden moverse en
y
quieren
cualquier dirección con mucha
establecer cronogramas e hitos
facilidad. Tenga en cuenta un
específicos,
objetivo global y asegúrese de
gerentes:
todos
ya
que
muchos
gerentes
han
seguido
este
método
históricamente.
Los
proyectos de datos no son tan simples y no son fáciles de dividir en ámbitos muy específicos con subproyectos y subtareas que siguen
un
cronograma
muy
estricto para entregar algo muy específico.
estructurados
en
su
que haya flexibilidad para ofrecer una solución. Recuerde que ‘metodologia ágil’ no es hacer las cosas rápidas, sino conseguir micro-objetivos en cualquier dirección.
Seguridad de los datos análisis de datos Por: Gabriel Gómez
Cuando hablamos de tableros de control o dashboards, la mayor parte del tiempo nos enfocamos en temas importantes tales como transformación de los datos, técnicas de data story telling, como mejorar los desempeños de los modelos de datos o como combinar herramientas de análisis de datos como Power BI con otras herramientas para hacer cosas maravillosas como crear soluciones de Machine learning.
1
Son pocas las veces en las que se habla acerca de las medidas de seguridad que se deben implementar para que esos dashboards puedan utilizarse de forma segura y cómo podemos minimizar los riesgos asociados a robos de información.
A continuación, ofrezco algunas recomendaciones que espero sean de utilidad. Las desarrollaré en forma de preguntas para que podamos medir si estamos siguiendo estas recomendaciones, pero de no ser así, tenemos la oportunidad de considerarlas para colaborar en las iniciativas de seguridad de los datos.
De qué forma se educa a los usuarios sobre temas relacionados a la seguridad de los datos
Los hackers buscan identificar debilidades en las estrategias de seguridad de las empresas para ingresar a sus sistemas. En muchas ocasiones, la debilidad se encuentra en los individuos que, por falta de conocimiento, les abren las puertas a los delincuentes ya sea instalando aplicaciones que contienen virus, ingresando a sitios web no seguros o siendo víctimas de physhing o sus variantes.
Se hace necesario entonces tener planes que eduquen a nuestros usuarios sobre la importancia de mantener los datos seguros, cuáles son los posibles tipos de ataques a los que se pueden enfrentar y a que riesgos se enfrentan en caso de que los hackers cumplan su objetivo. Se pueden diseñar entrenamientos anuales en donde se hable de la seguridad de los datos en general y que perfiles tiene los correos fraudulentos, como identificar un sitio web no confiable y toda información importante que sus colaboradores deban saber.
en entornos de Por: Gabriel Gómez
2
3
¿Cuentan con políticas para definir niveles de acceso a los tableros de control? (dashboards)
¿Quiénes tienen acceso a las fuentes de datos y que tipo de permisos tienen?
Uno de los puntos importantes que debemos
Un tema son los usuarios que tienen acceso a
tratar es definir quienes tendrán acceso a qué
los dashboards y otro es quienes tienen acceso
tablero de control (dashboard). Un tablero de
a las fuentes de datos para diseño. ¿Realmente
control de diseña para alcanzar objetivos en
sabemos nosotros todas las personas que
específicos, por ejemplo, si se requiere
tienen acceso a las diferentes fuentes de datos
monitorear
nuestros
en la organización? Esto es importante ya que
vendedores y necesitamos niveles de detalles
como validamos que las personas correctas
sobre los días en que se vendió, así como sus
tengan acceso a las fuentes de datos correctas.
respectivos montos y nombre de clientes,
En una ocasión fui testigo como usuarios no
entonces es probable que necesitemos dar
autorizados se conectaban directamente a la
acceso tanto a los vendedores como a sus
base de datos de producción del CRM de la
gerentes. Sin embargo, si diseñamos un tablero
organización en donde laboraba (no a cubos de
de control que contenga información de ventas,
datos ni vistas). Resulta que dichos usuarios
compras, e incluso información de centro de
reportaron que la base de datos estaba
costos tales como los gastos y los salarios de los
fallando, y al validar esta situación con el
empleados, vamos a querer limitar este
departamento de TI nos percatamos que esas
dashboard a personas en específico tales como
personas no debían tener acceso, pero ¿Cómo
directores de departamentos o miembros de un
ocurrió esto? Pues al parecer, una persona que
equipo ejecutivo.
había renunciado hace años a esa empresa les
el
desempeño
de
Debemos definir de qué manera pensamos controlar los accesos y de qué manera vamos a darle mantenimiento a este proceso.
había dado acceso, pero el departamento de TI nunca se percató. Aquí hubo falta de controles. Entonces, es siempre importante validar el acceso a nuestras fuentes de datos.
4
¿Están los datos utilizados en fuentes que pueden ser respaldadas (disponibilidad de los datos)
En ocasiones, los tableros de control son
Es por ello por lo que es imprescindible contar
conectados a fuentes de datos tales como
con las fuentes de datos en medios tales como
archivos excel o texto que residen en los
bases de datos que les ofrezcan mayor
computadores personales de quienes los
seguridad. Esto también ayudará a que se hagan
desarrollan. Pero, que pasa si la persona deja
los respaldos correspondientes para alinear
de laborar en la empresa o deciden prescindir
estos procesos a los planes de continuidad del
de sus servicios o si le llegan a robar el
negocio.
computador.
Ocurriría una violación a la
seguridad de los datos provocando la no disponibilidad de estos en los tableros de control y, por lo tanto, afectaría la toma de decisión.
5
¿Utilizan técnicas de modelado de datos eficientes? (accesibilidad, se busca que la carga de datos sea rápida y no tome tanto tiempo haciendo que los dashboards sean inutilizables) El
objetivo
de
muchos
ataques
informáticos es evitar que los usuarios tengan acceso a los datos. Si creamos modelos eficientes
tan
complejos
podemos
y
poco
afectar
esta
disponibilidad de los datos y es como si nosotros
mismos
nos
auto
hackeáramos. Es por ello por lo que es fundamental aplicar buenas técnicas de modelados de datos. Cargar solo lo necesario, utilizar el schema y las relaciones de tablas apropiadas, etc.
6
¿cuentan con planes de actualizaciones de servidores? (para evitar actualizar servidores de último momento y que se tengan que migrar los datos a nuevos ambientes, teniendo datos desactualizados por mucho tiempo) La migración a nuevas plataformas debe
plataforma antes de deshabilitar la anterior,
ser planificadas de modo tal que sea lo más
tendrá
transparente posible para los usuarios.
reportándole no disponibilidad de los recursos.
Suponga que usted tiene todos sus análisis
Esto mismo puede ocurrir si se migra de un
y los tableros de control en una plataforma
sistema manejador de bases de datos a otro
(Power BI, Tableau, OBIEE, etc.) y que por
(SQL,
temas de costos o seguridad decida migrar
Diferentes. Entre más grande la empresa, más
a otra plataforma.
departamentos pueden estar involucrados y
Si no logra ofrecer a sus clientes (usuarios finales) los tableros de control en la nueva
mucha
ORACLE,
gente
contactándole
MongoDB,
etc.)
más compleja puede ser la migración.
o
y
CRM
La seguridad de los datos no solo está relacionada con evitar que un hacker robe información o interrumpa el funcionamiento habitual de la operación del negocio. También, se debe considerar como nosotros como analistas de datos evitamos convertirnos en hackers sin darnos cuenta.
7
¿Tienen los procesos documentados? Si la persona que maneja los tableros de
ciertos filtros en los procesos de transformación
control deja de laborar en la empresa,
de datos o se desconoce los orígenes de datos
¿Podría usted seguir dando soporte?
para poder solicitar nueva información o
¿Cuánto tiempo le tardaría entender lo
reportar un problema existente. Es por ello por
que la otra persona desarrollo? En muchas
lo que documentar todos los procesos, contar
ocasiones, ser el nuevo propietario de
con diccionarios de datos, crear documentos de
trabajo desarrollado por alguien más se
levantamientos
convierte en un dolor de cabeza porque no
importante. Esta es una buena práctica que la
se conoce las razones por las que se
recomiendo para que los datos se mantengan
crearon las medidas o por las que se
disponibles.
aplicaron
de
requerimientos,
es
101101010000101011101001001001010 101010101010101100100010101011100 110100011100101010100111101110001 100100101
Xtra-Byte
10010010101010101010101 01100100010101011100110 10001110010101010011110 11100001 100100101 110100100100101010101010101010110 010001010101110011010001110010101 010011110111000100101010101110111
Análisis de Sentimiento
10010010101010101010101 Supervisando modelos de Machine 01100100010101011100110 100100101 100100101 Learning 10001110010101010011110 01101010000101011101001001001010 110100100100101010101010101010110 11100001 010001010101110011010001110010101 01010101010101100100010101011100
10100011100101010100111101110001 010011110111000100101010101110111
Aprendizaje Automático
Metodologías ágiles para proyectos de datos Administración de Tableros de control (Usuarios, Fuentes de datos)
Educando a los miembros del equipo en temas de seguridad de los datos
Errores frecuentes en la creación de Modelos de datos