Datos, técnicas de análisis de datos y modelos de ciencia de datos

Page 1

DATOS, TÉCNICAS DE ANÁLISIS DE DATOS Y MODELOS DE CIENCIA DE DATOS

Tipos de datos

Numéricos

Tasa de desempleo, tasa de inflación, ingreso de los hogares, gasto de los hogares.

Transversales

Sexo, nivel de instrucción formal, tipo de universidad. Generalmente, se puede

a través de frecuencias (absolutas o relativas).

Observaciones realizadas en el mismo período de tiempo a un grupo específico (Tabla

Series

Secuencia de observaciones en diferentes períodos de tiempo de un mismo individuo (Tabla

Datos

Observaciones

(Tabla

Si se observan

Si

observa

precio

en diferentes períodos de

series de tiempo.

un determinado período de

200GB durante

período

o cuantitativos
Categóricos o cualitativos
transformar estadísticas numéricas
1.2).
de tiempo
1.1).
de panel /longitudinales
repetidas sobre los mismos individuos
tiempo
1.6): Es una combinación entre datos transversales y
EJEMPLOS
los precios de diferentes hard drives en
tiempo (2004): datos transversales.
se
el
de un hard drive de
el
2003-2007: series de tiempo. 1. 2.

Fuente: Smith, G. (2015). Essential Statistics, Regression, and Econometrics. Pgs. 4 10.

Tipos de variables

Número de hijos de una familia

CUALITATIVA Continua

Discreta

CUANTITATIVA

favorito

Número de libros leídos Estado civil

Número de hijos de una familia

Número de libros leídos

Monto de recauda ción tributaria Precipitación anual en Quito

Color

Datos únicamente clasificados

Niveles de medición

Datos ordenados

Punto 0 significativo

Número de pacientes atendidos Marca de

de instrucción

ORDINAL RAZÓN
NOMINAL
automóvil Nivel

Técnicas de investigación CUANTITATIVA

Muestreo probabilístico

Encuesta y cuestionario

Escala tipo Likert

Análisis cuantitativo de datos secundarios

Pruebas objetivas

Recopilación de registros administrativos

Revisión de documentos y análisis de contenido de textos, documentos (cuantitativos)

Técnicas de investigación CUALITATIVA

Revisión

Estudio

de documentos y análisis de contenido de textos, documentos (cualitativos)
de caso Etnografía Observación

Utiliza la base de datos de entrenamiento para realizar predicciones

Aprendizaje

Modelos

TIPOS DE APRENDIZAJE

Aprendizaje no

Clases: clasificación o categorización y regresión

Aprendizaje

Utiliza inferencias de la base de datos, la misma que no tiene respuestas categorizadas

Clases: clustering y reducción dimensional o asociación

Aprendizaje por

Etiquetado manual, pocos datos etiquetados y mucho no etiquetados

Clases: self learning

Psicología del comportamiento para la toma de decisiones (recompensas y penalidades)

Clases: Componentes y nexos

supervisado
supervisado
refuerzo
semi supervisado
de ciencia de datos

Ciencia de datos y algoritmos

AlgoritmoDescripción EjemploClase

Clasificación

Predice si un dato pertenece a una clase predeterminada

Árbol de decisión, redes neuronales, modelos Bayesianos

Regresión

Predice el valor utilizando datos determinados

Detección de anomalías

Predice si un dato es un dato atípico (outlier) comparando con el resto de datos

Predicción por series de tiempo

Utiliza datos históricos para realizar la predicción en un horizonte de tiempo

Clustering

Identifica clusters naturales en el conjunto de datos utilizando sus propiedades

Análisis de asociación

Identifica las relaciones utilizando datos de transacción

Regresión lineal, regresión logística

Identificación de un consumidor en un grupo de consumidores conocidos

Distancy based, density based, local outlier factor (LOF)

Autorregresive integrated moving average (ARIMA), regresión

Predicción de la tasa de desempleo para el siguiente año

K means, clustering

Detección de transacciones fraudulentas por medio de tarjeta de crédito

Predicción de ventas

Frontera de producción, algoritmo de crecimiento

Segmentos de consumidor en base a transacciones, web

Oportunidades de venta cruzada en función del historial de compra (transacciones)

Aprendizaje supervisado vs. Aprendizaje no supervisado

! Datos et i q u et a d o s ! Usado para g en er a l i z a r las relaciones existentes entre las variables de ingreso (input) y variables de salida (output) ! Datos s i n et i q u et a r ! Utilizado para d es c u b r i r patrones e información.
1 2 3 4 Aprendizaje superv isado discreto Clasificación o categorización 1 Aprendizaje supervisado continuo Regresión 4 Aprendizaje no supervisado discreto Clustering 2 Aprendizaje no supervisado continuo Reducción dimensional 3 Estrategias de aprendizaje Aprendizaje Supervisado discreto

Aprendizaje

supervisado Variables de entrada Variables de salida o resultado Entrenamiento Modelo ! Datos ! Clasificación por etiquetas (clases), que son los valores que se desean predecir (resultado).

Ejemplos de Aprendizaje supervisado

Fuente: https://sven-mayer.com/pml/

Aprendizaje supervisado – Pasos básicos

Entrenar el modelo a través de múltiples interacciones de datos de entrenamiento para mejorar la precisión y velocidad de predicción

Realizar predicciones y evaluar el modelo

Elegir un modelo utilizando un algoritmo de aprendizaje supervisado: naturaleza clasificación o regresión.

Recopilar y limpiar los datos de entrenamiento

Seleccionar el tipo de datos de entrenamiento, determinar la naturaleza de los datos

04
05
01
03
02

Clasificación o categorización

Aprendizaje supervisado

Objetivo:

de nuevos

con base a las observaciones pasadas.

de la etiqueta, la clasificación puede ser binaria (etiqueta discreta, 0 o 1) o multiclase (múltiples categorías).

se utiliza con etiquetas discretas

Regresión
predecir las etiquetas de clase categóricas
registros,
! Dependiendo
! Generalmente
Proceso estadístico predictivo mediante la relación entre variables dependientes e independientes ! Predicción de valor continuo (ventas, precio, calificación) ! Resultado: Ecuación Aprendizaje supervisado - Regresión

Aprendizaje supervisado – Tipos de algoritmos

Regresión lineal

Regresión logística

Árbol de decisión (clasificación)

Random forest

Línea recta como gráfico de la ecuación, método de Mínimo Cuadrados Ordinarios (MCO), utiliza datos continuos

Clasificación binaria, resultado: probabilidad de que pertenezca a una clase, utiliza datos discretos

Similar al diagrama de flujo, se evalúan valores en cada nodo para llegar a la clasificación final

Combinación de árboles de decisión independientes entre sí para reducir la varianza

Aprendizaje supervisado

Clasificación

Ejemplos

Clasificación

binaria Email spam etiquetado con 1, email no spam etiquetado con 0
multiclase: Detección de la raza de un perro. Predicción altura –peso Regresión lineal Cielo: opción 1 sol, opción 2 nublado, y opción 3 lluvia Árbol de decisión (clasificación) Probabilidad de ser un buen cliente (score de crédito) Regresión logística Random forest Predecir la enfermedad de un paciente tomando en cuenta los síntomas que presenta e historial clínico

Aprendizaje

de

Aplicaciones en

Segmentación de

éxito

fallo de la

Incremento del comercio

través

de

estudio de

Identificación de

Personalización de las pólizas de seguros

de los hábitos de los

Detección de

mercados para crear campañas de marketing, cálculo de
y
campaña
dependiendo
clientes
las fuentes significativas de riesgos en operaciones bancarias
fraude Predicción
cotización de acciones en bolsa
electrónico a
del
tendencias
consumo
supervisado –
finanzas, negocios, y economía

BIBLIOGRAFÍA

Géron, A. (2017).

Build

Mayer, S. (s/f).

Saura, R., Palos Sanchez, P., & Grilo, A. (2019).

Scikit-Learn & Tensor Flow.

Systems. O’Reilly.

en: https://sven-

Smith, G. (2015).

Statistics,

Econometrics. Elsevier.

Hands-On Machine Learning with
Concepts, Tools, and techniques to
Intelligent
Course: Practical Machine Learning, disponible
mayer.com/pml/
Detecting Indicators for Startup Business Success: Sentiment Analysis Using Text Data Mining. Sustainability 11(3), 917, disponible en: https://doi.org/10.3390/su11030917
Essential
Regression, and

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.