Datos, técnicas de análisis de datos y modelos de ciencia de datos

Page 1

DATOS, TÉCNICAS DE ANÁLISIS DE DATOS Y MODELOS DE CIENCIA DE DATOS

Tipos de datos

Numéricos o cuantitativos

Tasa de desempleo, tasa de inflación, ingreso de los hogares, gasto de los hogares. Categóricos o cualitativos

Transversales

Sexo, nivel de instrucción formal, tipo de universidad. Generalmente, se puede transformar estadísticas numéricas a través de frecuencias (absolutas o relativas).

Observaciones realizadas en el mismo período de tiempo a un grupo específico (Tabla 1.2).

Series de tiempo

Datos de panel /longitudinales

Secuencia de observaciones en diferentes períodos de tiempo de un mismo individuo (Tabla 1.1).

Observaciones repetidas sobre los mismos individuos en diferentes períodos de tiempo (Tabla 1.6): Es una combinación entre datos transversales y series de tiempo.

Si se observan los precios de diferentes hard drives en un determinado período de tiempo (2004): datos transversales.

Si se observa el precio de un hard drive de 200GB durante el período 2003-2007: series de tiempo. 1. 2.

EJEMPLOS

Fuente: Smith, G. (2015). Essential Statistics, Regression, and Econometrics. Pgs. 4 10.

Número de hijos de una familia

CUALITATIVA

Tipos de variables

Discreta

CUANTITATIVA

Continua

Número de libros leídos

Número de hijos de una familia Número de libros leídos Monto de recauda ción tributaria Precipitación anual en Quito

Datos únicamente clasificados

Niveles de medición

Datos ordenados

Punto 0 significativo

Número de pacientes atendidos Marca de automóvil Nivel de instrucción

ORDINAL RAZÓN
NOMINAL

Técnicas de investigación CUANTITATIVA

Muestreo probabilístico

Encuesta y cuestionario

Escala tipo Likert

Análisis cuantitativo de datos secundarios

Pruebas objetivas

Recopilación de registros administrativos

Revisión de documentos y análisis de contenido de textos, documentos (cuantitativos)

Técnicas de investigación CUALITATIVA

Revisión

de documentos y análisis de contenido de textos, documentos (cualitativos) Estudio de caso Etnografía Observación

Utiliza la base de datos de entrenamiento para realizar predicciones

Aprendizaje supervisado

TIPOS DE APRENDIZAJEciencia de datos

Aprendizaje no supervisado

Clases: clasificación o categorización y regresión

Utiliza inferencias de la base de datos, la misma que no tiene respuestas categorizadas

Clases: clustering y reducción dimensional o asociación

Etiquetado manual, pocos datos etiquetados y mucho no etiquetados

Aprendizaje semi supervisado

Clases: self learning

Aprendizaje por refuerzo

Psicología del comportamiento para la toma de decisiones (recompensas y penalidades)

Clases: Componentes y nexos

Modelos de

Ciencia de datos y algoritmos

AlgoritmoDescripción EjemploClase

Clasificación

Predice si un dato pertenece a una clase predeterminada

Árbol de decisión, redes neuronales, modelos Bayesianos

Regresión

Predice el valor utilizando datos determinados

Detección de anomalías

Predice si un dato es un dato atípico (outlier) comparando con el resto de datos

Predicción por series de tiempo

Utiliza datos históricos para realizar la predicción en un horizonte de tiempo

Clustering

Identifica clusters naturales en el conjunto de datos utilizando sus propiedades

Regresión lineal, regresión logística

Identificación de un consumidor en un grupo de consumidores conocidos

Distancy based, density based, local outlier factor (LOF)

Autorregresive integrated moving average (ARIMA), regresión

Predicción de la tasa de desempleo para el siguiente año

K means, clustering

Detección de transacciones fraudulentas por medio de tarjeta de crédito

Predicción de ventas

Segmentos de consumidor en base a transacciones, web

Identifica las relaciones utilizando datos de transacción

Análisis de asociación Frontera de producción, algoritmo de crecimiento

Oportunidades de venta cruzada en función del historial de compra (transacciones)

Aprendizaje supervisado vs. Aprendizaje no supervisado

• Datos etiquetados

• Usado para generalizar las relaciones existentes entre las variables de ingreso (input) y variables de salida (output)

• Datos sin etiquetar

• Utilizado para descubrir patrones e información.

Estrategias de aprendizaje

1 2 3 4 Aprendizaje superv isado discreto Clasificación o categorización 1 Aprendizaje supervisado continuo Regresión 4 Aprendizaje no supervisado discreto Clustering 2 Aprendizaje no supervisado continuo Reducción dimensional 3

Aprendizaje supervisado

Variables de entrada de salida Datos

Clasificación por etiquetas (clases), que son los valores que se desean predecir (resultado).

Variables
o resultado Entrenamiento Modelo •

Ejemplos de Aprendizaje supervisado

Fuente: https://sven-mayer.com/pml/

Aprendizaje supervisado – Pasos básicos

04

Entrenar el modelo a través de múltiples interacciones de datos de entrenamiento para mejorar la precisión y velocidad de predicción

05

Realizar predicciones y evaluar el modelo

01

Seleccionar el tipo de datos de entrenamiento, determinar la naturaleza de los datos

03

Elegir un modelo utilizando un algoritmo de aprendizaje supervisado: naturaleza clasificación o regresión.

02

Recopilar y limpiar los datos de entrenamiento

Aprendizaje supervisado – Clasificación o categorización

Objetivo: predecir las etiquetas de clase categóricas de nuevos registros, con base a las observaciones pasadas.

Regresión

Proceso estadístico predictivo mediante la relación entre variables dependientes e independientes

• Dependiendo de la etiqueta, la clasificación puede ser binaria (etiqueta discreta, 0 o 1) o multiclase (múltiples categorías).

• Generalmente se utiliza con etiquetas discretas

• Predicción de valor continuo (ventas, precio, calificación)

• Resultado: Ecuación

Aprendizaje supervisado – Tipos de algoritmos

Línea recta como gráfico de la ecuación, método de Mínimo Cuadrados Ordinarios (MCO), utiliza datos continuos Regresión lineal

Regresión logística

Clasificación binaria, resultado: probabilidad de que pertenezca a una clase, utiliza datos discretos

Combinación de árboles de decisión independientes entre sí para reducir la varianza Random forest Similar al diagrama de flujo, se evalúan valores en cada nodo para llegar a la clasificación final Árbol de decisión (clasificación)

Aprendizaje supervisado – Ejemplos

Clasificación binaria

Clasificación multiclase:

Regresión logística

Email spam etiquetado con 1, email no spam etiquetado con 0

Detección de la raza de un perro. Predicción altura –peso Regresión lineal

Probabilidad de ser un buen cliente (score de crédito)

Árbol de decisión (clasificación)

Random forest

Cielo: opción 1 sol, opción 2 nublado, y opción 3 lluvia

Predecir la enfermedad de un paciente tomando en cuenta los síntomas que presenta e historial clínico

Aprendizaje supervisado – Aplicaciones en finanzas, negocios, y economía

Predicción de cotización de acciones en bolsa

Incremento del comercio electrónico a través del estudio de tendencias de consumo

Segmentación de mercados para crear campañas de marketing, cálculo de éxito y fallo de la campaña

Identificación de las fuentes significativas de riesgos en operaciones bancarias

Personalización de las pólizas de seguros dependiendo de los hábitos de los clientes

Detección de fraude

BIBLIOGRAFÍA

Géron, A. (2017). Hands-On Machine Learning with Scikit-Learn & Tensor Flow. Concepts, Tools, and techniques to Build Intelligent Systems. O’Reilly.

Mayer, S. (s/f). Course: Practical Machine Learning, disponible en: https://svenmayer.com/pml/

Saura, R., Palos-Sanchez, P., & Grilo, A. (2019). Detecting Indicators for Startup

Business Success: Sentiment Analysis Using Text Data Mining. Sustainability 11(3), 917, disponible en: https://doi.org/10.3390/su11030917

Smith, G. (2015). Essential Statistics, Regression, and Econometrics. Elsevier.

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.