DATOS TÉCNICAS DE ANÁLISIS DE DATOS Y MODELOS DE CIENCIA DE DATOS

Page 1

DATOS, TÉCNICAS DE ANÁLISIS DE DATOS Y MODELOS DE CIENCIA DE DATOS


Tipos de datos Tasa de desempleo, tasa de inflación, ingreso de los hogares, gasto de los hogares.

Categóricos o cualitativos

Sexo, nivel de instrucción formal, tipo de universidad. Generalmente, se puede transformar estadísticas numéricas a través de frecuencias (absolutas o relativas).

Transversales

Observaciones realizadas en el mismo período de tiempo a un grupo específico (Tabla 1.2).

Series de tiempo

Secuencia de observaciones en diferentes períodos de tiempo de un mismo individuo (Tabla 1.1).

Datos de panel /longitudinales

Observaciones repetidas sobre los mismos individuos en diferentes períodos de tiempo (Tabla 1.6): Es una combinación entre datos transversales y series de tiempo.

EJEMPLOS

Numéricos o cuantitativos

1. Si se observan los precios de diferentes hard drives en un determinado período de tiempo (2004): datos transversales.

2. Si se observa el precio de un hard drive de 200GB durante el período 2003-2007: series de tiempo.


Fuente: Smith, G. (2015). Essential Statistics, Regression, and Econometrics. Pgs. 4-10.


Tipos de variables CUALITATIVA

Número Estado de hijos decivil una familia

CUANTITATIVA

Discreta

Continua

Número Color de libros favorito leídos Número de hijos de una familia

Número de libros leídos

Monto de recaudación tributaria

Precipitación anual en Quito


Niveles de medición

ORDINAL

RAZÓN

Datos únicamente clasificados

Datos ordenados

Punto 0 significativo

Marca de automóvil

Nivel de instrucción

Número de pacientes atendidos

NOMINAL


Técnicas de investigación CUANTITATIVA Muestreo probabilístico

Escala tipo Likert

Encuesta y cuestionario Análisis cuantitativo de datos secundarios

Recopilación de registros administrativos

Pruebas objetivas

Revisión de documentos y análisis de contenido de textos, documentos (cuantitativos)


Técnicas de investigación CUALITATIVA

Observación

Entrevista estructurada y semi estructurada

Revisión de documentos y análisis de contenido de textos, documentos (cualitativos)

Dinámicas grupales: simposio, mesa redonda, panel, conferencia, etc.

Estudio de caso

Análisis de discurso

Etnografía


Modelos de ciencia de datos

Aprendizaje supervisado

Aprendizaje no supervisado

TIPOS DE APRENDIZAJE Aprendizaje semi supervisado

Utiliza la base de datos de entrenamiento para realizar predicciones

Clases: clasificación o categorización y regresión Utiliza inferencias de la base de datos, la misma que no tiene respuestas categorizadas Clases: clustering y reducción dimensional o asociación

Etiquetado manual, pocos datos etiquetados y mucho no etiquetados

Clases: self-learning

Aprendizaje por refuerzo

Psicología del comportamiento para la toma de decisiones (recompensas y penalidades) Clases: Componentes y nexos



Ciencia de datos y algoritmos Clase

Descripción

Algoritmo

Ejemplo

Clasificación

Predice si un dato pertenece a una clase predeterminada

Árbol de decisión, redes neuronales, modelos Bayesianos

Identificación de un consumidor en un grupo de consumidores conocidos

Regresión

Predice el valor utilizando datos determinados

Regresión lineal, regresión logística

Predicción de la tasa de desempleo para el siguiente año

Detección de anomalías

Predice si un dato es un dato atípico (outlier) comparando con el resto de datos

Distancy-based, densitybased, local outlier factor (LOF)

Detección de transacciones fraudulentas por medio de tarjeta de crédito

Predicción por series de tiempo

Utiliza datos históricos para realizar la predicción en un horizonte de tiempo

Autorregresive integrated moving average (ARIMA), regresión

Predicción de ventas

Clustering

Identifica clusters naturales en el conjunto de datos utilizando sus propiedades

K-means, clustering

Segmentos de consumidor en base a transacciones, web

Análisis de asociación

Identifica las relaciones utilizando datos de transacción

Frontera de producción, algoritmo de crecimiento

Oportunidades de venta cruzada en función del historial de compra (transacciones)


Aprendizaje supervisado vs. Aprendizaje no supervisado

Datos etiquetados Usado para generalizar las relaciones existentes entre las variables de ingreso (input) y variables de salida (output)

Datos sin etiquetar Utilizado para descubrir patrones e

información.


Estrategias de aprendizaje

1

Aprendizaje Aprendizaje superv Supervisado isado discretodiscreto

1

2 2

Clasificación o categorización

4

Aprendizaje supervisado continuo

Clustering

3

4

Regresión

3

Aprendizaje no supervisado discreto

Aprendizaje no supervisado continuo Reducción dimensional


Aprendizaje supervisado

Variables de entrada Variables de salida o resultado

Entrenamiento

Modelo

Datos

Clasificación por etiquetas (clases), que son los valores que se desean predecir (resultado).


Ejemplos de Aprendizaje supervisado

ʴ˟ ˖ˢˡ˧˔˥ ˖ˢˡ ˘˧˜ˤ˨˘˧˔˦ ˗˘ ˔˖˨˘˥˗ˢ ˔ ˟˔ ˣ˥ˢ˖˘˗˘ˡ˖˜˔ ˗˘ ˖ˢ˥˥˘ˢ ˘˟˘˖˧˥ͅˡ˜˖ˢʟ ˘˟ ˔˟˚ˢ˥˜˧ˠˢ ˥˘˖ˢˡˢ˖˘ ˦˨ ˢ˥˜˚˘ˡ ˗˘ˡ˧˥ˢ ˗˘˟ ˖ˢˡ˝˨ˡ˧ˢ ˗˘ ˗˔˧ˢ˦ ˬ ˧ˢˠ˔ ˖ˢˡ˖˟˨˦˜ˢˡ˘˦ ˗˘ ˖ͅˠˢ ˘˧˜ˤ˨˘˧˔˥ ˬ ˗˘˙˜ˡ˜˥ ˔ ˖˔˗˔ ˖˔˧˘˚ˢ˥̿˔ ˬ ˖ˢˡ ˘˟˟ˢʟ ˔˟ ˜ˡ˚˥˘˦˔˥ ˡ˨˘˩ˢ˦ ˗˔˧ˢ˦ ˔˟ ˠˢ˗˘˟ˢʟ ˣ˥ˢ˖˘˗˘ ˔ ˖˟˔˦˜˙˜˖˔˥˟ˢ˦ ˬ ˦˘˚˥˘˚˔˥˟ˢ˦ʡ

Fuente: https://sven-mayer.com/pml/


Aprendizaje supervisado – Pasos básicos 04

Entrenar el modelo a través de múltiples interacciones de datos de entrenamiento para mejorar la precisión y velocidad de predicción

05

Realizar predicciones y evaluar el modelo

01 Seleccionar el tipo de datos de entrenamiento, determinar la naturaleza de los datos

03

Elegir un modelo utilizando un algoritmo de aprendizaje supervisado: naturaleza clasificación o regresión.

02

Recopilar y limpiar los datos de entrenamiento


Aprendizaje supervisado – Clasificación o categorización Objetivo: predecir las etiquetas de clase categóricas de nuevos registros, con base a las observaciones pasadas.

Dependiendo de la etiqueta, la clasificación puede ser binaria (etiqueta discreta, 0 o 1) o multiclase (múltiples categorías).

Generalmente se utiliza con etiquetas discretas

Aprendizaje Regresión supervisado - Regresión Proceso estadístico predictivo mediante la relación entre variables dependientes e independientes

Predicción de valor continuo (ventas, precio, calificación) Resultado: Ecuación


Aprendizaje supervisado – Tipos de algoritmos

Regresión lineal

Regresión logística

Línea recta como gráfico de la ecuación, método de Mínimo Cuadrados Ordinarios (MCO), utiliza datos continuos

Clasificación binaria, resultado: probabilidad de que pertenezca a una clase, utiliza datos discretos

Árbol de decisión

(clasificación)

Random forest

Similar al diagrama de flujo, se evalúan valores en cada nodo para llegar a la clasificación final

Combinación de árboles de decisión independientes entre sí para reducir la varianza


Aprendizaje supervisado – Ejemplos Clasificación binaria

Clasificación multiclase:

Regresión lineal

Email spam etiquetado con 1, email no spam etiquetado con 0

Detección de la raza de un perro.

Predicción altura – peso

Árbol de decisión

Regresión logística

(clasificación)

Probabilidad de ser un buen cliente (score de crédito)

Cielo: opción 1 sol, opción 2 nublado, y opción 3 lluvia

Random forest Predecir la enfermedad de un paciente tomando en cuenta los síntomas que presenta e historial clínico


Aprendizaje supervisado – Aplicaciones en finanzas, negocios, y economía Predicción de cotización de acciones en bolsa

Incremento del comercio electrónico a través del estudio de tendencias de consumo

Segmentación de mercados para crear campañas de marketing, cálculo de éxito y fallo de la campaña

Personalización de las pólizas de seguros dependiendo de los hábitos de los clientes

Identificación de las fuentes significativas de riesgos en operaciones bancarias

Detección de fraude


Aprendizaje supervisado – Ejemplo de árbol de decisión/Random forest


Aprendizaje supervisado – Ejemplo de regresión ' (

)! )$ ) " % ) ) ! & ) ) ) )# ) #


Aprendizaje supervisado – Ejemplo de árbol de decisión/Random forest !PRENDIZAJEºSUPERVISADOº º%JEMPLOºDEº RBOLºDEºDECISI­N 2ANDOMºFORESTº

7dZ[m a] 2DNkl

8mx,E^v 4>| -eTFm 9 $

5=| 1uQCq3

B

+ " " On

8my@Lcmh :l{@Ecmi 6| .fQ?WJr &: 6| /gR?XJm ;

# # Yo

8pyAG_mj ( 4~| 0PSXMm <'

B

B

8mzBH`w ! 6}0uUbs % !

8m{@I\*h % 4=| 1tVKm ) #%


BIBLIOGRAFÍA v ʴ˧˛˘ˬʟ ˆʡʟ ʙ ʼˠ˕˘ˡ˦ʟ ʺʡ ˊʡ ʛʥʣʤʬʜʡ ˀ˔˖˛˜ˡ˘ ˟˘˔˥ˡ˜ˡ˚ ˠ˘˧˛ˢ˗˦ ˧˛˔˧ ˘˖ˢˡˢˠ˜˦˧˦ ˦˛ˢ˨˟˗ ˞ˡˢ˪ ˔˕ˢ˨˧ʡ ʴˡˡ˨˔˟ ˅˘˩˜˘˪ ˢ˙ ʸ˖ˢˡˢˠ˜˖˦ʟ ʤʤʟ ʩʫʨʠʪʥʨʡ v ʺ̻˥ˢˡʟ ʴʡ ʛʥʣʤʪʜʡ ʻ˔ˡ˗˦ʠ˂ˡ ˀ˔˖˛˜ˡ˘ ʿ˘˔˥ˡ˜ˡ˚ ˪˜˧˛ ˆ˖˜˞˜˧ʠʿ˘˔˥ˡ ʙ ˇ˘ˡ˦ˢ˥ ʹ˟ˢ˪ʡ ʶˢˡ˖˘ˣ˧˦ʟ ˇˢˢ˟˦ʟ ˔ˡ˗ ˧˘˖˛ˡ˜ˤ˨˘˦ ˧ˢ ʵ˨˜˟˗ ʼˡ˧˘˟˟˜˚˘ˡ˧ ˆˬ˦˧˘ˠ˦ʡ ˂Ϡ˅˘˜˟˟ˬʡ v ʻ˔˥˩˔˥˗ ʷ˔˧˔ ˆ˖˜˘ˡ˖˘ ʼˡ˜˧˜˔˧˜˩˘ʭ ˛˧˧ˣ˦ʭʢʢ˗˔˧˔˦˖˜˘ˡ˖˘ʡ˛˔˥˩˔˥˗ʡ˘˗˨ʢ v ˀ˔˖˛˜ˡ˘ ʿ˘˔˥ˡ˜ˡ˚ʙ ʶ˔˨˦˔˟ ʼˡ˙˘˥˘ˡ˖˘ ʴ ˦˛ˢ˥˧ ˖ˢ˨˥˦˘ʭ ˛˧˧ˣ˦ʭʢʢ˪˪˪ʡ˚˦˕ʡ˦˧˔ˡ˙ˢ˥˗ʡ˘˗˨ʢ˙˔˖˨˟˧ˬʠ˥˘˦˘˔˥˖˛ʢ˖˘ˡ˧˘˥˦˜ˡ˜˧˜˔˧˜˩˘˦ʢ˦˜˟ʢ˥˘˦˘˔˥˖˛ʢ ˠ˘˧˛ˢ˗˦ʢ˔˜ʠˠ˔˖˛˜ˡ˘ʠ˟˘˔˥ˡ˜ˡ˚ʢ˦˛ˢ˥˧ʠ˖ˢ˨˥˦˘ v ˀ˔ˬ˘˥ʟ ˆʡ ʛ˦ʢ˙ʜʡ ʶˢ˨˥˦˘ʭ ˃˥˔˖˧˜˖˔˟ ˀ˔˖˛˜ˡ˘ ʿ˘˔˥ˡ˜ˡ˚ʟ ˗˜˦ˣˢˡ˜˕˟˘ ˘ˡʭ ˛˧˧ˣ˦ʭʢʢ˦˩˘ˡʠˠ˔ˬ˘˥ʡ˖ˢˠʢˣˠ˟ʢ v ˀˢ˥˔˟˘˦ʟ ˉʡ ʛʥʣʥʦʜʡ ʶ˨̳˟ ˘˦ ˟˔ ˗˜˙˘˥˘ˡ˖˜˔ ˘ˡ˧˥˘ ʸ˖ˢˡˢˠ˘˧˥̿˔ ˬ ˀ˔˖˛˜ˡ˘ ʿ˘˔˥ˡ˜ˡ˚ʲʟ ˗˜˦ˣˢˡ˜˕˟˘ ˘ˡʭ ˛˧˧ˣ˦ʭʢʢ˔˖˥ˢ˕˔˧ʡ˔˗ˢ˕˘ʡ˖ˢˠʢ˜˗ʢ ˨˥ˡʭ˔˔˜˗ʭ˦˖ʭˉʴʩʶʥʭʩʥʤʬʩʫʨʨʠ˕˕ʪ˗ʠʧʧ˖ʪʠʬʫʨʣʠ˘ʤʤ˕ʧ˘ʬ˔ʪ˕ʦʬ v ˆ˔˨˥˔ʟ ˅ʡʟ ˃˔˟ˢ˦ʠˆ˔ˡ˖˛˘˭ʟ ˃ʡʟ ʙ ʺ˥˜˟ˢʟ ʴʡ ʛʥʣʤʬʜʡ ʷ˘˧˘˖˧˜ˡ˚ ʼˡ˗˜˖˔˧ˢ˥˦ ˙ˢ˥ ˆ˧˔˥˧˨ˣ ʵ˨˦˜ˡ˘˦˦ ˆ˨˖˖˘˦˦ʭ ˆ˘ˡ˧˜ˠ˘ˡ˧ ʴˡ˔˟ˬ˦˜˦ ˈ˦˜ˡ˚ ˇ˘˫˧ ʷ˔˧˔ ˀ˜ˡ˜ˡ˚ʡ ˆ˨˦˧˔˜ˡ˔˕˜˟˜˧ˬ ʤʤʛʦʜʟ ʬʤʪʟ ˗˜˦ˣˢˡ˜˕˟˘ ˘ˡʭ ˛˧˧ˣ˦ʭʢʢ˗ˢ˜ʡˢ˥˚ʢʤʣʡʦʦʬʣʢ˦˨ʤʤʣʦʣʬʤʪ v ˆˠ˜˧˛ʟ ʺʡ ʛʥʣʤʨʜʡ ʸ˦˦˘ˡ˧˜˔˟ ˆ˧˔˧˜˦˧˜˖˦ʟ ˅˘˚˥˘˦˦˜ˢˡʟ ˔ˡ˗ ʸ˖ˢˡˢˠ˘˧˥˜˖˦ʡ ʸ˟˦˘˩˜˘˥ʡ v ˆ˧˔ˡ˙ˢ˥˗ ʷ˔˧˔ ˆ˖˜˘ˡ˖˘ʭ ˛˧˧ˣ˦ʭʢʢ˗˔˧˔˦˖˜˘ˡ˖˘ʡ˦˧˔ˡ˙ˢ˥˗ʡ˘˗˨ʢ


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.