DATOS, TÉCNICAS DE ANÁLISIS DE DATOS Y MODELOS DE CIENCIA DE DATOS
Tipos de datos Tasa de desempleo, tasa de inflación, ingreso de los hogares, gasto de los hogares.
Categóricos o cualitativos
Sexo, nivel de instrucción formal, tipo de universidad. Generalmente, se puede transformar estadísticas numéricas a través de frecuencias (absolutas o relativas).
Transversales
Observaciones realizadas en el mismo período de tiempo a un grupo específico (Tabla 1.2).
Series de tiempo
Secuencia de observaciones en diferentes períodos de tiempo de un mismo individuo (Tabla 1.1).
Datos de panel /longitudinales
Observaciones repetidas sobre los mismos individuos en diferentes períodos de tiempo (Tabla 1.6): Es una combinación entre datos transversales y series de tiempo.
EJEMPLOS
Numéricos o cuantitativos
1. Si se observan los precios de diferentes hard drives en un determinado período de tiempo (2004): datos transversales.
2. Si se observa el precio de un hard drive de 200GB durante el período 2003-2007: series de tiempo.
Fuente: Smith, G. (2015). Essential Statistics, Regression, and Econometrics. Pgs. 4-10.
Tipos de variables CUALITATIVA
Número Estado de hijos decivil una familia
CUANTITATIVA
Discreta
Continua
Número Color de libros favorito leídos Número de hijos de una familia
Número de libros leídos
Monto de recaudación tributaria
Precipitación anual en Quito
Niveles de medición
ORDINAL
RAZÓN
Datos únicamente clasificados
Datos ordenados
Punto 0 significativo
Marca de automóvil
Nivel de instrucción
Número de pacientes atendidos
NOMINAL
Técnicas de investigación CUANTITATIVA Muestreo probabilístico
Escala tipo Likert
Encuesta y cuestionario Análisis cuantitativo de datos secundarios
Recopilación de registros administrativos
Pruebas objetivas
Revisión de documentos y análisis de contenido de textos, documentos (cuantitativos)
Técnicas de investigación CUALITATIVA
Observación
Entrevista estructurada y semi estructurada
Revisión de documentos y análisis de contenido de textos, documentos (cualitativos)
Dinámicas grupales: simposio, mesa redonda, panel, conferencia, etc.
Estudio de caso
Análisis de discurso
Etnografía
Modelos de ciencia de datos
Aprendizaje supervisado
Aprendizaje no supervisado
TIPOS DE APRENDIZAJE Aprendizaje semi supervisado
Utiliza la base de datos de entrenamiento para realizar predicciones
Clases: clasificación o categorización y regresión Utiliza inferencias de la base de datos, la misma que no tiene respuestas categorizadas Clases: clustering y reducción dimensional o asociación
Etiquetado manual, pocos datos etiquetados y mucho no etiquetados
Clases: self-learning
Aprendizaje por refuerzo
Psicología del comportamiento para la toma de decisiones (recompensas y penalidades) Clases: Componentes y nexos
Ciencia de datos y algoritmos Clase
Descripción
Algoritmo
Ejemplo
Clasificación
Predice si un dato pertenece a una clase predeterminada
Árbol de decisión, redes neuronales, modelos Bayesianos
Identificación de un consumidor en un grupo de consumidores conocidos
Regresión
Predice el valor utilizando datos determinados
Regresión lineal, regresión logística
Predicción de la tasa de desempleo para el siguiente año
Detección de anomalías
Predice si un dato es un dato atípico (outlier) comparando con el resto de datos
Distancy-based, densitybased, local outlier factor (LOF)
Detección de transacciones fraudulentas por medio de tarjeta de crédito
Predicción por series de tiempo
Utiliza datos históricos para realizar la predicción en un horizonte de tiempo
Autorregresive integrated moving average (ARIMA), regresión
Predicción de ventas
Clustering
Identifica clusters naturales en el conjunto de datos utilizando sus propiedades
K-means, clustering
Segmentos de consumidor en base a transacciones, web
Análisis de asociación
Identifica las relaciones utilizando datos de transacción
Frontera de producción, algoritmo de crecimiento
Oportunidades de venta cruzada en función del historial de compra (transacciones)
Aprendizaje supervisado vs. Aprendizaje no supervisado
Datos etiquetados Usado para generalizar las relaciones existentes entre las variables de ingreso (input) y variables de salida (output)
Datos sin etiquetar Utilizado para descubrir patrones e
información.
Estrategias de aprendizaje
1
Aprendizaje Aprendizaje superv Supervisado isado discretodiscreto
1
2 2
Clasificación o categorización
4
Aprendizaje supervisado continuo
Clustering
3
4
Regresión
3
Aprendizaje no supervisado discreto
Aprendizaje no supervisado continuo Reducción dimensional
Aprendizaje supervisado
Variables de entrada Variables de salida o resultado
Entrenamiento
Modelo
Datos
Clasificación por etiquetas (clases), que son los valores que se desean predecir (resultado).
Ejemplos de Aprendizaje supervisado
ʴ˟ ˖ˢˡ˧˔˥ ˖ˢˡ ˘˧˜ˤ˨˘˧˔˦ ˗˘ ˔˖˨˘˥˗ˢ ˔ ˟˔ ˣ˥ˢ˖˘˗˘ˡ˖˜˔ ˗˘ ˖ˢ˥˥˘ˢ ˘˟˘˖˧˥ͅˡ˜˖ˢʟ ˘˟ ˔˟˚ˢ˥˜˧ˠˢ ˥˘˖ˢˡˢ˖˘ ˦˨ ˢ˥˜˚˘ˡ ˗˘ˡ˧˥ˢ ˗˘˟ ˖ˢˡ˝˨ˡ˧ˢ ˗˘ ˗˔˧ˢ˦ ˬ ˧ˢˠ˔ ˖ˢˡ˖˟˨˦˜ˢˡ˘˦ ˗˘ ˖ͅˠˢ ˘˧˜ˤ˨˘˧˔˥ ˬ ˗˘˙˜ˡ˜˥ ˔ ˖˔˗˔ ˖˔˧˘˚ˢ˥̿˔ ˬ ˖ˢˡ ˘˟˟ˢʟ ˔˟ ˜ˡ˚˥˘˦˔˥ ˡ˨˘˩ˢ˦ ˗˔˧ˢ˦ ˔˟ ˠˢ˗˘˟ˢʟ ˣ˥ˢ˖˘˗˘ ˔ ˖˟˔˦˜˙˜˖˔˥˟ˢ˦ ˬ ˦˘˚˥˘˚˔˥˟ˢ˦ʡ
Fuente: https://sven-mayer.com/pml/
Aprendizaje supervisado – Pasos básicos 04
Entrenar el modelo a través de múltiples interacciones de datos de entrenamiento para mejorar la precisión y velocidad de predicción
05
Realizar predicciones y evaluar el modelo
01 Seleccionar el tipo de datos de entrenamiento, determinar la naturaleza de los datos
03
Elegir un modelo utilizando un algoritmo de aprendizaje supervisado: naturaleza clasificación o regresión.
02
Recopilar y limpiar los datos de entrenamiento
Aprendizaje supervisado – Clasificación o categorización Objetivo: predecir las etiquetas de clase categóricas de nuevos registros, con base a las observaciones pasadas.
Dependiendo de la etiqueta, la clasificación puede ser binaria (etiqueta discreta, 0 o 1) o multiclase (múltiples categorías).
Generalmente se utiliza con etiquetas discretas
Aprendizaje Regresión supervisado - Regresión Proceso estadístico predictivo mediante la relación entre variables dependientes e independientes
Predicción de valor continuo (ventas, precio, calificación) Resultado: Ecuación
Aprendizaje supervisado – Tipos de algoritmos
Regresión lineal
Regresión logística
Línea recta como gráfico de la ecuación, método de Mínimo Cuadrados Ordinarios (MCO), utiliza datos continuos
Clasificación binaria, resultado: probabilidad de que pertenezca a una clase, utiliza datos discretos
Árbol de decisión
(clasificación)
Random forest
Similar al diagrama de flujo, se evalúan valores en cada nodo para llegar a la clasificación final
Combinación de árboles de decisión independientes entre sí para reducir la varianza
Aprendizaje supervisado – Ejemplos Clasificación binaria
Clasificación multiclase:
Regresión lineal
Email spam etiquetado con 1, email no spam etiquetado con 0
Detección de la raza de un perro.
Predicción altura – peso
Árbol de decisión
Regresión logística
(clasificación)
Probabilidad de ser un buen cliente (score de crédito)
Cielo: opción 1 sol, opción 2 nublado, y opción 3 lluvia
Random forest Predecir la enfermedad de un paciente tomando en cuenta los síntomas que presenta e historial clínico
Aprendizaje supervisado – Aplicaciones en finanzas, negocios, y economía Predicción de cotización de acciones en bolsa
Incremento del comercio electrónico a través del estudio de tendencias de consumo
Segmentación de mercados para crear campañas de marketing, cálculo de éxito y fallo de la campaña
Personalización de las pólizas de seguros dependiendo de los hábitos de los clientes
Identificación de las fuentes significativas de riesgos en operaciones bancarias
Detección de fraude
Aprendizaje supervisado – Ejemplo de árbol de decisión/Random forest
Aprendizaje supervisado – Ejemplo de regresión ' (
)! )$ ) " % ) ) ! & ) ) ) )# ) #
Aprendizaje supervisado – Ejemplo de árbol de decisión/Random forest !PRENDIZAJEºSUPERVISADOº º%JEMPLOºDEº RBOLºDEºDECISIN 2ANDOMºFORESTº
7dZ[m a] 2DNkl
8mx,E^v 4>| -eTFm 9 $
5=| 1uQCq3
B
+ " " On
8my@Lcmh :l{@Ecmi 6| .fQ?WJr &: 6| /gR?XJm ;
# # Yo
8pyAG_mj ( 4~| 0PSXMm <'
B
B
8mzBH`w ! 6}0uUbs % !
8m{@I\*h % 4=| 1tVKm ) #%
BIBLIOGRAFÍA v ʴ˧˛˘ˬʟ ˆʡʟ ʙ ʼˠ˕˘ˡ˦ʟ ʺʡ ˊʡ ʛʥʣʤʬʜʡ ˀ˔˖˛˜ˡ˘ ˟˘˔˥ˡ˜ˡ˚ ˠ˘˧˛ˢ˗˦ ˧˛˔˧ ˘˖ˢˡˢˠ˜˦˧˦ ˦˛ˢ˨˟˗ ˞ˡˢ˪ ˔˕ˢ˨˧ʡ ʴˡˡ˨˔˟ ˅˘˩˜˘˪ ˢ˙ ʸ˖ˢˡˢˠ˜˖˦ʟ ʤʤʟ ʩʫʨʠʪʥʨʡ v ʺ̻˥ˢˡʟ ʴʡ ʛʥʣʤʪʜʡ ʻ˔ˡ˗˦ʠ˂ˡ ˀ˔˖˛˜ˡ˘ ʿ˘˔˥ˡ˜ˡ˚ ˪˜˧˛ ˆ˖˜˞˜˧ʠʿ˘˔˥ˡ ʙ ˇ˘ˡ˦ˢ˥ ʹ˟ˢ˪ʡ ʶˢˡ˖˘ˣ˧˦ʟ ˇˢˢ˟˦ʟ ˔ˡ˗ ˧˘˖˛ˡ˜ˤ˨˘˦ ˧ˢ ʵ˨˜˟˗ ʼˡ˧˘˟˟˜˚˘ˡ˧ ˆˬ˦˧˘ˠ˦ʡ ˂Ϡ˅˘˜˟˟ˬʡ v ʻ˔˥˩˔˥˗ ʷ˔˧˔ ˆ˖˜˘ˡ˖˘ ʼˡ˜˧˜˔˧˜˩˘ʭ ˛˧˧ˣ˦ʭʢʢ˗˔˧˔˦˖˜˘ˡ˖˘ʡ˛˔˥˩˔˥˗ʡ˘˗˨ʢ v ˀ˔˖˛˜ˡ˘ ʿ˘˔˥ˡ˜ˡ˚ʙ ʶ˔˨˦˔˟ ʼˡ˙˘˥˘ˡ˖˘ ʴ ˦˛ˢ˥˧ ˖ˢ˨˥˦˘ʭ ˛˧˧ˣ˦ʭʢʢ˪˪˪ʡ˚˦˕ʡ˦˧˔ˡ˙ˢ˥˗ʡ˘˗˨ʢ˙˔˖˨˟˧ˬʠ˥˘˦˘˔˥˖˛ʢ˖˘ˡ˧˘˥˦˜ˡ˜˧˜˔˧˜˩˘˦ʢ˦˜˟ʢ˥˘˦˘˔˥˖˛ʢ ˠ˘˧˛ˢ˗˦ʢ˔˜ʠˠ˔˖˛˜ˡ˘ʠ˟˘˔˥ˡ˜ˡ˚ʢ˦˛ˢ˥˧ʠ˖ˢ˨˥˦˘ v ˀ˔ˬ˘˥ʟ ˆʡ ʛ˦ʢ˙ʜʡ ʶˢ˨˥˦˘ʭ ˃˥˔˖˧˜˖˔˟ ˀ˔˖˛˜ˡ˘ ʿ˘˔˥ˡ˜ˡ˚ʟ ˗˜˦ˣˢˡ˜˕˟˘ ˘ˡʭ ˛˧˧ˣ˦ʭʢʢ˦˩˘ˡʠˠ˔ˬ˘˥ʡ˖ˢˠʢˣˠ˟ʢ v ˀˢ˥˔˟˘˦ʟ ˉʡ ʛʥʣʥʦʜʡ ʶ˨̳˟ ˘˦ ˟˔ ˗˜˙˘˥˘ˡ˖˜˔ ˘ˡ˧˥˘ ʸ˖ˢˡˢˠ˘˧˥̿˔ ˬ ˀ˔˖˛˜ˡ˘ ʿ˘˔˥ˡ˜ˡ˚ʲʟ ˗˜˦ˣˢˡ˜˕˟˘ ˘ˡʭ ˛˧˧ˣ˦ʭʢʢ˔˖˥ˢ˕˔˧ʡ˔˗ˢ˕˘ʡ˖ˢˠʢ˜˗ʢ ˨˥ˡʭ˔˔˜˗ʭ˦˖ʭˉʴʩʶʥʭʩʥʤʬʩʫʨʨʠ˕˕ʪ˗ʠʧʧ˖ʪʠʬʫʨʣʠ˘ʤʤ˕ʧ˘ʬ˔ʪ˕ʦʬ v ˆ˔˨˥˔ʟ ˅ʡʟ ˃˔˟ˢ˦ʠˆ˔ˡ˖˛˘˭ʟ ˃ʡʟ ʙ ʺ˥˜˟ˢʟ ʴʡ ʛʥʣʤʬʜʡ ʷ˘˧˘˖˧˜ˡ˚ ʼˡ˗˜˖˔˧ˢ˥˦ ˙ˢ˥ ˆ˧˔˥˧˨ˣ ʵ˨˦˜ˡ˘˦˦ ˆ˨˖˖˘˦˦ʭ ˆ˘ˡ˧˜ˠ˘ˡ˧ ʴˡ˔˟ˬ˦˜˦ ˈ˦˜ˡ˚ ˇ˘˫˧ ʷ˔˧˔ ˀ˜ˡ˜ˡ˚ʡ ˆ˨˦˧˔˜ˡ˔˕˜˟˜˧ˬ ʤʤʛʦʜʟ ʬʤʪʟ ˗˜˦ˣˢˡ˜˕˟˘ ˘ˡʭ ˛˧˧ˣ˦ʭʢʢ˗ˢ˜ʡˢ˥˚ʢʤʣʡʦʦʬʣʢ˦˨ʤʤʣʦʣʬʤʪ v ˆˠ˜˧˛ʟ ʺʡ ʛʥʣʤʨʜʡ ʸ˦˦˘ˡ˧˜˔˟ ˆ˧˔˧˜˦˧˜˖˦ʟ ˅˘˚˥˘˦˦˜ˢˡʟ ˔ˡ˗ ʸ˖ˢˡˢˠ˘˧˥˜˖˦ʡ ʸ˟˦˘˩˜˘˥ʡ v ˆ˧˔ˡ˙ˢ˥˗ ʷ˔˧˔ ˆ˖˜˘ˡ˖˘ʭ ˛˧˧ˣ˦ʭʢʢ˗˔˧˔˦˖˜˘ˡ˖˘ʡ˦˧˔ˡ˙ˢ˥˗ʡ˘˗˨ʢ