Diplomado en
HERRAMIENTAS DE MINERÍA DE DATOS PARA SOPORTE EN LA TOMA DE DECISIONES Coordinador académico: M.I. Rafael Gamboa Hirales
COORDINADOR ACADÉMICO: M.I. RAFAEL GAMBOA HIRALES M.I. Rafael Gamboa Hirales Desde 1983, es profesor de tiempo completo en el Departamento Académico de Computación de la División de Ingeniería del ITAM. Sus áreas de interés son las plataformas distribuidas, la integración de aplicaciones, los lenguajes de programación, el análisis de datos, la extracción de información de grandes volúmenes de datos y su incorporación en aplicaciones de índole transaccional y para soporte a la toma de decisiones. Para ello, hace uso de bases de datos, de herramientas estadísticas, analíticas y/o de minería de datos y su incorporación en aplicaciones de los modelos inducidos por los datos. El profesor Gamboa obtuvo la licenciatura en Física y Matemáticas en la ESFM, del Instituto Politécnico Nacional, y el grado de Maestro en Ingeniería en Telecomunicaciones con especialidad en Procesamiento Digital de Señales por la ETSIT, de la Universidad Politécnica de Madrid. Actualmente, distribuye su tiempo entre la docencia, la administración del Departamento y la consultoría. Objetivo general Este diplomado satisface dos objetivos: i) proporcionar los conocimientos fundamentales sobre las técnicas utilizadas en Analítica para la explotación de los datos con que cuentan las empresas y las organizaciones; ii) proporcionar las habilidades para utilizar las herramientas para la explotación de los datos y conformar modelos o ensambles para descubrir patrones y detectar y evaluar oportunidades. Un aspecto importante es la conformación de procesos en línea o en lotes que hagan uso de los modelos entrenados. El conocimiento y habilidades contempladas le permitirán al participante abordar otras herramientas y otras plataformas de explotación de datos, tanto propietarias como abiertas o gratuitas.
Modalidad Todos los módulos tienen un enfoque teórico-práctico. Se exponen los conceptos teóricos y se llevan a cabo prácticas y tareas con ejemplos de datos reales tomados de fuentes públicas. Se utiliza MSExcel, MSAccess, Python y SAS como apoyo para los análisis estadísticos y tratamiento/transformación y limpieza de datos. Como herramientas específicas de modelado se utiliza Python y sus bibliotecas, Weka y SAS Enterprise Miner. Todo ello con el fin de configurar y explotar repositorios multidimensionales y para apoyar las tareas analíticas y/o de minería de datos, formación de conjeturas y su validación estadística. La duración de cada módulo es de 40 hrs en 13 sesiones de 3 hrs y la última sesión tiene una duración de 4 hrs. ¿A quién va dirigido? A personal responsable de las actividades directas en la elaboración de los modelos analíticos y de minería de datos. Se requiere haber trabajado con tablas de datos y/o bases de datos relacionales o no y con dominio de la hoja electrónica.
MÓDULO I LOS DATOS Objetivo Actualmente los datos provienen de distintas fuentes. Por un lado se tienen los datos en bases de datos relacionales y por otro los conocidos como no estructurados provenientes de bitácoras o en repositorios en JSON o XML o en texto libre. El primer módulo contiene los conceptos y procesos herramentales para el tratamiento de los datos y poder llevar a cabo las tablas de hechos, o bien, repositorios o procesos de explotación ad hoc para ser utilizados en las labores de análisis de datos. Se estudian las técnicas para elaborar junturas de tablas y la formación de tablas resumen con las agrupaciones de conteo, suma, promedios y desviación estándar Temario 1. Tablas y gráficos dinámicos en MSExcel. Funciones de agregación. Atributis e ítems agregados. Gráficos de dispersión. 2. Las bases de datos relacionales. Uso de MSAccess. Repaso de Atributos y Relaciones. Consultas, uniones y junturas. Consolidación de cuadros resumen. 3. Python y uso de pandas.dataframes. Consultas, uniones y junturas. Consolidación de cuadros resumen. Salida gráfica. 4. Transformación de datos. Atributos calculados. 5. Explotación de datos en repositorios públicos. Datos de Inegi. Procesos automatizados de descarga de tablas. Armado de tablas de hechos.
MÓDULO II LAS TÉCNICAS Objetivo El segundo módulo presenta los fundamentos requeridos para entender la aplicabilidad de las técnicas utilizadas en las actividades de elaboración y de prueba de conjeturas. Se inicia con la presentación de las técnicas estadísticas y se continúa con las herramientas de modelado analítico. Se analizan los conceptos de correlación lineal y se revisan las distribuciones estadísticas más comunes. Se contemplan transformaciones de los datos y su justificación. Se revisan procedimientos para llevar a cabo la imputación de datos faltantes de acuerdo a las distribuciones y correlaciones observadas en los datos o derivados de información adicional. Se contemplan los cuatro modelos básicos: Clasificación y Estimación de Continuos como métodos supervisados y Asociaciones y Conglomerados como métodos no supervisados y las justificaciones de su funcionamiento. Temario 1. Variables continuas y variables discretas. La estadística como herramienta de exploración de los hechos representados por los datos. Creación de modelos. Variable objetivo y variables explicativas. Estadística descriptiva. Estimadores estadísticos principales. Histogramas y cruces de variables. Variables discretas y variables contínuas. Combinaciones. Tratamiento. Elección de intervalos para los cruces de las variables contínuas. Variables ordinales. Distribuciones de probabilidad. Supuestos y hechos importantes. Inferencia estadística. 2. Correlación lineal. Regresión lineal. Variable objetivo. Estimación como valor esperado. Variantes. Series de tiempo, auto-regresión, estacionalidad. Pronóstico. La correlación y la covarianza. Relaciones lineales y relaciones no-lineales. Análisis multidimensional. Análisis Discriminante. Componentes principales. 3. Concepto y medida de Información e Información Mutua 4. Las técnicas Analíticas/KDD. Modelos de clasificación. Modelos predictivos. Formación de conglomerados. Alternativas para formación de conglomerados. Reglas de asociaciones y técnicas de canasta. 5. La minería/analítica de datos. Método general de trabajo. Separación en datos de prueba y datos de entrenamiento para el caso de modelos con aplicación a futuro. Método de MultiFold para validación cruzada. 6. Clasificadores: Objetivo. Información y métricas básicas de ajuste. Área de la ROC. Función de utilidad. Lift. Score de corte. Árboles de clasificación, Métodos Bayesianos, Regresión
Logística y su relación con el Análisis Discriminante. Redes neuronales como clasificadores. Arquitectura. Bosques Aleatorios. Máquinas de Soporte Vectorial. Modelos KNN. 7. Pronóstico: Revisión de la Regresión Lineal. Correlación lineal como medida de bondad de ajuste. CART o árbol de regresiones, criterio de separación de los nodos u hojas. Redes Neuronales como estimadores de continuos. Arquitecturas. Redes neuronales en series de tiempo. Arquitecturas. Modelos KNN. 8. Asociaciones: Problema básico de la canasta de productos. Método A priori. Métricas aplicables. Cadenas de Markov y patrones de comportamiento. 9. Conglomerados: Métricas de similitud/separación. Técnicas y métodos. Basadas en distancia. Basadas en similitud.
MÓDULO III APLICACIONES Objetivo El tercer módulo afina el uso de los conceptos, las técnicas y las herramientas mediante el desarrollo de casos con volúmenes apreciables de datos. Para ambos casos, se contemplan situaciones en las que se procede en las labores de minería a partir de datos transaccionales. Los datos se toman de repositorios públicos. Temario 1. Patrones y relaciones entre elementos. Representación y construcción de redes. 2. Sobrecarga y compensación en modelos de clasificación. 3. Exportación de los modelos. Inserción en aplicaciones transaccionales para automatización de decisiones. 4. Análisis exploratorio de los datos. Establecimiento de conjeturas. Establecimiento de los modelos. Entrenamiento, prueba y validación. Validación estadística de los resultados 5. Minería de textos. Definición del dominio. Restricciones. Técnicas por medio de transformación de palabras. Técnicas por detección de patrones de expresiones. 6. Aplicaciones “establecidas” a. Análisis de potenciales acreditados b. Valuación de bienes c. Análisis y pronóstico de ventas d. Eficiencia de campañas publicitarias e. Prospección de venta cruzada.
CARACTERÍSTICAS DEL PLAN DE ESTUDI0S El plan de estudios está dividido en 3 módulos. El Diploma sólo se entregará a quien haya cursado y aprobado todos los módulos del Diplomado. En el Diplomado se realizarán trabajos extraescolares que aseguren una mejor asimilación de los conocimientos impartidos. Programa sujeto a cambios.
REQUISITOS DE INSCRIPCIÓN 1. Copia del título, cédula profesional o carta de pasante. En su defecto, currículum vitae. 2. Copia de identificación oficial vigente (INE o Pasaporte).
M.A. Mónica Sacristán Directora de Extensión Universitaria y Desarrollo Ejecutivo
Síguenos en: @DiplomadosITAM
5628 41 85 Sin costo desde el interior 01 800 398 48 26 Av. Camino a Sta. Teresa 930, Col. Héroes de Padierna, 10700, Ciudad de México, CORREO ELECTRÓNICO: desarrolloejecutivo@itam.mx TEL.
Consulte nuestra programación completa en:
www.desarrolloejecutivo.itam.mx Becas para exalumnos
Impreso en papel 100% reciclado con tintas de origen vegetal
Diplomados ITAM