Unidad 1 - Minería de Datos

Page 1

MinerĂ­a de datos

Puebla 2018


Evolución • 60’s: Informes batch: • la información es difícil de encontrar y analizar, poco flexible, se necesita reprogramar cada petición.

• 70’s: Primeros DSS (Decision Support Systems) y EIS (Executive Information Systems): • basados en terminal, no integrados con el resto de herramientas. • 80’s: Acceso a datos y herramientas de análisis integradas (conocidas como intelligent business tools): • Herramientas de consultas e informes, hojas de cálculo, interfaces gráficos e integrados, fáciles de usar. • Acceden a las bases de datos operacionales (“killer queries”).

• 90’s: Almacenes de Datos y herramientas OLAP. • 00’s: Herramientas de Minería de Datos y Simulación.


Bases de datos • Mundo actual muy dependiente de la información. • Generación de datos en masa. • Rápidas consultas de rápida respuesta. • Empleo de bases de datos.


Pero… • Éstas consultas son superficiales. • Principalmente no se ve mas allá de los datos en “crudo”.

• Datos podrían aprovecharse aun mas de lo que ya se esta aprovechando actualmente.


Minería de datos

(Data mining)

Muchas definiciones. • Un mecanismo de explotación consistente en la búsqueda de información valiosa en grandes volúmenes de datos. • Análisis de bitácoras y archivos, buscando relaciones, patrones, reglas, las cuales pueden ser útiles para la toma de decisiones.

• Y mas…


Extracción del conocimiento de la información

KDD Knowledge Discovery in Databases • Los datos son la materia prima bruta. • En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información.

Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación de la información y ese modelo representen un valor agregado, entonces nos referimos al conocimiento.


KDD Knowledge Discovery in Databases

El proceso de KDD consiste en usar métodos de minería de datos (algoritmos) para extraer (identificar) lo que se considera como conocimiento. Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15% - 20% del esfuerzo total.


Pasos del KDD 1.- Determinar las fuentes de información: Que pueden ser útiles y dónde conseguirlas. 2.- Diseñar el esquema de un almacén de datos (Data Warehouse): Que consiga unificar de manera operativa toda la información recogida.


Pasos del KDD

3.- Implantación del almacén de datos. • Permitir la visualización de datos para discernir cuales estudiar.

4.- Selección, limpieza y transformación de los datos a analizar. La limpieza y pre-procesamiento de datos se logra diseñando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, casos extremos (si es necesario), etc.


Pasos del KDD

5.- Seleccionar y aplicar el método de minería de datos apropiado: Se selecciona lo que se desea buscar, utilizando algoritmos y técnicas apropiadas para ello.

6.- Búsqueda de patrones y su representación en modelos(dependiendo del algoritmo de minería).


Pasos del KDD 7.- Evaluación, interpretación, transformación y representación de los patrones extraídos • Interpretar los resultados y posiblemente regresar a los pasos anteriores. • Involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias. • Requiere tener conocimiento del dominio. • La interpretación puede beneficiarse de procesos de visualización, y sirve también para borrar patrones redundantes o irrelevantes.


Pasos del KDD 8.- Difusiรณn y uso del nuevo conocimiento. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente.


Procesos data mining ✓ Extracción de datos. ✓ Interpretación de éstos. ✓ Generación de nuevo conocimiento. ➢ La interpretación de los datos generalmente es apoyado por herramientas y personas no profesionales en los campos. ➢ Todo este proceso está basado en el método científico.


Procesos y Técnicas Técnicas de Visualización: Se utiliza para determinar calidad en los datos. Reglas de Asociación: Permite realizar asociaciones entre perfiles de los clientes. Descripción: Análisis preliminar de los datos , para aumentar el conocimiento posterior.


Extensiones de la MD • WEB Mining: Aplicación de las técnicas de la MD a documentos y servicios webs. • Text Mining: Examinación de las colecciones de documentos con el fin de encontrar información no contenida en ningún documento individual.


TIPOS Y FUNCIONAMIENTO


2 tipos esenciales

Minería de datos predictiva (MDP). Emplea uso de técnicas estadísticas.

Minería de datos para el descubrimiento de la información Uso de diversas técnicas de inteligencia artificial para obtener datos.


Funcionamiento • Emplean técnicas de diversas ciencias para lograr su trabajo. • Muchas veces se mezclan éstas para reforzar las técnicas. • Han estado en constante evolución.


Resultados • La minería de datos añade a la situación inicial nuevo conocimiento de calidad. • Permite tener visión global de los datos, inclusive ocultos. • Ayuda a una mejor toma de decisiones, y a hacer pronósticos de tendencias. • Todo lo anterior puede trabajarse en masas grandes de datos, automáticamente. • No necesariamente requiere de equipamiento especializado.


Pero requiere de… • • • •

Altos costos, tanto infraestructura como implementación. Personal especializado. Puesta en marcha de largo plazo. Difícil. No existen estandarizaciones respecto a la minería de datos.


MinerĂ­a de datos en la actualidad.


Aplicaciones de la MD • FBI. Trata de buscar a potenciales terroristas, con antelación antes de que puedan cometer un atentado. • Tiendas Comerciales. Busca conocer los hábitos de los clientes con respecto a los productos que compran. • Deportes. La NBA utiliza la MD para apoyar a su cuerpo técnico en la toma de decisiones en las futuras tácticas.


Aplicaciones de la MD • Televisión: Se puede estimar el rating de los programas. • Entrevistas de trabajo: Se ocupa la MD para identificar las características de los empleados. • Y más…


Futuro de la minería de datos. • Muy bien aprovechado en el presente. • Tecnología aún emergente, aún falta más investigación. • No hay estandarización. • Nuevas técnicas emergentes.


MinerĂ­a de datos.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.