Breve paseo por la Minería de Datos (DM)
•
Introducción
•
Espectro de Información
•
Dato, Información, Conocimiento
•
Relación de Datos, Información y Conocimiento y Sociedad
•
Sabiduría, Conocimiento, Aprendizaje
•
Base de Datos
•
Sistema de Gestión de Base de Datos
•
Niveles en el Uso de los Datos
•
Conocimiento en las Base de Datos
•
Verificación versus Descubrimiento
•
Descubrimiento de Conocimiento en Base de Datos (KDD)
•
Minería de Datos (DM)
•
Minería de Datos (DM) Tareas
•
Minería de Datos (DM) Enfoque
•
Minería de Datos (DM) Mapa Conceptual
•
Minería de Datos (DM) Técnicas
•
Procesamiento Analítico en Línea (OLAP) versus Minería de Datos (DM)
•
Aplicaciones de la Minería de Datos (DM)
•
Relación de la Minería de Datos (DM) con otras disciplinas
•
Relación de la Minería de Datos (DM) con otras disciplinas “ Estrella Famosa”
•
Minería de Datos (DM) Propósitos Empresariales
•
Minería de Datos (DM) Ejemplos
Elaborado por: Jean Sánchez
Introducción Las computadoras son un millón de veces más poderosas que hace veinte años.
Introducción ¡En veinte años las computadoras van a ser un millón de veces más poderosas que las de hoy!
Introducción •Sobrecarga informativa - ansiedad Demasiadas “ cosas” para mantenerse al día. •Aguja en un pajar Parece que nunca encontramos lo que queremos, cómo lo queremos y en la forma adecuada. •Calidad de la información Hay que separar el grano de la paja.
Introducción Aumento en la cantidad de información “ Se ha producido más información en los últimos 30 años que en los 5.000 previos.”
(Fuente: Large, P., The Micro Revolution, Revisited, 1984)
Introducción Tamaño de conjuntos de datos Descripción
Tamaño en Bytes
Modo de Almacenaje
Bien pequeño
102
Hoja de papel
Pequeño
104
Varias hojas
Mediano
106 (megabyte)
Diskette
Grande
109(gigabite)
Disco Duro
Masivo
1012(Terabyte)
Cinta magnetica
Supermasivo
1015(Petabyte)
Archivos de datos distribuidos
Introducción Sobrecarga de información “ En la actualidad, en un número del New York Times hay más información impresa, que la cantidad a la que tuvo acceso una persona del Siglo XVII durante toda su vida” .
(Fuente: Dawis Lewis, Introduction to Dying for Information, www.reuters.com/rbb/research/dfiforframe.htm)
Introducción Sobrecarga de Información. Ejemplo “ ¿Deben vacunarse los niños? ¿Son seguras?” •Existen 454.150 sitios posibles en el buscador Yahoo. •Mirarlos por solo 5 minutos cada uno, tomaría 37.000 horas. •Se asume que, al menos, 100-200 tengan la información buscada. Usarlos tomaría unas 50 - 100 horas adicionales. •Tiempo potencial total que tomaría: 1545 días, ¡¡¡¡¡más de 4 años!!!!!
Introducción Sobrecarga de información. Ejemplo “ ¿Qué es la información?” •Existen 171.769.416 sitios posibles en el buscador Google. •Mirarlos por solo 1 minuto cada uno, tomaría 2.862.823 horas. •Tiempo potencial total que tomaría: 119.284 días, ¡¡¡¡¡más de 326 años!!!!! Esto es imposible, y por lo tanto, existe una clara necesidad de disponer de tecnologías que efectúen procesos de búsqueda y aún más, de tecnologías que nos ayuden a comprender su contenido.
Introducción Los crecientes avances tecnológicos y en especial la revolución digital, ha posibilitado que la captura de los datos sea fácil, además, el almacenamiento de los mismos posee un costo casi nulo. Con el desarrollo del software y el hardware, grandes cantidades de datos son recogidas y almacenados en bases de datos. Por tanto, el análisis de estas enormes cantidades de datos a través de las herramientas tradicionales de gestión de datos o con técnicas estadísticas, no son adecuadas. Todo esto parece excelente pero no conocemos el significado de: datos, información y conocimiento.
Espectro de Información Esta formado por: datos, información, conocimiento y sabiduría. Los datos son información en bruto, no es más que una colección de hechos aislados que deben procesarse para poseer valor, por tanto no existe asociatividad. La información se deriva de los datos procesados lo que implica la asociatividad de los datos dentro de un contexto. El conocimiento proviene de procesar la información, por tanto, asocia la información obtenida en un contexto con otra información producida en un contexto diferente. La sabiduría se origina de procesar el conocimiento, la asociatividad se realiza al mayor nivel donde se asocia el conocimiento obtenido en un contexto con otro conocimiento producido en un contexto diferente. La mayoría de los programas, aplicaciones, sistemas de información, WebApps, es decir, el software existente se ha construido para procesar datos o información. Sólo, la Inteligencia Artificial se ha dado a la tarea del tratamiento y uso del conocimiento. Aún no poseemos ni el software ni hardware para el tratamiento o uso de la sabiduría. Datos
Información
Conocimiento
Sabiduría
Se comienzan aclarar las cosas. Prosigue
Espectro de Información Sabiduría Conocimiento Información Datos
Es una actividad en la actualidad propia de los humanos. Es una apreciación del por qué. Permite producir conocimiento. Es información útil, contextual, tácita. Es la aplicación de los datos y la información, responde a cómo. Permite aprender. Es la data con un significado por vía de una relación. El significado puede o no ser útil. Responde a quién, qué, donde, cuándo. Es la data cruda. Puede o no existir, pero no posee significado .
Dato, Información, Conocimiento Antes que nada la sabiduría no es mencionada porque no poseemos los recursos ni herramientas computacionales para tratarla o usarla; en la actualidad debemos comprender en qué se diferencian el conocimiento de los datos y la información. En una conversación informal, los tres términos suelen utilizarse indistintamente y esto puede llevar a una interpretación libre del concepto de conocimiento. Quizás la forma más sencilla de diferenciar los términos sea pensar que los datos están localizados en el mundo y el conocimiento está localizado en agentes de cualquier tipo, mientras que la información adopta un papel mediador entre ambos. Un agente no equivale a un ser humano. Podría tratarse de un animal, una máquina o una organización constituida por otros agentes a su vez.
Dato, Información, Conocimiento Dato: Un dato es un conjunto discreto, de factores objetivos sobre un hecho real. El concepto de dato es definido como un registro de transacciones. Un dato no dice nada sobre el porqué de las cosas, y por sí mismo tiene poca o ninguna relevancia o propósito. Los datos describen únicamente una parte de lo que pasa en la realidad y no proporcionan juicios de valor o interpretaciones, y por lo tanto no son orientativos para la acción. La toma de decisiones se basará en datos, pero estos nunca dirán lo que hacer. Los datos no dicen nada acerca de lo que es importante o no. A pesar de todo, los datos son importantes para las organizaciones, ya que son la base para la creación de información.
Dato, Información, Conocimiento I nformación: Los investigadores que han estudiado el concepto de información, lo describen como un mensaje. Como cualquier mensaje, tiene un emisor y un receptor. La información es capaz de cambiar la forma en que el receptor percibe algo, y de impactar sobre sus juicios de valor y comportamientos. La palabra “ informar” significa originalmente “ dar forma a” y la información es capaz de formar a la persona que la consigue, proporcionando ciertas diferencias en su interior o exterior. Por lo tanto, estrictamente hablando, es el receptor, y no el emisor, el que decide si el mensaje que ha recibido es realmente información, es decir, si realmente le informa. Un informe lleno de tablas inconexas, puede ser considerado información por el que lo escribe, pero a su vez puede ser juzgado como “ ruido” por el que lo recibe. A diferencia de los datos, la información tiene significado (relevancia y propósito). No sólo puede formar potencialmente al que la recibe, sino que esta organizada para algún propósito. Los datos se convierten en información cuando su creador les añade significado.
Dato, Información, Conocimiento Conocimiento: Todos tenemos la sensación intuitiva que el conocimiento es algo más amplio, profundo y rico que los datos y la información. Para Davenport y Prusak (1999) el conocimiento es una mezcla de experiencia, valores, información y “ saber hacer” que sirve como marco para la incorporación de nuevas experiencias e información, y es útil para la acción. Se origina y aplica en la mente de los conocedores. En las organizaciones con frecuencia no sólo se encuentra dentro de documentos o almacenes de datos, sino que también esta en rutinas organizativas, procesos, prácticas, y normas. Lo que inmediatamente deja claro la definición es que ese conocimiento no es simple. Es una mezcla de varios elementos; es un flujo al mismo tiempo que tiene una estructura formalizada; es intuitivo y difícil de captar en palabras o de entender plenamente de forma lógica. El conocimiento existe dentro de las personas, como parte de la complejidad humana y de nuestra impredecibilidad.
Dato, Información, Conocimiento Existen
múltiples
definiciones
de
conocimiento, desde las clásicas y fundamentales como una creencia cierta y justificada, …
… a otras más recientes y pragmáticas como una mezcla de experiencia, valores, información y “ saber hacer” que sirve como marco para la incorporación de nuevas experiencias e información, y es útil para la acción.
Dato, Información, Conocimiento “ Conocimiento significa entonces apropiarnos de las propiedades y relaciones de las cosas, entender lo que son y lo que no son. Tener discernimiento, es decir juicio por cuyo medio se percibe y establece la diferencia que existe entre varias cosas” . Se concluye fácilmente que el conocimiento se divide en dos partes: a)El objeto en sí, con sus propiedades y relaciones, que queremos conocer. b)El sujeto que trata de apoderarse de ese saber. Además el conocimiento permite: a)El conocimiento permite saber hacer, por tanto, es el marco para incorporar nuevas experiencias e información, es útil para la acción. b)En las organizaciones el conocimiento no sólo se encuentra en los documentos o almacenes de datos, sino también en las rutinas organizativas, procesos, prácticas, y normas.
Relación de Datos, Información y Conocimiento y la Sociedad
CONOCIMIENTO
SOCIEDAD DEL CONOCIMIENTO
INFORMACIÓN
SOCIEDAD DE LA INFORMACIÓN
Los miembros de la sociedad son personas con habilidades para manejar y compartir información
DATO
SOCIEDAD TECNOLÓGICA
Los miembros de la sociedad son individuos con funciones específicas para que la sociedad prospere
Pirámide de la organización de la experiencia (personal, grupal y social)
Los miembros de la sociedad son personas con capacidades que les permiten tomar conciencia y actuar sobre su contexto
SABIDURIA - CONOCIMIENTO - APRENDIZAJE
para
utiliza
Base de Datos Es una colección ordenada de datos organizada de tal forma que puede consultarse y actualizarse, de manera eficiente y ordenada. Se usan para registrar y representar el funcionamiento del sistema, a través de los datos relativos a sus diferentes características y componentes . •Tipos de bases de datos – Analíticas – Dinámicas •Modelo de bases de datos – Jerárquicas – Red – Relacionales – Orientada a Objetos – Documentales Base de Datos – Distribuidas
Base de Datos Padre Padre Hijo
Red
Hijo Hijo
Jerárquica
Hijo
Hijo
datos
datos
Padre
Redes de comunicación
Hijo Hijo relacional
datos
Distribuida
Aplicación
Sistema de Gestión de Base de Datos SGBD; en inglés, Database Management System: DBMS, es un conjunto de programas que permite a los usuarios crear y mantener una base de datos. Si bien, no es imprescindible contar con un SGBD, este software de uso general facilita el proceso de definir, construir y manipular bases de datos para diversas aplicaciones. Debería poseer las siguientes características: Restricción de los accesos no autorizados. Control de la redundancia. Almacenamiento persistente de objetos y estructuras de datos de programas Inferencias en la base de datos mediante reglas de deducción Suministro de múltiples interfaces con los usuarios Representación de vínculos complejos entre los datos Cumplimiento de las restricciones de integridad Respaldo y recuperación Disponibilidad de información actualizada Economías de escala
Niveles en el Uso de los Datos • Nivel operacional: Se utilizan sistemas de información que monitorean las actividades y transacciones elementales. • Nivel de administración : Realiza operaciones repetitivas de captura masiva de datos y servicios básicos de tratamiento de datos, con tareas predefinidas. • Nivel de conocimientos : Realiza actividades de análisis, de seguimiento, de control y toma de decisiones, realiza consultas sobre información almacenada. • Nivel estratégico: Realizar las actividades de planificación a largo plazo, tanto del nivel de administración como de los objetivos que la empresa posee. Mira el futuro
Niveles en el Uso de los Datos
Niveles en el Uso de los Datos considerando el Tiempo Plazo
Nivel
Uso
Corto plazo
Operacional y Administrativo
Obtención y control de datos
OLTP
M ediano plazo De Conocimientos
Decisiones tácticas
OLAP
Largo plazo
Decisiones estratégicas
OLAP
Estratégico
OLTP (On-Line Transaction Processing - Procesamiento de Transacciones en Línea). Para la capturan y almacenamiento de transacciones. OLAP (On-Line Analytical Processing – Procesamiento Analítico en Línea). Para el análisis y las navegación en los datos.
Conocimiento en las Base de Según su nivel de abstracción: Datos Conocimiento Evidente: Fácilmente recuperable a través de SQL. Conocimiento Multidimensional: Considera los datos con cierta estructura y relevancia, se usa el OLAP. Conocimiento Oculto: Información evidente desconocida a priori y potencialmente útil sólo se descubre con Minería de Datos “ DM” . Conocimiento Profundo: Información que está almacenada en la Base de Datos, pero que resulta imposible de recuperar a menos que se disponga de alguna clave que oriente la búsqueda.
Datos Superficiales (se descubren con SQL)
Datos M ulti-Dimensionales (se descubren con OLAP) Datos Escondidos (se descubren con DM ) Datos Profundos (se descubren sólo con pistas)
Verificación versus Descubrimiento Verificación
Descubrimiento
Elaborar una hipótesis sobre la Identificar un objetivo existencia de una información de problema de negocio. interés. Convertir la hipótesis en una consulta.
o
Habilitar un acceso a los datos de interés y acondicionarlos.
Ejecutar la consulta contra un sistema Seleccionar una técnica de de información. explotación de los datos adecuada para el problema. Interpretar los resultados. Refinar la hipótesis y ejecución.
Ejecutar la técnica contra los datos. repetir
la Interpretar los resultados.
Descubrimiento de Conocimiento en Base de Datos (KDD) Debido a la inmensa cantidad de datos, surge la necesidad de técnicas, prácticas o metodologías para el análisis inteligente de datos, que permitan descubrir un conocimiento útil a partir de los mismos. De allí nace el KDD (Knowledge Discovery in Databases) o “ Descubrimiento de Conocimiento en Base de Datos” que puede ser definido como el proceso no trivial de identificar patrones en los datos con las características siguientes: válidos, novedosos, útiles y comprensibles. El KDD es un conjunto de pasos interactivos e iterativos.
Descubrimiento de Conocimiento en Base de Datos (KDD) El KDD se compone de las siguientes fases: a. Fase de Integración y Recopilación. b. Fase de Selección, Limpieza y Transformación. c. Fase de Minería de Datos. d. Fase de Evaluación e Interpretación. e. Fase de Difusión y Uso.
Minería de Datos (DM) La Minería de Datos es un área cuyo objetivo es predecir resultados y/o descubrir relaciones en los datos. La Minería de Datos puede ser descriptivo (descubrir patrones que describen los datos), o predictivo (para pronosticar el comportamiento del modelo basado en los datos disponibles). Por tanto permite: Explorar grandes cantidades de datos (generalmente relacionados a los negocios o mercadeo), Búsqueda de modelos consistentes y/o las relaciones sistemáticas entre las variables, Validar los resultados aplicando los modelos descubiertos a los nuevos subconjuntos de datos. El proceso consiste así en tres fases básicas: •Exploración, •Construcción o definición del modelo, y •Validación/Verificación.
Minería de Datos (DM) Tareas •Describir •Estimar •Predicción •Clasificación •Agrupamiento •Asociación •Modelado de Dependencias
Minería de Datos (DM) Enfoque ENFOQUE ASCENDENTE No hay hipótesis inicial, el procedimiento consiste en examinar los datos para descubrir patrones en ellos. Puede ser: •Supervisada: se tiene la idea de lo que se busca. ¿Qué se suele comprar junto al producto x?. •No Supervisada: no se sabe que se busca. La herramienta de Minería de Datos se le indica buscar algo interesante. Puede ser el acceso a una red y la herramienta puede descubrir a los usuarios que se conectan fuera de su horario de trabajo.
ENFOQUE DESCENDENTE
ENFOQUE M I XTO
Partiendo de una hipótesis Es un hibrido entre el se realizan consultas a los enfoque ascendente y datos para determinar la descendente, esto con el fin certeza, si la hipótesis no es de que la herramienta cierta se deberá verificar y efectué la búsqueda o comenzar el proceso de ser encuentre algún patrón necesario. Por ejemplo: Las interesante y luego testearlo personas obesas y que con el enfoque descendente. fuman tienen mayor probabilidad de sufrir un infarto.
Minería de Datos (DM) Mapa Conceptual Fuentes de datos
DHW
Data cruda
Pre-procesamiento
Data Objetivo
Exploración y transformación
Reconocimiento de Patrones
Data Data Pre-procesadaTransformada
Patrones
Evaluación e Interpretación
Evaluación y Entendimient o
DBMS
Texto
Muestreo y Selección Limpieza de Datos • Muestreo • Limpieza de datos • Selección • Datos que no existen • Datos no clasificados • Identificación de extremos • Eliminación de
Transformación de Datos • Reducción de Dimensionalidad • Creación de Características • Normalización de Datos • Variables
Modelado • Descripción • Clasificación • Regresión • Agrupamiento • Asociación • Secuenciación • Detección de Desviación
Reportes y Visualización
Minería de Datos (DM) Técnicas Minería de Datos
Descubrimiento de conocimiento
Predicción
Regresión
Clasificación
Detección de Desviaciones
Clustering
Reglas de Asociación
Visualización
• Una actividad de extracción con el objetivo de descubrir hechos contenidos en las bases de datos o almacenes de datos. • Los hechos no son conocidos con anterioridad. • Los hechos escondidos, se representan por reglas. • Las reglas se usan para predecir estados del sistema. • Es un trabajo automatizado. • Las técnicas de minería de datos permite diseñar modelos desde el ámbito del problema para la toma de decisiones automáticas.
Procesamiento Analítico en Línea (OLAP) versus Minería de Datos (DM) OLAP DM El OLAP y la Estadística puede usar hipótesis EL DM no requiere de suposiciones. En su o suposiciones. lugar identifica hechos o conclusiones basados en patrones descubiertos. Una herramienta OLAP no es una herramienta Las Redes Neuronales (RN), la Inteligencia DM, ya que la búsqueda se origina con el Artificial (AI) y los Algoritmos Genéticos, por usuario. otra parte, se consideran como verdaderas herramientas de DM, porque interrogan autónomamente a los datos, en búsqueda de patrones. El procesamiento OLAP y la Estadística La Minería de Datos proporciona análisis deproporcionan análisis de-arriba-abajo, dirigido abajo-arriba, dirigido por los descubrimientos. por las búsquedas. Una herramienta puede informar al vendedor Una herramienta puede informar de los factores sobre el número total de libros vendidos para que influyen en la venta de los libros. una región determinada en un trimestre determinado.
Aplicaciones de la Minería de Datos (DM)
Relación de la Minería de Datos (DM) con otras disciplinas
Relación de la Minería de Datos (DM) con otras disciplinas “Estrella Famosa”
Minería de Datos (DM) Propósitos Empresariales Una investigación de la empresa META Group reveló que las 500 empresas del ranking Fortune utilizaban la Minería de Datos básicamente con tres propósitos: •64% - para la planificación estratégica, •49% - para inteligencia competitiva, •46% - para aumentar su cuota de mercado.
Minería de Datos (DM) Ejemplos GERENTE en un BANCO ¿Debe conceder el crédito a este cliente? I de
D-crédito (años)
C-crédito (Bs.F)
Salarios (Bs.F)
Casa Propia
Cuentas M orosas
…
Devuelve Crédito
101
15
60.000
1.800
Si
2
…
No
102
2
30.000
1.500
Si
0
…
Si
103
9
9.000
700
No
1
…
No
104
15
18.000
950
No
0
…
Si
105
10
24.000
1100
Si
0
…
No
…
…
…
…
…
…
…
….
Minería de Datos
Si Cuentas-Morosas > 0 entonces Devuelve-crédito = No Si Cuentas-Morosas = 0 Y [(Salario > 1500) O (D-crédito > 10)] entonces Devuelve-crédito = Si
Minería de Datos (DM) Ejemplos GERENTE de un SUPERMERCADO ¿Cuándo se compra huevos, se suele comprar aceite? I dcesta
Huevos
Aceite
Pañales
Vino
Leche
Mantequilla
Salmón
Azúcar
…
1
Si
No
No
Si
No
Si
Si
Si
…
2
No
Si
No
No
Si
No
No
Si
…
3
No
No
Si
No
Si
No
No
No
…
4
No
Si
Si
No
Si
No
No
No
…
5
Si
Si
No
No
No
Si
No
Si
…
6
Si
No
No
Si
Si
Si
Si
No
…
7
No
No
No
No
No
No
No
No
…
8
Si
Si
Si
Si
Si
Si
Si
No
…
…
…
…
…
…
…
…
…
…
…
Minería de Datos
Huevos → Aceite : Confianza = 75%, Soporte = 12%
Minería de Datos (DM) Ejemplos GERENTE DE RR.HH. en una EMPRESA ¿Qué tipos de empleados tengo? Id
Sueldo
Casado
Vehículo
Hijos
Alq/Prop
Sindicato
Bajas/Año
Antigüedad
Sexo
1
1000
Si
No
0
Alquiler
No
7
15
H
2
2000
No
Si
1
Alquiler
Si
3
3
M
3
1500
Si
Si
2
Propia
Si
5
10
H
4
3000
Si
Si
1
Alquiler
No
15
7
M
5
4000
Si
Si
0
Propia
Si
1
6
H
6
2500
No
No
0
Alquiler
Si
3
16
M
7
2000
No
Si
0
Alquiler
Si
0
8
H
8
800
No
Si
0
Propia
Si
2
6
M
…
…
…
…
…
…
…
…
…
…
Minería de Datos •Grupo 1: Sin hijos y con vivienda de alquiler. Poco sindicados. Muchas bajas. •Grupo 2: Sin hijos y con vehículo. Muy sindicados. Pocas bajas. Normalmente mujeres y casas alquiladas. •Grupo 3: Con hijos, casados y vehículo. Mayoritariamente hombres propietarios vivienda. Poco sindicados.
Minería de Datos (DM) Ejemplos GERENTE de una EMPRESA COMERCIALIZADORA ¿Cuántos televisores planos se estima vender el mes que viene? Producto
M ES-12
…
M ES-4
M ES-3
M ES-2
M ES-1
M ES
Televisor plano 30”
20
…
52
14
139
74
?
Video dvd
11
…
43
32
26
59
?
Diskman
50
…
61
14
5
28
?
Lavadora
3
…
21
27
1
49
?
Nevera
14
…
27
2
25
12
?
…
…
…
…
…
…
…
….
Minería de Datos Modelo Lineal: Ventas Mes Siguiente TV Planos V ( Mes ) TVPlanos = 0.62V ( Mes −1) TVPlanos + 0.33V ( Mes − 2 ) TVPlanos + 0.12V ( Mes −1) Videodvd − 0.05