Si u5

Page 1

MinerĂ­a de Datos M.C. Juan Carlos Olivares Rojas


Agenda Introducci贸n El proceso de extracci贸n del conocimiento Algoritmos utilizados en el proceso de miner铆a de datos Ejemplos


Introducción • Se define como un análisis de datos exploratorio. • El propósito es buscar patrones interesantes en los datos. Se aplican muchas técnicas estadísticas para buscar estos patrones. • Se pretende buscar reglas de asociación entre las dimensiones de una tabla.


Introducción • Al conjunto de todas las transacciones se le llama población. • Cualquier regla de asociación tiene un nivel de soporte y uno de confianza. • Soporte es el fragmento de la población que satisface la regla.


Introducción • El soporte es la fracción de la población, en la cual se cumple el antecedente, también se cumple el consecuente. • Se pueden encontrar en otro tipo de patrones: “Si un cliente compra zapatos es probable que compre calcetines no necesariamente en la misma transacción”.


El proceso de extracción del conocimiento • Para la extracción del conocimiento se tiene que hacer un preprocesado de los datos. Generalmente dicho preprocesamiento contiene un filtro de información, es decir, sólo se tienen los campos y datos para nuestro almacén de datos. • Este es un proceso único dependiente del problema a resolver.


Algoritmos utilizados en el proceso de minería de datos • Existen una gran infinidad de algoritmos generalmente clasificados en dos tipos: estadístico y probabilísticos. • Los estadísticos funcionan con los datos de nuestra tabla de hechos y deben devolver un resultado expresado en probabilidad o no obtenible mediante expresiones SQL básicas.


Algoritmos utilizados en el proceso de minería de datos • El algoritmo mejor conocido es el de reglas de asociación que encuentra dependencia entre elementos, pero existen otros algoritmos como los de agrupamiento (clustering) como los vecinos más cercanos o k-means que encuentran relaciones entre grupos de objetos con ciertas afinidades.


Algoritmos utilizados en el proceso de minería de datos • Los algoritmos probabilísticos se encuentran con técnicas en la mayoría de los casos más avanzadas, como son las redes bayesianas, las máquinas de soporte vectorial entre otros. • Los resultados de la minería de datos pueden diferir según la técnica empleada aunque los datos sean los mismos.


Weblog Mining • La Minería Web es simplemente aprovechar las técnicas de Minería de Datos para obtener conocimiento de la información disponible en Internet. • Algunas áreas de aplicación: • Mejorar el diseño de la estructura de un sitio Web.


Weblog Mining • Planear campañas de marketing orientadas al comercio electrónico. • Mejorar sistemas, ya sea en la calidad del desempeño o la seguridad. • Identificar patrones de acceso a recursos Web con el objetivo de seleccionar archivos para el acaparamiento en dispositivos inalámbricos.


Weblog Mining Desconexi贸n

Internet

Punto Acceso Servidor Dispositivo M贸vil


Weblog Mining Línea Telefónica “Internet”

Modem Contenido del Servidor Web Computadora Cliente Proveedor de Servicios De Interne

Servidor Web

Bitácora a nivel de contenido

Bitácoras a nivel de cliente Bitácora a nivel de Proxy

Bitácora a nivel de servidor Web


Weblog Mining Minería Web

WM Cenidet WUM WebSIFT

Minería de estructura Web

Personalización

SiteHelper Letizia Web Watcher WebPersonalizer

Mejora de sistemas

Rexford Schechter Aggarwal

Minería de uso Web

Modificación de sitios

PageGather

SpeedTracer Shahabi

Inteligencia de negocios

SurfAid Buchner Tuhzilin WebLogMiner

Minería de contenido Web

Caracterización de uso

Pitkow Arlitt


Weblog Mining Análisis de Patrones

Descubrimiento de Patrones

Pre-procesamiento

Conocimiento Interesante

Reglas, ítems frecuentes, patrones

Logs de Proxy y servidor Web

Identificación de sesiones y usuarios


Weblog Mining Fase 2. Identificación de Sesiones

Recolección de bitácoras a nivel de servidor Proxy Recolección de bitácoras a nivel de servidor Web

Recolección de archivos log

Identificación del formato de la bitácora

Limpieza de bitácoras

Base de Datos Repositorio

Fase 1. Recolección y Pre-procesamiento

Enfoque basado en heurística Enfoque basado en número de peticiones

Fase 3. Minería de Datos

Enfoque basado en tiempo de duración

Fase 4. Recolección de estructuras

Identificación de sesiones

Motor de minería

Recolector de estructuras Mercadotecnia Mejora de sistemas Pre-carga de archivos

Fase 6. Aplicación del conocimiento

Visor de Patrones de Navegación Visor de Estructuras Web

Fase 5. Análisis gráfico de los resultados


Weblog Mining • Una vez que se tienen objetos minables, la gama de métodos para descubrir patrones va desde el simple análisis estadístico hasta métodos complejos como algoritmos de minería de datos. • Para este trabajo se implementó el algoritmo de minería de reglas de asociación A-priori e ítems frecuentes.


Weblog Mining


Weblog Mining

Esquema de almacenamiento de bitรกcoras

Esquema de almacenamiento de reglas


Weblog Mining

Carga de estructuras de sitios Web

Un grafo recortado

Estructura de un sitio Web


Weblog Mining cenidet.edu.mx Agosto 2004

Método

Regla

Soporte

Confianza

10 Minutos

[/subaca/electron/index.html]--->[/index.html]

8.92%

86.69%

15 Minutos

[/subaca/electron/index.html]--->[/index.html]

9.51%

88.56%

Heurística

[/subaca/web-dcc/index.html]--->[/index.html]

11.24%

85.07%

15 Peticiones

[/subaca/electron/index.html]--->[/index.html]

9.03%

86.19%


Clustering Nombre

ProteĂ­na Vitamina Grasa AzĂşcar Mineral

Hamburguesa

10

0

10

0

0

Papas

5

3

15

12

0

Refresco

0

0

0

23

0.5

Helado

0

1

7

33

0

Malteada

4

2

10

37

0


Clustering d(yi, Cj) = (yi - Cj)T (yi - Cj) = ∑d l=1 (yli – Clj)2 d(y1 – c1) = (y1 – c1)T(y1 – c1) = ∑2l=1(yl1,cl1) = (y11 – C11)2 + (y21 – C21)2 Gráfica de la relación Y 3.5 d2 (Vitamina)

3 2.5 2

Elementos

1.5

Centroides

1 0.5 0 0

1

2

3

4

5

6

d1 (Proteína)

7

8

9

10

11


Referencias • Date C. (2001), “Introducción a los sistemas de base de datos”, 7a. Edición, Pearson educación, México, 2001, ISBN: 968-444419-2, pp. 709-725. • Hernández, G. (2005) “Generador de patrones de navegación de usuario aplicando Web Log Mining en cliente/servidor”, Tesis de Maestría, CENIDET 2005.


Referencias โ ข Olivares, J. y Ponce I. (2005). Programaciรณn del algoritmo de agrupamiento K-means en SQL. CENIDET Laboratorio de Sistemas Distribuidos.


多Preguntas, dudas y comentarios?


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.