Cluster

Page 1

José Luis Vicente Villardón Departamento de Estadística Universidad de Salamanca

El Análisis de Clusters (o Análisis de Conglomerados) es una técnica de Análisis Exploratorio de Datos para resolver problemas de clasificación. Consiste en ordenar objetos (personas, cosas, animales, plantas, variables, …) en grupos (conglomerados o clusters) de forma que el grado de asociación/similitud entre miembros del mismo cluster sea más fuerte que el grado de asociación/similitud entre miembros de diferentes clusters. Cada cluster, conglomerado o grupo se describe como la clase a la que sus miembros pertenecen. !! La clasificación se basa en medidas de distancia/ similitud entre los objetos !!


!! !! !! !! !! !! !!

Taxonomía: Clasificación de seres vivos Producción vegetal: Búsqueda de grupos de variedades con características similares. Genética: Agrupación de pacientes perfiles similares de acuerdo con sus características genéticas. Marketing: Búsqueda de grupos homogéneos de consumidores. Seguros: Agrupación de los asegurados. Economía: Agrupación de regiones con características económicas similares. Cualquier disciplina que necesite la búsqueda de grupos de individuos u objetos con características similares.

!! Jerárquicos: la

clasificación resultante tiene un número creciente de clases anidadas. !! No jerárquicos: no presenta clases anidadas. !! Aglomerativos: se

parte de tantas clases como objetos tengamos que clasificar y en pasos sucesivos vamos agrupando por parejas obteniendo clases de objetos similares. !! Divisivos: se parte de una única clase formada por todos los objetos que se va dividiendo en clases sucesivamente.


!!

!!

!! !!

!!

!!

1.- Decidir que datos tomamos para cada uno de los casos. Generalmente tomaremos varias variables todas del mismo tipo (continuas, categóricas, etc.) ya que suele ser difícil mezclar tipos distintos.. 2.- Elegimos una medida de la distancia entre los objetos a clasificar, que serán los clusters o clases iniciales. 3.- Buscamos que clusters son más similares. 4.- Juntamos estos dos clusters en un nuevo cluster que tenga al menos 2 objetos, de forma que el número de clusters decrece en una unidad. 5.- Calculamos la distancia entre este nuevo cluster y el resto. No es necesario recalcular todas las distancias, solamente las del nuevo cluster con los anteriores. 6.- Repetimos desde el paso 3 hasta que todos los objetos estén en un único cluster.

Pais Carne Roja Carne Blanca Huevsos Albania 10,1 1,4 Austria 8,9 14 Bélgica 13,5 9,3 Bulgaria 7,8 6 Checoslovaquia 9,7 11,4 Dinamarca 10,6 10,8 Alemania Or. 8,4 11,6 Finlandia 9,5 4,9 Francia 18 9,9 Grecia 10,2 3 Hungría 5,3 12,4 Irlanda 13,9 10 Italia 9 5,1 Holanda 9,5 13,6 Noruega 9,4 4,7 Polonia 6,9 10,2 Portugal 6,2 3,7 Rumania 6,2 6,3 España 7,1 3,4 Suecia 9,9 7,8 Suiza 13,1 10,1 Reino Unido 17,4 5,7 Unión Sov. 9,3 4,6 Alemania Occ. 11,4 12,5 Yugoslavia 4,4 5

Leche 0,5 4,3 4,1 1,6 2,8 3,7 3,7 2,7 3,3 2,8 2,9 4,7 2,9 3,6 2,7 2,7 1,1 1,5 3,1 3,5 3,1 4,7 2,1 4,1 1,2

Pescado 8,9 19,9 17,5 8,3 12,5 25 11,1 33,7 19,5 17,6 9,7 25,8 13,7 23,4 23,3 19,3 4,9 11,1 8,6 24,7 23,8 20,6 16,6 18,8 9,5

Cereales 0,2 2,1 4,5 1,2 2 9,9 5,4 5,8 5,7 5,9 0,3 2,2 3,4 2,5 9,7 3 14,2 1 7 7,5 2,3 4,3 3 3,4 0,6

Féculas 42,3 28 26,6 56,7 34,3 21,9 24,6 26,3 28,1 41,7 40,1 24 36,8 22,4 23 36,1 27 49,6 29,2 19,5 25,6 24,3 43,6 18,6 55,9

Frutos Frutos secos vegetales 0,6 5,5 3,6 1,3 5,7 2,1 1,1 3,7 5 1,1 4,8 0,7 6,5 0,8 5,1 1 4,8 2,4 2,2 7,8 4 5,4 6,2 1,6 2,1 4,3 4,2 1,8 4,6 1,6 5,9 2 5,9 4,7 3,1 5,3 5,7 5,9 3,7 1,4 2,8 2,4 4,7 3,4 6,4 3,4 5,2 1,5 3 5,7

y 1,7 4,3 4 4,2 4 2,4 3,6 1,4 6,5 6,5 4,2 2,9 6,7 3,7 2,7 6,6 7,9 2,8 7,2 2 4,9 3,3 2,9 3,8 3,2

Objetivo: Buscar grupos de países con comportamientos alimenticios similares



Medidas de distancia para datos cuantitativos"

Diferencias medias! Distancia euclídea (pitagórica) ! Distancia media.. ! Distancia de Minkowsky" Métrica de Camberra! Coeficiente de divergencia! Coeficiente de concordancia racial de Pearson"

Medidas de similitud para datos binarios" Para datos binarios es posible construir una tabla de contingencia para cada par de individuos donde se cuentan las presencias y ausencias comunes de cada uno de los caracteres estudiados. individuo i Presente (1) Ausente (0) individuo k Presente (1)

a

b

a+b

Ausente (0)

c

d

c+d

a+c

b+d

m=a+b+c+d

Donde a: numero de caracteres presentes en los dos individuos. b: Número de caracteres presentes en i y ausentes en k. c: Número de caracteres presentes en k y ausentes en i. d: Número de caracteres ausentes en los dos.


Coeficiente de Jaccard (Sneath)" Coeficiente de Dice y Sorensen" Coeficiente de Sokal y Michener (Coeficiente de concordancia simple)" Coeficiente de Rogers y Tanimoto" Coeficiente de Yule" Coeficiente de Hamann"

Datos mixtos!


!!

Un dendrograma es una representación gráfica en forma de árbol que resume el proceso de agrupación. Los objetos similares se conectan mediante enlaces cuya posición en el diagrama está determinada por el nivel de similitud/disimilitud entre los objetos.


Media Vecino mรกs prรณximo Vecino mรกs lejano Centroide Mediana Ward

!! Consideremos

un ejemplo sencillo con solo 5 objetos y dos variables. 5

3

1

2

4


5

4

3 D(1,4)=8.5 D(1,3)=5 1

2 D(1,2)=1

Matriz de distancias euclídeas (Distancias en línea recta entre dos puntos)

5

4

3

Distancia más pequeña 1

2

Matriz de distancias euclídeas (Distancias en línea recta entre dos puntos)


Representamos las distancias frente a los objetos en ejes cartesianos

Distancias Unimos los objetos 1 y 2 a la distancia 1

A

Objetos

Tenemos un nuevo punto de coordenadas (1.5, 1) que representa al cluster A. El número de clusters se ha reducido en 1. 5

4

Cluster v1 A

3

A

Sustituimos los dos puntos que formaban el cluster A por su centroide. El cluster A está representado por este punto

v2 1,5

1

P3

4

5

P4

7

7

P5

5

7

Calculamos la nueva matriz de distancias euclídeas

Buscamos de nuevo la distancia más pequeña


Distancias Unimos los objetos 4 y 5 a la distancia 2 (Cluster B)

B

A

Objetos

B

Hemos reducido el número de clusters en una unidad

3

Calculamos la nueva matriz de distancias euclídeas A

Buscamos la distancia más pequeña


Agrupamos los clusters 3 y B a la distancia 2.8 (Cluster C)

Distancias

C

B

A

Objetos

Quedan s贸lo dos clusters C

Nueva matriz de distancias eucl铆deas A

Juntamos los dos en uno solo que contiene todos los objetos y hemos terminado el proceso.


Agrupamos los clusters C y A a la distancia 6.4

Distancias

C

B

A

Objetos

5

3

1

B

4

C

A

Distancias

2

C

B

A Objetos


5 4 3

1

2

C Trazamos una lĂ­nea horizontal que corte al dendrograma en dos puntos

5

B

A

4

3

1

2

C Trazamos una lĂ­nea horizontal que corte al dendrograma en tres puntos

A

B


D(1,2)=1.0 (1.0) D(1,3)=6.4 (5.0) D(1,4)=6.4 (8.5) D(1,5)=6.4 (7.2) D(1,4)=6.4 (4.5) D(2,3)=6.4 (7.8) D(2,4)=6.4 (7.8) D(2,5)=6.4 (6.7) D(3,4)=2.8 (3.6) D(3,5)=2.8 (2.2) D(3,5)=2.0 (2.0)

!! Correlaci贸n

entre las distancias observadas y las estimadas en el gr谩fico.

Observadas 1 5 8,5 7,2 4,5 7,8 7,8 6,7 3,6 2,2 2

Estimadas 1 6,4 6,4 6,4 6,4 6,4 6,4 6,4 2,8 2,8 2

r = 0.891


Como ayuda a la decisión sobre el número de clusters se suelen representar los distintos pasos del algoritmo y la distancia a la que se produce la fusión. En los primeros pasos el salto en las distancias será pequeño, mientras que en los últimos el salto entre pasos será mayor. El punto de corte será aquel en el que comienzan a producirse saltos bruscos.


En el método de la media, la distancia entre clusters se calcula como la distancia media entre pares de observaciones, una de cada cluster. !! Proporciona clusters ni demasiado grandes ni demasiado pequeños. !! Pueden utilizarse medidas de la similitud o de la disimilitud. !! No es invariante por transformaciones monótonas de las distancias. !! Tiende a fusionar clusters con varianzas pequeñas y tiende a proporcionar clusters con la misma varianza. !!


En el método del vecino más próximo la distancia entre dos clusters es el mínimo de las distancias entre un objeto de un cluster y un objeto del otro. !! No es muy útil para resumir datos. !! Útil para detectar outliers (estarán entre los últimos en unirse a la jerarquía). !! Pueden usarse medidas de la similitud o de la disimilitud. !! Tiende a construir clusters demasiado grandes y sin sentido. !! Invariante bajo transformaciones monótonas de la matriz de distancias. !!


!! En

el método del vecino más lejano la distancia entre dos clusters es el máximo de las distancias entre un objeto de un cluster y un objeto del otro. !! Útil para detectar outliers. !! Pueden usarse medidas de la similitud o de la disimilitud. !! Tiende a construir clusters pequeños y compactos. !! Invariante bajo transformaciones monótonas de la matriz de distancias.


!! Se

realiza la agrupación que hace máxima la varianza de las distancias entre grupos en relación a la varianza de las distancias dentro de los grupos. !! El método suele ser muy eficiente. !! Tiende a crear clusters de pequeño tamaño. !! Se puede usar la matriz de distancias así como una tabla de contingencia. !! Invariante bajo transformaciones monótonas de la matriz de distancias. !! Puede ser sensible a los outliers.




Carne Roja Carne Blanca Huevos Leche Pescado Cereales FĂŠculas Frutos secos Frutos y vegetales

Component

Total 1 2 3

Component Matrix(a) Component 1 2 -0,606 -0,072 -0,622 -0,303 -0,854 -0,045 -0,756 -0,236 -0,272 0,827 0,876 -0,299 -0,595 0,451 0,841 0,183 0,221

0,686

Initial Eigenvalues % of Variance Cumulative % 4,006 44,516 44,516 1,635 18,167 62,683 1,128 12,532 75,215

Component Matrix(a) Component 1 2 Carne Roja -0,606 -0,072 Carne Blanca -0,622 -0,303 Huevos -0,854 -0,045 Leche -0,756 -0,236 Pescado -0,272 0,827 Cereales 0,876 -0,299 FĂŠculas -0,595 0,451 Frutos secos 0,841 0,183 Frutos y vegetales 0,221 0,686


Component Matrix(a) Component 1 2 Carne Roja -0,606 -0,072 Carne Blanca -0,622 -0,303 Huevos -0,854 -0,045 Leche -0,756 -0,236 Pescado -0,272 0,827 Cereales 0,876 -0,299 FĂŠculas -0,595 0,451 Frutos secos 0,841 0,183 Frutos y vegetales 0,221 0,686


!! Dado

un conjunto de observaciones (x1, x2, …, xn), dónde cada observación es un vector p dimensional, el método k-medias trata de buscar una partición de las n observaciones en k grupos o clusters (k!<!n) S!=!{S1,!S2,!…,!Sk} de forma que la suma de cuadrados de las distancias dentro de los grupos sea mínima.


!! 1.-

Se seleccionan tantos puntos al azar como n煤mero de clusters (en este caso k=3). Los puntos seleccionados son los centroides iniciales.

!! 2.-

Se determinan los grupos asociando cada observaci贸n al centroide m谩s pr贸ximo.


!! 3.-

Se recalculan los centroides mediante las medias de los clusters construidos en el apartado anterior.

!! 4.-

Se repiten los pasos 2 y 3 hasta que se alcanza la convergencia, es decir, hasta que los centroides y las asignaciones no cambian.


!! Se

trata de un algoritmo heurístico que no garantiza la convergencia a un mínimo global. !! Depende de la selección inicial de los centroides. !! Como converge rápidamente, es conveniente probar varias soluciones iniciales. !! El número de clusters (k) es un parámetro definido a priori por lo que debe elegirse cuidadosamente. Es conveniente probar con distintos valores.




Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.