Unidad 5. Introducción al análisis multivariado

Page 1

Análisis de Conglomerados.

Amparo Vallejo Arboleda

1

ANALISIS DE CONGLOMERADOS (Clusters) Los procedimientos exploratorios en el Análisis multivariado a menudo son útiles para entender las relaciones existentes en un conjunto de datos, por ejemplo buscar la estructura natural de grupos de datos puede proporcionar un medio indirecto para entender la dimensionalidad de los datos, identificar valores extraños y sugerir hipótesis concernientes a las relaciones. En este capítulo establecemos diferencia entre los términos clasificación y agrupación. La clasificación parte del conocimiento de un número de grupos y el objetivo es crear un mecanismo para asignar nuevos individuos a uno de esos grupos. La agrupación busca identificar grupos y se realiza basándose en similaridades (disimilaridades) o distancias entre los individuos a este método se le llama análisis de conglomerados (clusters). El objetivo en el análisis de conglomerados es descubrir la agrupación natural de los individuos (objetos). Un conglomerado (o cluster) es un conjunto de individuos similares, es por tanto necesario desarrollar escalas cuantitativas en las cuales se pueda medir la similaridad entre los objetos y crear algoritmos para ordenarlos en grupos. Dada la dualidad de la matriz de datos, también es posible tener una visión semejante a la descrita anteriormente pero desde el punto de vista de las variables, esto es, descubrir grupos de variables cuya información es similar para el conjunto de los individuos. En este capítulo nos ocuparemos fundamentalmente de la técnica de conglomerados para los individuos. Esta técnica tiene su origen en la biología en la que el problema de clasificación de las especies tiene gran importancia. Son Robert R. Sokal y P.H. Sneath con sus libros The principles of numerical taxonomy (1963) y Numerical Taxonomy (1972) los que inician el desarrollo de esta técnica. Actualmente es aplicada a muchos campos como la medicina, la psiquiatría, arqueología, antropología entre otros. En la figura 1 se reflejan los pasos fundamentales del análisis de conglomerados. Como en otras de las técnicas partimos de una matriz de datos X de tamaño (n × p ) , de individuos por variables. Las variables en general pueden ser de cualquier tipo: nominales ordinales de intervalo o de razón. Los aspectos importantes en este análisis tienen que ver con la selección de: - Las variables a incluir en el análisis. - Las distancias o similaridades. - El algoritmo de clasificación.


Criterio de Similaridad

Algoritmo de Clasificación

Estructura

arborescente

E

Indiv

D

Matriz de similaridades

C

Matriz de datos

60 50 40 30 20 10 0

B

Indiv

A

Indivi Indiv

Variables

Distancia

2

Representación gráfica

Figura 1: Pasos del Análisis de Conglomerados.

Selección de las variables Hay tres problemas a considerar: - Que las variables estén en diferentes unidades. En este caso se suelen estandarizar para colocarlas en la misma unidad de medida. - Que estén altamente correlacionadas. - Que el número de variables sea muy grande. Para resolver el segundo y tercer problemas deberemos usar el método de los componentes principales que, como sabemos, reduce el número de variables a aquellas más significativas, las que explican una mayor cantidad de varianza y que no están correlacionadas entre sí. Distancias y similaridades. Las medidas descriptivas que se analizaron en un capítulo anterior reflejan las condiciones de las variables en el conjunto de datos; la otra forma de mirar la estructura de los datos es analizarlos considerando las distancias o similaridades entre los individuos. Las distancias y similaridades (disimilaridades) son medidas que reflejan su proximidad o su lejanía entre los objetos. A continuación se presentan las definiciones de estos conceptos. En la matriz de datos X de tamaño (n × p) cada fila i , con i = 1, 2,...n , tiene la información del individuo correspondiente en las p variables es decir está en R p . Las n filas las representamos por: x1' , x'2 ,....x'n , esto es:


Amparo Vallejo Arboleda

Análisis de Conglomerados.

⎡ x11 ⎢ # ⎢ X = ⎢ xi1 ⎢ ⎢ # ⎢ xn1 ⎣

" x1 j " x1 p ⎤ % # % # ⎥⎥ " xij " xip ⎥ ⎥ % # % # ⎥ " xnj " xnp ⎥⎦

3

← x1' # ← xi' # ← x'n

Diremos que se ha definido una función de similaridad entre dos individuos (objetos) i e i ' , si existe una función sii ' : R p × R p → R , con las propiedades siguientes, para i, i ' = 1, 2,...n : 1. sii ' ≥ 0 (no negativa) 2. sii ' = cs si y solo si i = i ' , donde cs es una cota superior, ejemplo 1 ó 10. 3. sii ' = si 'i (simétrica). La similaridad es pues una función no negativa y simétrica. Se ha definido el concepto de similaridad, pero podría definirse también el de disimilaridad como una función δ ij : R p × R p → R con las propiedades siguientes, para i, i ' = 1, 2,...n : 1. δ ii ' ≥ 0 , (no negativa) 2. δ ii ' = 0 si y solo si i = i ' (identidad) 3. δ ii ' = δ i 'i (simétrica). Diremos que se ha definido una función de distancia entre individuos u objetos si existe una función, dii ' : R p × R p → R , con las propiedades siguientes: 1. dii ' ≥ 0 (no negativa) 2. dii ' = 0 si y solo si i = i ' (identidad) 3. dii ' = di 'i (simétrica). 4. dii ' ≤ dik + di ' k (propiedad triangular). La distancia es pues una función no negativa, propiedad triangular.

simétrica y que cumple la

Algunas distancias Supongamos que se tienen las observaciones de dos individuos en un espacio p - dimensional y que los denotamos por xi = [ xi1 , xi 2 ,..., xip ] y xi ' = [ xi '1 , xi '2 ,..., xi ' p ] .


4

La definición de la distancia entre un par de individuos depende en general del tipo de variables. Si estas observaciones corresponden a variables cuantitativas medidas en escala de intervalo o de razón, se pueden definir entre ot0ras las siguientes distancias: Distancia Euclídea:

∑(x p

dii ' = d (xi , xi ' ) =

j =1

ij

− xi ' j ) = (xi − xi ' ) '(xi − xi ' ) 2

Distancia de Mahalanobis:

⎛ x − xi ' j dii ' = d (xi , xi ' ) = ∑ ⎜ ij ⎜ s j =1 ⎝ j p

2

⎞ −1 ⎟⎟ = ( xi − xi ' ) ' S (xi − xi ' ) ⎠

−1

donde S es la inversa de la matriz de varianzas-covarianzas muestrales, que se supone definida positiva. A esta distancia se le suele llamar también distancia estadística o distancia generalizada. Distancia de Minkowsky: 1/ r

⎛ p r ⎞ d ii ' = d (xi , xi ' ) = ⎜ ∑ xij − xi ' j ⎟ ⎝ j =1 ⎠ Distancia de Manhatan:

con r ∈ Z +

p

dii ' = d (xi , xi ' ) = ∑ xij − xi ' j j =1

También es posible definir una distancia personal, solo debe tenerse en cuenta que tiene que ser una función que se ajuste a las 4 condiciones que se establecieron en la definición. Coeficientes de similaridad Las similaridades (disimilaridades) son medidas que si las comparamos con las distancias no cumplen la propiedad triangular y por tanto, puede decirse, que son entonces menos exigentes y permiten definirse para espacios cuyas variables se han medido en escala nominal. Un tipo especial de datos de esta escala son los de presencia ausencia, por ejemplo los que se obtienen al clasificar personas en enfermas y aliviadas, o en encuestas de opinión cuando la respuesta es estar de acuerdo o en desacuerdo con una política. Una forma matemática de representar


Amparo Vallejo Arboleda

Análisis de Conglomerados.

5

esos resultados es a través de variables binarias, donde se asume que el valor 1 es la presencia y el valor 0 es la ausencia. La metodología siguiente nos permite definir algunas similaridades entre individuos si las variables son de tipo binario. Supongamos que se tienen las mediciones de dos individuos i e i ' medidos en 5 variables y que los resultados los tabulamos en la tabla 2 : Variables

Individuos Ind i Ind i’

X1

X2

X3

X4

X5

1 1

0 1

0 0

1 1

1 0

Tabla 2: valores de los individuos

i e i ' en 5 variables binarios

Podemos construir la tabla para los individuos i e i ' contando el número de presencias y ausencias y los codificamos como en la tabla 3. Ind i’ Ind i Totales

1 0

1 a c a+c

0 b d b+d

Totales a+b c+d p= a+b+ c+d

Tabla 3 : codificación de la información de los individuos i e i ' en p variables binarias

donde, a: frecuencia de 1-1, frecuencia de 0-0

b: frecuencia de 1-0, c: frecuencia de 0-1 y

d:

En la tabla 4 se enumeran algunos coeficientes de similaridad que se construyen para los datos binarios:


6

Coeficientes de similaridad Nombre y racionalidad C. de asociación simple a+d 1. Igual peso para los frecuencias p 1-1 y 0-0. C. de Sokal y Sneath. 2( a + d ) 2. Doble peso para los frecuencias 2( a + d ) + b + c de coincidencias. C. de Roger y Tanimoto a+d 3. Doble peso en el denominador para las a + d + 2(b + c) frecuencias de no coincidencias. Coeficientes

4.

a p

En el numerador solo se ponderan las las coincidencias 1-1.

5.

a a+b+c

C. de Jaccard En el numerador solo se ponderan las coincidencias 1-1. Ningún peso en el denominador a las frecuencias 0-0 C. de Sorensen o Dice Doble peso a las frecuencias 1-1 y ningún peso a las 0-0.

6.

7.

8. 9.

2a 2a + b + c a a + 2(b + c) a b+c (a + d ) − (b + c) p

b+c 2a + b + c

Ningún peso a las 0-0 doble peso a las frecuencias 1-0 y 0-1. Razón de las coincidencias de las presencias con las no coincidencias. C. de Hamann. Diferencia entre coincidencias y no coincidencias.

Lance y Williams

Tabla 4: coeficientes de similaridad para variables binarias

Ejemplo 1: Suponga que 5 personas son medidas en las siguientes características:

⎧1: ≥ 1.5 m Talla: X 1 = ⎨ ⎩ 0 : < 1.5m ⎧ 1: café Color de ojos: X 3 = ⎨ ⎩0 : otros

⎧1: ≥ 75 kg. Peso: X 2 = ⎨ ⎩0 : < 75 kg ⎧1: rubio Color de cabello: X 4 = ⎨ ⎩ 0 : otros


Amparo Vallejo Arboleda

Análisis de Conglomerados.

⎧1: diestro Diestro: X 5 = ⎨ ⎩ 0 : zurdo

7

⎧1: hombre Género: X 6 = ⎨ ⎩0 : mujer

Los resultados de la medición se describen en la tabla 5. Individuo A B C D E

(X1) 0 1 0 0 1

(X2) 0 1 1 0 1

(X3) 0 1 0 1 1

(X4) 1 0 1 0 0

(X5) 1 1 1 1 0

(X6) 1 0 0 1 0

Tabla 5: Valores de las mediciones de 5 individuos

Para los individuos A y B frecuencias de cada casilla

podemos construir una tabla con el número de

Ind B 1 1 3 4

1 0

Ind A Totales

Totales 3 3 6

0 2 0 2

Tabla 6: codificación de la información de los individuos 1 y 2 en 6 variables binarias

Empleando el coeficiente de similaridad 1 se puede construir.

a + d 1+ 0 1 = = p 6 6 En la tabla 7 se tienen las similaridades entre los 5 individuos es:

A

B

C

D

E

Aé 1 ù ê ú B 1/ 6 1 ê ú C ê4 / 6 3 / 6 1 ú ê ú D 4 /6 3/6 2/6 1 ê ú E êë 0 5 / 6 2 / 6 2 / 6 1úû Tabla 7: Similaridades entre los 5 individuos del ejemplo1.

De acuerdo a esta tabla los individuos más similares son el B y el E y los individuos menos similares son el A y el E.


8

Ejemplo 2: Medidas de similaridades de 11 idiomas: (Jonson, 1999). En algunas ocasiones es posible construir una medida de similaridad acorde con un problema donde lo único que se exige es que dicha medida cumpla con las condiciones impuestas en la definición de similaridad. A continuación se presenta un ejemplo para analizar la semejanza entre 11 idiomas. Una forma de estudiar las similaridades es la coincidencia en la primera letra de la escritura de cada uno de los números del uno al diez. En la tabla 8 se describe la escritura de los números 1 a 10 en 11 idiomas y en la tabla 9 se construye la matriz de similaridades. English (E)

Norwegian (N)

Danish (Da)

Dutch (Du)

German (G)

French (Fr)

Spanish (Sp)

Italian (I)

Polish (P)

Hungarian (H)

Finnish (Fi)

one two three four five six seven eight nine ten

en to tre fire fem seks sju atte ni ti

en to tre fire fem seks syv otte ni ti

een twee drie vier vijf zes zeven acht negen tien

eins zwei drei vier funf sechs sieben acht neun zehn

un deux trois quatre cinq six sept huit neuf dix

uno dos tres cuatro cinco seis siete ocho nueve diez

uno due tre quattro cinque sei sette otto nove dieci

jeden dwa trzy cztery piec szesc siedem osiem dziewiec dziesiec

egy ketto harom negy ot hat het nyolc kilenc tiz

yksi kaksi kolme neua viisi kuusi seitseman kahdeksan yhdeksan kymmenen

Tabla 8: escritura de números del 1 al 10 en 11 idiomas.

Ing Nor Dan. Hol Ale Fra Esp Ita Pol Hun Fin

Ing 10 8 8 3 4 4 4 4 3 1 1

Nor

Dan.

Hol

Ale

Fra

Esp

Ita

Pol

Hun

Fin

10 9 5 6 4 4 4 3 2 1

10 4 5 4 5 5 4 2 1

10 5 1 1 1 0 2 1

10 3 3 3 2 1 1

10 8 9 5 0 1

10 9 7 0 1

10 6 0 1

10 0 1

10 2

10

Tabla 9: Matriz de similaridades de 11 idiomas

Finalmente, dada una distancia, es posible construir similaridades a través de las distancias. Por ejemplo podemos hacer:


Amparo Vallejo Arboleda

Análisis de Conglomerados.

sii ' = 1

9

(1 + dii ' )

donde sii ' es la similaridad entre los individuos i e i ' y dii ' es la correspondiente distancia. Sin embargo no siempre es posible construir las distancias a través de las similaridades. Gower (1966, 1967) demostró que esta transformación solo es posible hacerla si la matriz de las similaridades es definida no negativa. Con la condición de definición no negativa y escalando la similaridad de tal forma que sii = 1 , se puede transformar en la forma siguiente:

dii ' = 2(1 − sii ' ) Medidas de asociación entre las variables. Cuando se tiene una matriz de datos X de tamaño (n × p) interesa además precisar un conjunto de medidas que permitan realizar el análisis desde el punto de vista de las variables. Algunas de estas medidas son: 1. Si se trata de variables cuantitativas ya hemos establecido dos medidas de asociación que son la covarianza y el coeficiente de correlación de Pearson este último está dado por: n

rjj ' =

∑ (x i =1

n

∑ (x i =1

ij

ij

− x j )( xij ' − x j ' )

− x j )2

n

∑ (x i =1

ij '

con j , j ' = 1, 2,...., p

− x j ' )2

El coeficiente asume valores entre -1 y +1 y mide la asociación lineal entre las variables X j y X j ' . Se usa para variables en escala por lo menos de intervalo. 2. El coeficiente de correlación de rangos de Spearman. Este coeficiente se usa cuando se tienen variables ordinales, por ejemplo una serie de n individuos que son ordenados por dos jueces. A una clasificación la llamamos x j y a la otra clasificación la llamamos x j ' . n

rs = 1 −

6∑ ( xij − xij ' ) 2 i =1

n(n 2 − 1)


10

( xij − xij ' ) se interpreta como una medida de la diferencia en la posición del individuo i , según x j y según x j ' . 3. El coeficiente de correlación de rangos de Kendall. Se usa cuando en los datos de entrada los individuos ordenan una serie de características. Kendall propone un coeficiente para comparar los órdenes. Consideramos una serie de individuos que son ordenados por dos jueces. Se calculan inicialmente todas las parejas posibles de individuos, esto es: n(n − 1) , para dos individuos i e i ' se establece el número de concordancias y el número de discordancias, hay concordancia si el orden de i e i ' es igual en los dos jueces, es decir si i está delante de i ' en el primer juez, también lo está en el segundo juez. En caso contrario hay discordancia. La fórmula es:

τ=

a −b n(n − 1) 2

donde,

a : es el número de concordancias. b : es el número de discordancias. n(n − 1) : es el número total de parejas. Si la concordancia es total τ = 1 y si lo es la discordancia, τ = −1 4. Cuando las variables son binarias (dicotómicas) los datos pueden organizarse en forma de tablas de contingencia pero en este caso los ítems indican las categorías de las variables. Para cada par de variables se tienen n individuos categorizados en la tabla y la tabla se puede escribir como:

Variables j Totales

1 0

Variables j’ 1 0 a b c d a+c b+d

Totales a+b c+d n= a+b+ c+d

Tabla 10: codificación de la información de las variables binarias j y j ' .

En general es posible usar diferentes medidas de similaridad entre pares de individuos o entre pares de variables.


Amparo Vallejo Arboleda

Análisis de Conglomerados.

11

Una medida de asociación es el usual coeficiente de asociación producto momento utilizado para contrastar la independencia de dos variables categóricas.

r=

ad − bc ((a + b)(c + d )(a + c)(b + d ))1 / 2

Este coeficiente está relacionado con el estadístico chi- cuadrado ( r = χ / n ), un valor alto de este coeficiente se identifica con la ausencia de independencia. 2

2

Algoritmos de agrupación de los individuos Métodos jerárquicos. Estos métodos se caracterizan por una serie sucesiva de agrupamientos o de divisiones de los ítems. Los podemos entonces clasificar como: aglomerativos y divisivos. Los primeros empiezan suponiendo que cada individuo es un conglomerado y en etapas sucesivas se agrupan los más similares y eventualmente este proceso va hasta obtener un solo conglomerado con todos los individuos. Los segundos funcionan en sentido contrario esto es, se parte de que los individuos constituyen un solo conglomerado el cual se va dividiendo de tal forma que los individuos en un subgrupo estén lo más alejados posibles de los demás; este proceso continúa hasta que se tengan tantos subgrupos como individuos. Las siguientes son las etapas en los algoritmos aglomerativos para agrupar n individuos (ó variables): 1. 2.

3.

4.

Empezar por n conglomerados cada uno con un individuo, la matriz de distancias (ó similaridades) es de tamaño ( n × n) . Buscar en la matriz de distancias los pares de conglomerados más cercanos, a estos conglomerados los denotamos por U y V y la distancia entre ellos por dUV . Reunir los conglomerados U y V y construir el conglomerado (UV ) . Actualizar la matriz de distancias borrando las filas y columnas correspondientes a U y V y adicionando una fila y una columna correspondiente a la distancia de (UV ) con los otros conglomerados. Si W es un conglomerado diferente a U y V , la distancia entre (UV ) y W la denotamos por d (UV )W . Repetir los pasos 2 y 3 hasta que todos los individuos estén en un solo conglomerado.


12

Las ideas de cómo calcular las distancias entre conglomerados las podemos describir para cada método. Entre los métodos tenemos: 1.

El vecino más cercano (Nearests neighbor). Los grupos se forman reuniendo las entradas individuales con la menor distancia (o la mayor similaridad). Inicialmente, debemos encontrar la distancia más pequeña en D = {d ik } y juntar los correspondientes objetos, digamos U y V y crear el correspondiente conglomerado (UV ) , en el paso 3 del algoritmo general la distancia entre (UV ) y cualquier otro conglomerado W se calculan como:

d (UV )W = min{dUW , dVW } Los resultados se pueden graficar en un dendrograma o diagrama de árbol. Las ramas de los árboles representan conglomerados. Las ramas se juntan en nodos cuyas posiciones a lo largo del eje de las distancias (ó similaridades) representan el nivel en el cuál ocurre la fusión. 2.

Enlace completo (Complete linkage ó Furthest neighbor). El algoritmo comienza encontrando la distancia más pequeña en la matriz D = {d ik } y juntar los correspondientes objetos digamos U y V y crear el correspondiente conglomerado (UV ) , pero el paso 3 para calcular l la distancia entre (UV ) y cualquier otro conglomerado W se calculan como:

d (UV )W = max{dUW , dVW } 3.

Enlace promedio (Average linkage ó centroide)

d (UV )W =

∑∑ d ik i

k

N (UV ) NW

donde d ik es la distancia entre el objeto i en el conglomerado (UV ) y el objeto k en el conglomerado W . N (UV ) y NW son el número de individuos en el conglomerado (UV ) y en el conglomerado W . 4.

Método de la mediana. Usa la distancia mediana de las observaciones en un conglomerado a las observaciones en otro conglomerado como la


Amparo Vallejo Arboleda

Análisis de Conglomerados.

13

medida entre conglomerados. Este método tiende a combinar conglomerados que tienen poca varianza y puede producir conglomerados que tienen la misma varianza. 5.

Grupo promedio (Group Average). Calcula la distancia entre dos conglomerados usando la distancia de las observaciones en un conglomerado a las observaciones en otro conglomerado.

6.

Método de Ward. Con este método se busca la mínima variabilidad dentro de los conglomerados, es entonces un problema de optimización. Ward (1963) basa su método en la pérdida de información resultante al agrupar los ítems en grupos, la cual está medida por la suma total al cuadrado de las desviaciones de cada objeto al centroide del grupo al que pertenece. La suma de cuadrados se calcula mediante la expresión:

SCW =

1 Xh − Xl (1 / nh + 1 / nl )

2

Donde X h y X l son los centroides y nh y nl son los tamaños de los conglomerados h y l respectivamente. Para un único atributo ó variable la suma de cuadrados se obtiene como:

⎛ nj 2 1 nj ⎞ SCW = ∑ ⎜ ∑ X ij − (∑ X ij ) 2 ⎟ ⎜ ⎟ n j i =1 j =1 ⎝ i =1 ⎠ k

donde X ij es el valor del atributo para el i-ésimo individuo en el j-ésimo conglomerado, k es el numero del conglomerado en cada etapa y nj es el numero de individuos para el j-ésimo conglomerado. Se empieza con n grupos, un caso por grupo, aquí la suma de cuadrados de Ward (SCW) es cero. En el segundo paso se buscan los dos casos que produzcan el menor incremento en la suma de cuadrados, dentro de todas las posibles combinaciones de a dos objetos. En la tercera etapa se toman los (n – 1) grupos conformados, se calcula la SCW y se juntan aquellos que produzcan el menor incremento en la variabilidad. El proceso continua hasta obtener un grupo de n objetos casos. Ejemplo 3: Para facilitar la comprensión del algoritmo se desarrolla el caso con cinco individuos a los cuales se mide un atributo.


14

individuo A B C D E

Atributo 2 10 5 12 4

El procedimiento en cada una de sus etapas es el siguiente: Primera etapa En esta etapa se conforman conglomerados cada uno con un individuo, los grupos iniciales son: {A}, {B}, {C}, {D}, {E}. SCW para cada uno de los individuos es cero.

Segunda etapa Las sumas de cuadrados de los

⎛ 5⎞ ⎜⎜ ⎟⎟ = 10 posibles conglomerados de a dos ⎝ 2⎠

individuos cada uno son las siguientes:

SCW{A,B} = 2 + 10 2

2

2 ( 2 + 10) − = 32

2 (2 + 12)2 = 50 SCW{A,D} = 2 2 + 12 2 − 2 2 ( 10 + 5) 2 2 SCW{B,C} = 10 + 5 − = 12.5 2 (10 + 4)2 = 18 SCW{B,E} = 10 2 + 4 2 − 2 2 ( 5 + 4) 2 2 SCW{C, E} = 5 + 4 − = 0.5 * 2

SCW{A,C} = 2 + 5

2 ( 2 + 5) −

= 4.5 2 (2 + 4)2 = 2 SCW{A,E} = 2 2 + 4 2 − 2 2 ( 10 + 12) 2 2 SCW{B,D} = 10 + 12 − =2 2 (5 + 12)2 = 24.5 SCW{C, D} = 5 2 + 12 2 − 2 2 ( 12 + 4) 2 2 SCW{D, E} = 12 + 4 − = 32 2 2

2

El grupo que presenta la mayor homogeneidad es el conformado por C y E , ya que la fusión de estos dos objetos produce la menor variabilidad. Los grupos que se han formado hasta aquí son: {A}, {B}, {D}, {C,E} Tercera etapa ⎛ 4⎞

Se calcula la SCW para cada uno de los posibles agrupamientos ⎜⎜ ⎟⎟ = 6 , entre ⎝ 2⎠


Amparo Vallejo Arboleda

Análisis de Conglomerados.

15

los cuatro grupos encontrados en el paso anterior; resulta

SCW{A,B} = 32 SCW{A,{C, E}} = 2 2 + 5 2 + 4 2 − SCW{D,{C, E}}

SCW{A,D} = 50

(2 + 5 + 4)

2

= 4.67 3 2 1(2 + 5 + 4 ) = 12 2 + 5 2 + 4 2 − = 38 3

SCW{B,D} = 2 *

El grupo que presenta la mayor homogeneidad es el conformado por B y D , ya que la fusión de estos dos objetos produce la menor variabilidad. Los grupos que se han formado hasta aquí son: {A}, {C,E}, {D,B} Cuarta etapa. Con los tres grupos anteriores se hacen los posibles reagrupamientos de a dos ⎛ 3⎞

conglomerados, y luego se determina la SCW para cada una de las ⎜⎜ ⎟⎟ = 3 ⎝ 2⎠ "nuevos" grupos. Los resultados se resumen como: 2 ( 12 + 10 + 2 ) 2 2 2 SCW{A,{B,D}} = 2 + 10 + 12 − = 56 3 (2 + 5 + 4)2 = 4.67 * SCW{A,{C, E}} = 2 2 + 5 2 + 4 2 − 3 2 ( 10 + 5 + 4 + 12) 2 2 2 2 SCW{{B,D},{C, E}} = 10 + 5 + 4 + 12 − = 44.75 4 El grupo que muestra la mayor homogeneidad, en términos de la menor suma de cuadrados de Ward, lo constituyen; {A} y {C,E} de donde resultan los siguientes conglomerados: {A, {C, E}},

{D,B}.

Quinta etapa. El ultimo conglomerado esta constituido por {A, B, C, D y E}; con:

SCW{A,B,C, D,E} = 2 2 + 10 2 + 5 2 + 12 2 + 4 2 −

(2 + 10 + 5 + 12 + 4)2 5

= 71.2

El método de Ward tiende a formar conglomerados con pocas observaciones y tiende a conformar grupos con el mismo número de observaciones. Por basarse en promedios es muy sensible a la presencia de valores atípicos (outliers).


16

Para el caso de variables cualitativas, Pardo (1992) propone un procedimiento basándose en el método de Ward, para variables binarias y de tres categorías. Finalmente, Gordon (1987) hace una revisión de los métodos jerárquicos para la obtención de dendrogramas y la validación de la agrupación obtenida.

Métodos de partición o no jerárquicos A diferencia de los métodos de agrupación jerárquica, los métodos de partición ó no jerárquicos no han sido muy empleados; razón por la que se interpretan, a veces, de una manera poco correcta. Se resumen estas técnicas con las siguientes características: 1. Empiezan con una partición del conjunto de objetos en algún numero especifico de grupos; a cada uno de estos grupos se le calcula el centroide. 2. Ubican cada caso u objeto en el conglomerado cuyo centroide este mas cercano a este. 3. Calculan el nuevo centroide de los conglomerados; estos no son actualizados hasta tanto no se comparen sus centroides con todos los casos. 4. Continúan con los pasos (2) y (3) hasta que los casos resulten no removibles. Otra diferencia de las técnicas de partición con las jerárquicas, es que la ubicación de un objeto en un grupo no es definitiva. Método de las K-medias Se asume que entre los individuos se puede establecer una distancia euclidiana. La idea central de estos métodos es la selección de alguna partición inicial de los objetos para luego modificar su configuración hasta obtener la "mejor" partición en términos de una función objetivo. Varios algoritmos propuestos para estos procedimientos difieren respecto al criterio de optimización (la "mejor" partición). Estos algoritmos son semejantes al de optimización, conocido coma el mayor descenso, los cuales empiezan con un punto inicial y generan una serie de movimientos desde un punto a otro, calculando en cada paso el valor de una función objetivo, hasta que se encuentra un optima local. El procedimiento de agrupamiento de K-medias consiste en dividir un conjunto de n individuos en k grupos, y esta partición se denota la por: P(n, k). Los pasos a seguir son: - Se calculan los centroides (media) de los grupos. - Se calcula la distancia de cada individuo a los centroides definidos en el paso anterior. - Se asigna cada individuo a un nuevo grupo cuyo centroide es el más cercano.


Amparo Vallejo Arboleda

Análisis de Conglomerados.

17

- El proceso se repite a partir del primer paso hasta que se cumpla un criterio de convergencia. Mas formalmente, denotemos por X ij el valor del i-ésimo individuo sobre la jésima variable; con i = 1, 2,..., n y j = 1, 2,..., p . La media de la j-ésima variable en el l-ésimo grupo se denota por X ( l ) j , l = 1, 2,..., k y n( l ) el número de individuos en el l-ésimo conglomerado. La distancia de un individuo a un conglomerado es: 1/ 2

D(i ,l )

⎛ p ⎞ = ⎜ ∑ ( X ij − X (l ) j ) 2 ⎟ ⎜ j =1 ⎟ ⎝ ⎠

Se define el componente de error de la partición por: n

ξ {P(n, K )} = ∑ ( D(i, l (i ))) 2 i =1

donde l (i ) es el grupo que contiene al i-ésimo individuo, y D (i, l (i )) es la distancia euclidiana entre el individuo i y el centroide del grupo que contiene al individuo. El procedimiento consiste en encontrar la partición con el error ξ más pequeño, moviendo individuos de un conglomerado a otro hasta que se estabilice la reducción de ξ . En resumen, se trata de reubicar los individuos, de manera que se consigan grupos con la menor variabilidad posible. Parte del problema está en la conformación de los K grupos iniciales. En la literatura sobre esta técnica se sugieren, entre otras, las siguientes estrategias: 1. Escoger los primeros K objetos de la muestra como los K grupos iniciales de vectores de medias. 2. Escoger los K objetos más distantes. 3. Empezar con un valor de K tan grande coma sea necesario, y proceder a formar centroides de los grupos espaciados a un múltiplo de desviación estándar sobre cada variable. 4. Rotular los objetos de 1 a n y escoger los que resulten marcados con los números n / k , 2n / k ,..., ( k − 1)n / k y n . 5. Escoger K y la configuración inicial de los grupos por el conocimiento previo del problema. Existen reportados en la literatura otros métodos tales como: Métodos basados


18

en la traza, Nubes dinámicas, basado en el algoritmo de nubes dinámicas de Diday (1972, 1974) y métodos gráficos entre los que están: las estrellas, los rostros de Chernoff y los gráficos de Fourier. Algunos de estos métodos se incluyen como un apéndice. Determinación del número de conglomerados. Una de las inquietudes al emplear el análisis de conglomerados, es la decisión acerca del número apropiado de ellos. Los dendrogramas sugieren el número de conglomerados en cada paso, la pregunta sigue siendo: ¿donde cortar el árbol para obtener un número óptimo de grupos? Esta pregunta no ha sido enteramente resuelta hasta hoy, aunque cada uno de los campos de aplicación le da una importancia diferente. Para las ciencias biológicas, por ejemplo, el problema de definir el número de grupos no es muy importante, simplemente porque el objetivo del análisis es la exploración de un patrón general de las relaciones entre los objetos, lo cual se logra a través de un árbol. Los procedimientos heurísticos son los más comúnmente usados, en el caso más simple, un árbol jerárquico es cortado por inspección subjetiva en diferentes niveles. Este procedimiento es bastante satisfactorio porque generalmente son guiados por las necesidades y opiniones del investigador acerca de la adecuada estructura de los datos. Una herramienta útil es graficar el número de conglomerados de un árbol jerárquico en función de la distancia en la que un conglomerado se forma. Los valores de la distancia en el diagrama de árbol se ubican sobre el eje "Y " . Se traza la línea que une los puntos de coordenadas de las distancias y el número de conglomerados; el punto desde donde la línea trazada deja de tener una tendencia horizontal sugiere el número de conglomerados adecuado. Otro método consiste en graficar el número de conglomerados de un árbol jerárquico en función del coeficiente de fusión, que corresponde al valor numérico bajo el cual varios casos se mezclan para formar un grupo. Los valores del coeficiente de fusión se ubican sobre el eje "Y " en el diagrama de árbol. Se traza la línea que une los puntos de coordenadas del coeficiente de fusión y el número de conglomerados; el punto desde donde la línea trazada se hace horizontal sugiere el número de conglomerados adecuado. Aunque no se han desarrollado formalmente pruebas estadísticas, algunas tienen una aceptación relativamente amplia. Lee (1979) considera algunas pruebas para la hipótesis de que los datos proceden de una población normal pvariada, en oposición a la alternativa de que provienen de dos poblaciones multinormales de diferentes medias. La prueba se basa en la razón de verosimilitud y en la siguiente ecuación:


Amparo Vallejo Arboleda

Análisis de Conglomerados.

19

C p = max{ T / E } La maximización se hace sobre todas las posibles particiones de los datos en dos grupos. La distribución teórica de C p es bastante complicada, sin embargo, es un punto de partida para determinar la posible diferencia entre grupos. El uso de esta prueba es limitada, puesto que es aplicable únicamente en el caso univariado. Milligan y Cooper (1985) describen y proponen pruebas para identificar el número apropiado de grupos en un proceso de aglomeración jerárquica. Peck, Fisher y Van (1989) encuentran un intervalo de confianza para el número de conglomerados, a través de un procedimiento "bootstrap". El procedimiento consiste en definir una función criterio que dependa de dos tipos de costos, un costo asociado con el numero de conglomerados, y un costo asociado con la descripción de un individuo por su respectivo conglomerado (homogeneidad del conglomerada); se busca entonces un intervalo de confianza para k, el numero de conglomerados, que minimice la función criterio. En resumen, la técnica del análisis de conglomerados es otra técnica de reducción de datos. Se puede considerar la metodología de las componentes principales como un análisis de conglomerados, donde los objetos corresponden a las variables. El análisis de conglomerados no tiene pretensiones inferenciales hacia una población a partir de una muestra, se emplea fundamentalmente coma una técnica exploratoria. Las soluciones no son únicas; y además, siempre es posible conformar otros conglomerados cuando los datos tienen una estructura. Las tipologías encontradas en un análisis de conglomerados son fuertemente dependientes tanto de las variables relevantes coma de las observaciones que intervienen en la construcción; así, una nueva variable ó un nuevo individuo pueden alterar cualquier estructura conseguida anteriormente. En consecuencia, se advierte sobre el cuidado que se debe tener con el uso de esta técnica en la toma de decisiones. Ejemplos Para obtener los resultados se utilizó el paquete STATGRAPHICS, el cual permite hacer el análisis partiendo de la información de las medidas de los individuos en las variables o también a partir de la matriz de distancias similaridades.


20

Ejemplo 1: Con los datos de las similaridades entre 5 individuos que se tienen en la tabla 7 aplicaremos un análisis de conglomerados aplicando el método del vecino más cercano. Los primeros resultados se tienen en la tabla 11 y hacen referencia al esquema de agrupación de los individuos donde se presentan cuales individuos se agruparon en cada etapa. Por ejemplo en la primera etapa se agruparon los individuos B (2) y E (5) y la distancia entre los grupos cuando se combinaron fue 1,31335, también muestra la etapa en la que este grupo combinado se combina con otro grupo, esto es la etapa 4. En la figura 2 se tiene una representación de este proceso como un diagrama de la distancia versus la etapa de aglomeración. Clusters Combined Stage First Appears Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage -------------------------------------------------------------------------1 2 5 1,31335 0 0 4 2 1 3 5,24883 0 0 3 3 1 4 5,24883 2 0 4 4 1 2 8,93687 3 1 0 --------------------------------------------------------------------------

Tabla 11:

Esquema

de agrupación, método vecino más cercano

Agglomeration Distance Plot Nearest Neighbor Method,Squared Euclidean 10

Distance

8 6 4 2 0 0

1

2

3

4

Stage Figura 2: distancias versus etapas

La siguiente información es dendrograma que se tiene en la figura 3. Dada la simplicidad del ejemplo es bastante obvio que se tienen dos conglomerados el primero con los individuos B y C, siendo este el más homogéneo, y el segundo con A, C y D.


Amparo Vallejo Arboleda

Análisis de Conglomerados.

21

Dendrogram Nearest Neighbor Method,Squared Euclidean 10

Distance

8 6 4 2

E

B

D

C

A

0

Figura 3: Dendrograma construido por el método del vecino más cercano. Datos del ejemplo 1

Ejemplo 2: En este utilizaremos las medidas de similaridad de los 11 idiomas que se tiene en la tabla 9. Aplicamos el método de Ward. Para facilitar la interpretación nos referimos a la tabla de la enumeración de los idiomas en la tabla 12. Idioma Ing Nor Dan. Hol Ale Fra Esp Ita Pol Hun Fin

Número 1 2 3 4 5 6 7 8 9 10 11

\ Tabla 12: los idiomas y su número Clusters Combined Stage First Appears Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage -------------------------------------------------------------------------1 7 8 0,18178 0 0 3 2 2 3 0,577367 0 0 4 3 6 7 1,09764 0 1 5 4 1 2 2,31646 0 2 8 5 6 9 6,02275 3 0 10 6 4 5 10,3511 0 0 8 7 10 11 19,026 0 0 9 8 1 4 32,8035 4 6 9 9 1 10 70,2022 8 7 10 10 1 6 110,0 9 5 0

Tabla 13: Esquema de agrupación por el método de Ward.


22

En la 13 se muestran las etapas de aglomeración, por ejemplo en la etapa 1 se agrupan los idiomas más cercanos que son Español e Italiano, a una distancia de o,182 y este conglomerado, que ahora tiene número 7, vuelve a agruparse en la etapa 3 con Francés y ahora es el grupo 6. Este último grupo 6 se agrupa en la etapa 5 con el Polaco y siguen siendo el grupo 6, que solo vuelve a agruparse en la etapa 10. En forma similar se pueden analizar los otros pasos de agrupación. Para definir el número de conglomerados podemos utilizar la figura 3 y la tabla 13. Hasta la etapa 8 la línea que conecta los puntos mantiene una tendencia aproximadamente horizontal (en esta se produce un codo) y es en la que se da un salto en la distancia de aglomeración, de 109,026 a 32,803. Esta etapa corresponde a la formación de 3 grupos conformados por: {Inglés, Noruego, Danés, Holandés, Alemán}, {Húngaro, Finlandés} y {Francés, Español, Italiano, Polaco} que pueden verse en el dendrogr4ama de la figura 4.

Agglomeration Distance Plot Ward's Method,Squared Euclidean 120

Distance

100 80 60 40 20 0 0

2

4

6

8

10

Stage Figura 3: Distancias versus etapa

Dendrogram Ward's Method,Squared Euclidean 120

Distance

100 80 60 40 20 Pol

Ita

Esp

Fra

Fin

Hun

Ale

Hol

Dan

Nor

Ing

0

Figura 4: Dendrograma construido por el método de Ward para los datos del ejemplo 2


Análisis de Conglomerados.

Amparo Vallejo Arboleda

23

REFERENCIAS Diaz M. L. G. Estadistica Multivariada: inferencia y métodos. Editorial Universidad Nacional de Colombia. Bogotá. 2002. Diday, E. (1972). “optimisation en classification automatique et reconnaissance des formes” Revue Française de Recherche Opérationnelle vol 3 1-29. Diday (1974). “Classification automatique séquentielle pour grands tableaux”. Revue Française de Recherche Opérationnelle vol 9 1-29.

Escoffier B, y Pagès J. Análisis Factoriales Simples y Múltiples. Servicio Editorial Universidad del País Vasco. Bilbao, 1992. Gordon A. D. (1987)”A review of hierarchical classification” . Series A journal of the Royal Statistical society: 119-150. Gower J.C. (1966). “Some distance properties of latent root and vector methods used in multivariate analysis”. Biometrika: 53 (3) 325-338Jobson, J.D. Applied multivariate data analysis, Categorical and multivariante methods: v2: Springer, 1992 Johnson R, Wichern D. Applied Multivariate Statistical Analysis. International Inc. Second edition, 1998.

Ed. Prentice Hall

Milligan G.W. and Cooper. M.C. (1985). “An examination of procedures for determining the number of clusters “. Psychometrika: vol 50, 159-179. Peck R., Fisher, LL. And Van, J. (1989). “ Approximate confidence intervals for the number of clusters”. Journal of the American Statistical Association: vol 84, 184-191. Sokal, R. R and Sneath, P.H. (1963). Principles of numerical taxonomy. Freeman. San Francisco. Sneath, P.H. and Sokal, R. R: (1973). Numerical taxonomy. Francisco.

Freeman: p. 573. San

Sneath, P.H. (1957 ). Computer in Taxonomy. Journal Gen. Microbiol. Vol 17 p.p. 201226. Stevens, S. S. (1946) “On the theory of Measurement” Science, 103, 676-680.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.