ANÁLISIS DE CONGLOMERADOS JMP SEGMENTACIÓN DE PAÍSES Andrea Escortell
Miguel Silva
Silvia López UAB 2013
¿QUÉ ES EL ANÁLISIS CLUSTER Y PARA QUÉ NOS PUEDE SERVIR?
CON NUESTRO EJEMPLO “A través del análisis cluster tratamos de agrupar los países de forma que puda ser interesante para plantear políticas similares entre los países que forman parte de un mismo grupo según las variables asociadas, consiste en este caso en una segmentación de la UE con fines políticos”
NIVEL TEÓRICO “El análisis de conglomedrados o análisis cluster es una técnica estadística multivariante cuya finalidad es dividir un conjunto de objetos en grupos de forma que los perfiles de los objetos en un mismo grupo sean muy similares entre sí y los de los objetos de clusters diferentes sean distintos. El análisis cluster se utiliza en marketing con diversos propósticos (segmentación del mercado, comprensión del comportamiento del consumidor...”
¿QUÉ TIPOS DE ANÁLISIS CLUSTERS REALIZAREMOS? En el presente ejemplo compararemos un primer análisis cluster Kmedias y posteriormente realizamos, para contrasta, un análisis cluster utilizando el algoritmo de agrupación jerárquico (el cual desarrolla una jerarquía de árbol)
0 PRESENTACIÓN DEL CASO
1º ANÁLISIS CLUSTER K-MEDIAS
2º ANÁLISIS CLUSTER JERÁRQUICO
PRESENTACIÓN DEL CASO Disponemos 7 variables que se muestran en la tabla inferior. La información de estas 8 variables están tomadas de 30 países distintos, 27 de los cuales son de la UE. Los datos son del año 2010. Las variables que seleccionamos para el análisis son:
Tasa de suicidios % Gasto público dedicado a educación Macromagnitudes Tasa de paro Renta per capita Índice de satisfacción Sociocultural Tasa de creencia en Dios Número de ovejas por km2
Aparentemente absurdo
ANÁLISIS CLUSTER K-MEDIAS
CON NUESTRO EJEMPLO Analize > multivariate methods > Cluster Apartado options: Kmeans
NIVEL TEÓRICO
Los clusters de K-medias es una herramienta diseñada para asignar casos a un número fijo de grupos cuyas características no son conocidas pero están basadas en un conjunto de variables espcíficas. Es muy útil este tipo de cluster cuando se desea agrupar grandes datos. Su procedimiento comienza con la construcción de centros iniciales de los clusters mediante la definición de las medias (k) de los grupos. Al haber obtenido los datos iniciales, el algoritmo asigna casos a clusters basado en las distancias de los clusters iniciales y actualiza la localización de los cluster iniciales basados en las medias de los valores en cada uno de ellos.
Seleccionamos las variables las cuales se van a tener en cuenta para la creación de grupos. En el apartado opciones, marcamos el método K-means y por último en Labels (etiquetas) arrastramos la variable “país” pues serán los países los que queremos que figuren como grupos.
Este proceso, se hará de forma iterada hasta que los casos en cada cluster tenga similitud al interior de su grupo.
Por defecto, JMP realizará 3 clusters; podemos seleccionar el número de clusters y de hecho, una vez tengamos los resultados de este primer análisis realizaremos lo mismo pero cambiando el valor de 3 por un número superior de clusters, para considerar la diferencia entre la realización de más o menos clusters. Marcamos la pertaña de “use within-cluster standar deviations”. >Go
Aparecerá entonces los resultados del algoritmo. En nuestro caso ha realizado 3 clusters (como por defecto se especificaba), en el apartado de “Cluster Means” aparecen las medias de las 8 variables asociados países que componen cada grupo. En el cuadro de “Cluster Standard Deviations” podemos observar las desviaciones estandards entre los casos que componen el cluster. Analizamos a continuación estos dos tipos de información complementándolo con el gráfico “Biplot”.
Para obtener el “Biplot” y tener de esta forma representados los clusters gráficamente: Hot Spot > Biplot Si pulsamos sobre la opción “save Colors to Table” que aparece debajo del propio gráfico, en nuestra tabla de datos quedarán marcados los países que están englobados en cada cluster mediante la técnica utilizada. En nuestro caso observamos: El cluster 1: está compuesto por países que de media tienen una tasa de suicidios de 9,5; los países que componen el cluster tienen variabilidad en dicha tasa de 2,9 y en diversas variables el cluster 1 tiene valores muy cercanos al cluster número 3 (de ahí que en el Biplot) queden representados de esa forma. El mismo análisis descriptivo de los resultados podríamos realizar para los clusters 2 y 3. Lo interesante sería que los clusters presentaran medias entre ellos muy distintas pero que las desviaciones estándares fueran pequeñas, para de esta forma disponer de grupos homogeneos por lo que hace a sus componentes y muy distintos al compararlos con otros clusters. A continuación, visto que el cluster 1 y 3 tienen aspectos similares. Realizamos el mismo proceso pero indicando k=2.
Forzando la realización de 2 clusters, observamos que mientras las medias son muy dispares entre clusters (por lo que hace referencias a variables como la tasa de suicidios o la renta per cápita de los países que componen el cluster) las variabilidad de los países que componen los grupos ha aumentado. De esta forma, la elección de uno o dos clusters de países a nivel de segmentación para la aplicación de determinadas políticas, depende del grado de importancia de ambos aspectos: la homogeneidad entre los casos y la heterogeneidad entre los grupos, aquello que tenga mayor importancia llevará a concluir un tipo de segmentación de los países u otra.
RESULTADOS Y CONCLUSIONES ANÁLISIS CLUSTER K-MEDIAS Mediante este primer método, los datos se han agrupado respecto a cercanía de las medias. Ventaja del método: un determinado dato que se asignó a un cluster, puede ser reasignado a un cluster diferente durante la iteración. Desventaja: hemos de especificar un número de clusters por adelantado.
¿QUÉ NÚMERO DE CLUSTERS ESPECIFICAR? No hay una solución consensuada como válida. A veces se determina arbitráriamente y a veces el propio problema determina la k o número de clusters. Hemos visto cómo al pasar de 3 clusters a 2, en definitiva el algoritmo ha dado como resultado la “unión” de los clusters con mayor similitud, el cluster 3 en en el primer análisis de conglomerados contenía muy pocas observaciones; con la reducción de clusters, los grupos están compuestos por un número similar de países. ANÁLISIS K=3
ANÁLISIS K=2
España
Portugal
Italia
Alemania
Bulgaria
Chipre
Irlanda
Eslovaquia
Francia
Hungría
Países Bajos
Lituania
Austria
Polonia
Reino Unido
Rumanía
Malta
cluster 1
cluster 2
cluster 3
España
Polonia
Alemania
Francia
Rumanía
Irlanda
Portugal
Países Bajos
Bulgaria
Austria
Eslovaquia
Reino Unido
Hungría
Chipre
Lituania
Malta
cluster A
cluster B
ANÁLISIS CLUSTER JERÁRQUICO
CON NUESTRO EJEMPLO Analize > multivariate methods > Cluster Apartado options: Hierarchical Apartado Method: Ward
NIVEL TEÓRICO El análisis cluster jerárquico es una herramienta exploratoria diseñada para revelar las agrupaciones naturales dentro de un conjunto de datos. Es el más útil cuando queremos agrupar un número pequeño de objetos. Este análisis comienza separando cada objeto en un clúster por sí mismo. En cada etapa del análisis, el criterio por el que los objetos son separados se relaja en orden a enlazar los dos conglomerados más similares hasta que todos los objetos sean agrupados en un árbol de clasificación completo. Además, seleccionamos: WARD En el método de mínima varianza de Ward, la distancia entre dos grupos es la suma ANOVA de cuadrados entre los dos grupos añadido a lo largo de todas las variables. STANDARIZE DATA Los datos normalizados primero por la media y la desviación estándar de la columna.
La secuencia de la agrupación se visualiza fácilmente con la ayuda del dendrograma, que se muestra en el Informe de conglomerados jerárquico. Un dendrograma es un diagrama de árbol que muestra cada observación, y muestra cada caso en qué cluster está agrupado y cuando se formó. Se puede arrastrar la pequeña asa en forma de diamante en la parte superior o inferior de la dendrograma para identificar un determinado número de clusteres. El eje de ordenadas es la distancia que hace de puente para unirse a los grupos en cada paso. A menudo hay una ruptura natural donde la distancia salta de repente. Estos saltos sugieren puntos de corte naturales para determinar el número de conglomerados.
Con el dendograma podemos analizar lo siguiente: La observación más distante al resto es la de Italia, ya que es la última (mayor distancia) en incorporarse al cluster final, seguida del Reino Unido. Por el contrario, las observaciones más cercanas entre sí son Chipre y Malta, que forman el primer grupo (distancia más próxima a 0), y Polonia y Portugal, que forman el segundo.
Determinamos 5 clusters y les damos color, viendo así, que los clusters quedan distinguidos por colores.
El dendograma nos sirve para para saber la composición de cada clúster en cada paso. En los comandos que visualizamos desplegando el “Hotspot” encontramos la opción: “Number of clusteres”; en la que podemos pedir el número de clústeres en que queremos que se divida el dendograma,. Si ponemos un 5 vemos que los diamantes se posicionan a la distancia en la que obtenemos los 5 clusteres. También está la opción “Color clusters” que nos pinta las líneas que corresponden a cada clúster de un color distinto, distinguiendo claramente qué observaciones componen cada cluster. El gráfico de sedimentación debajo del dendrograma tiene un punto cuando cada grupo se une.
Como hemos podido ver en la división anterior de 5 clusters, ninguna observación quedaba aislada, por lo que no hay ningún cluster de tamaño 1. Si seleccionamos la división en 8 clusteres obtenemos las siguientes agrupaciones del dendograma a la derecha, viendo que quedan 3 clusters de tamaño 1.
El número de grupos comienza con 16. Se puede ver que los dos puntos más cercanos, Chipre (5) y Malta (21), se unen para reducir el número de grupos existentes a 15. Los siguientes dos puntos más cercanos son Polonia(24) y Portugal(25). El mayor salto se da entre las 2 últimas etapas, indicando una solución de 2 clusters, la siguiente seria en 8 clusters.
Abrimos la tabla Historial de Clustering para ver los resultados que se muestran en la Historia de clústeres. Cuando hay muchos casos, la tabla puede ser muy larga, pero puede ser más fácil de revisar la columna de distancias para los saltos más grandes que revisar el dendograma. Una buena solución cluster es aquella que considera un salto repentino (hueco) en el coeficiente de distancia. La solución anterior al salto indica la buena solución.
RESULTADOS Y CONCLUSIONES ANÁLISIS CLUSTER JERÁRQUICO
La solución que obtenemos es insatisfactoria debido a que no hay una clasificación fuerte, por lo que se debe intentar una nueva solución utilizando un método de conglomeración diferente: vecino más lejano o vinculación completa como método de agrupamiento. En el caso que agrupáramos en el número de clusters que nos sugieren los huecos analizados mediante las distancias en el dendograma y en el histórico obtendríamos posibles soluciones de 2 y 8 clusters formados por los siguientes países:
Andrea Escortell Miguel Silva Silvia L贸pez UAB 2013