Analisis de cluster by ADRIANA GONZALEZ

An谩lisis de Cluster Investigaci贸n de Mercados II Laura Medina Barboza

Introducción 



El Análisis Cluster, también es conocido como Análisis de Conglomerados, Taxonomía Numérica o Reconocimiento de Patrones. Es una técnica estadística multivariante cuya finalidad es dividir un conjunto de objetos en grupos de forma que los perfiles de los objetos en un mismo grupo sean muy similares entre sí (cohesión interna del grupo) y los de los objetos de clusters diferentes sean distintos (aislamiento externo del grupo).

Utilidad 

El análisis de cluster se utiliza en marketing para diversos propósitos, entre los que podemos destacar: segmentación del mercado, comprensión del comportamiento del consumidor, identificación de oportunidades para productos nuevos, selección de mercados de prueba, reducción de datos, etc.

Aclaraciones  



La técnica no tiene vocación / propiedades inferenciales Que por tanto, los resultados logrados para una muestra sirven sólo para ese diseño (su valor atañe sólo a los objetivos del analista): elección de individuos, variables relevantes utilizadas, criterio similitud utilizado, nivel de agrupación final elegido.... definen diferentes soluciones. El análisis de cluster y discriminante no tiene demasiado en común: el discriminante intenta explicar una estructura y el Cluster intenta determinarla.

Definición 

Se utiliza la información de una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogéneos internamente y diferentes entre sí. La "nueva dimensión" lograda con el cluster se aprovecha después para facilitar la aproximación "segmentada" de un determinado análisis.

Ejemplo 



Objetivo Una empresa desea clasificar a sus consumidores en "tipos“ según sus distintas percepciones de determinados atributos de la marca: CALIDAD GLOBAL, NIVEL SERVICIO, PRECIO, SERVICIO POSTVENTA Y VARIEDAD. Diseño Para ello, se diseña una muestra con 100 compradores a los que cuestiona sobre su percepción, en una escala de intervalo, de las anteriores 5 características de los productos de la empresa. Resultado La idea final consiste en diseñar distintas estrategias de promoción en función de sus diversos perfiles, si es que estos existen.

Proceso de elaboraci贸n OBJETIVO: Agrupar objetos similares PASO 1: Formular el problema de agrupaci贸n PASO 2: Seleccionar una medida de distancia PASO 3: Seleccionar un procedimiento de agrupaci贸n PASO 4: Interpretar y elaborar un perfil del conglomerado PASO 5: Evaluar la validez del conglomerado

Selección de la muestra y las variables 

MUESTRA: Adecuar al máximo la muestra al objeto de análisis, es decir, se deben depurar los casos atípicos (interesan elementos como miembros de grupos, no interesa la excesiva "individualidad.



VARIABLES 



CANTIDAD: No elegir variables indiscriminadamente; cada estructura se manifiesta en una serie de variables y cada grupo de variables revela, sólo, una determinada estructura. Los resultados son muy sensibles a la inclusión de alguna variable irrelevante y la inclusión indiscriminada de variables aumenta la probabilidad de atípicos. TRANSFORMACIÓN: Depende y afecta a muchas decisiones posteriores (medida de distancia /similitud empleada, por ejemplo), se recomienda la estandarización por variable (aunque resulta útil para mediciones posteriores de distancia puede afectar al resultado del análisis) y no se recomienda si las diferencias de medidas reflejan alguna cualidad natural de interés conceptual.

Tipos de análisis de cluster 

Por lo general, los algoritmos de agrupación (división para la obtención de conglomerados) del análisis de cluster se dividen en: 



Métodos jerárquicos: desarrollan una jerarquía en forma de árbol.  Cluster Jerárquicos Métodos no jerárquicos:  Cluster de K-Medias  Métodos no tradicionales: Cluster de dos fases

Métodos de enlace 

Métodos de enlace del cluster Jerárquico:     



Distancia mínima (single linkage o enlace sencillo) Distancia máxima (complete linkage o enlace completo) Distancia entre centros (centroid) Distancia mediana (median) Distancia promedio - simple (average linkage) - entre grupos (between groups) - intragrupos (within groups) Método de Ward: minimiza la distancia euclideana cuadrada de las medias.

Métodos de enlace 

Métodos de enlace del Cluster No Jerárquico: Método del umbral secuencial Se seleccionan una tras otra, "semillas" de conglomerado agrupando en torno a ellas todos los objetos que caen dentro de una determinada distancia. Cada objeto ya asignado no se considera para posteriores asignaciones.  Método del umbral paralelo Similar al anterior pero se generan todas las semillas al mismo tiempo y los umbrales mínimas de aceptación en cada grupo.  Método de optimización Similares a los jerárquicos pero no se clasifican como tales porque en las etapas sucesivas se permite la reasignación de sujetos. 

CaracterĂsticas de los tipos de clusters

Clusters de K-Medias 



Es una herramienta diseñada para asignar casos a un numero fijo de grupos cuyas características no son conocidas pero están basadas en un conjunto de variables específicas. Es muy útil cuando se desea agrupar grandes datos: Un buen análisis de cluster es:  

Eficiente. Usa pocos grupos. Efectivo. Captura todo lo estadística y comercialmente importante en cada cluster. Por ejemplo. Un cluster con cinco consumidores puede ser estadísticamente diferente pero en términos de negocio, no es lucrativo.

K-Medias… 



Su procedimiento comienza con la construcción de centros iniciales de los clusters mediante la definición de las medias (k) de los grupos. Después de obtener los iniciales, el procedimiento:  



Asigna casos a los clusters basado en las distancias de los clusters iniciales. Actualiza la localización de los clusters iniciales basados en las medias de los valores en cada uno de ellos.

Este procedimiento se realiza de forma iterada hasta que los casos en cada cluster tenga similitud al interior de su grupo.

Ejemplo para determinar el comportamiento del consumidor 



Elabore un análisis de cluster de k – medias para la base de datos telco_extra.sav, en el que se pueda realizar un perfil de los consumidores. Considere las siguientes variables: log_larga distancia estandarizado, hasta log_inalámbrico estandarizado y de líneas múltiples estandarizado hasta facturación electrónica estandarizada. Considere la conformación de tres clusters.

K-medias 



En Iterar, se debe solicitar realizar el procedimiento en 20 ocasiones. En opciones, se deben solicitar los centros iniciales, la tabla de ANOVA y la información del cluster para cada caso.

K-medias Centros iniciales de los conglomerados



Los centros de los clusters iniciales para las variables muestran buen espaciado entre ellos.

Conglomerado 2

1 Log-Larga distancia estandarizado Log-llamadas gratuitas estandarizado Log-equipos estandarizado Log-tarjeta de llamada estandarizado Log-inalámbrico estandarizado Líneas múltiples estandarizado Mensajes de voz estandarizado Servicio busca estandarizado Internet estandarizado Identificador de llamadas estandarizado Llamada en espera estandarizado Desvío de llamadas estandarizado Llamada a 3 estandarizado Facturación electrónica estandarizado

2,48

-1,70

,12

2,34

-,20

-,39

1,34

-,65

,59

2,49

-,86

-1,28

1,14

-1,75

1,42

1,05

-,95

1,05

1,51

1,68

1,31

-,76

1,31

1,04

-,96

1,03

-,97

1,03

1,01

-,99

1,00

-1,00

-,77

1,30

K-medias 



El historial de las iteraciones muestra el avance del proceso de cluster en cada paso. En las primeras iteraciones los centros de los clusters presentan grandes cambios. Mientras que las iteraciones posteriores muestran pocos cambios

Historial de iteracionesa

Iteración 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Cambio en los centros de los conglomerados 1 2 3 3,298 3,590 3,491 1,016 ,427 ,931 ,577 ,320 ,420 ,240 ,180 ,195 ,119 ,125 ,108 ,093 ,083 ,027 ,069 ,094 ,032 ,059 ,051 ,018 ,035 ,085 ,063 ,025 ,359 ,333 ,068 ,439 ,287 ,079 ,368 ,177 ,125 ,139 ,078 ,077 ,096 ,020 ,041 ,047 ,015 ,014 ,027 ,000 ,019 ,038 ,000 ,000 ,000 ,000

a. Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de ,000. La iteración actual es 18. La distancia mínima entre los centros iniciales es de 6,611.

ANOVA Conglomerado Media cuadrática gl

K-medias

Log-Larga distancia estandarizado Log-llamadas gratuitas estandarizado Log-equipos estandarizado Log-tarjeta de llamada estandarizado Log-inalámbrico estandarizado Líneas múltiples estandarizado Mensajes de voz estandarizado Servicio busca estandarizado Internet estandarizado Identificador de llamadas estandarizado Llamada en espera estandarizado Desvío de llamadas estandarizado Llamada a 3 estandarizado Facturación electrónica estandarizado

Error Media cuadrática

Sig.

13,063

,976

997

13,387

,000

43,418

,820

472

52,932

,000

99,056

,488

383

202,999

,000

6,301

,984

675

6,402

,002

52,879

,646

293

81,873

,000

38,032

,926

997

41,084

,000

236,301

,528

997

447,554

,000

298,992

,402

997

743,348

,000

123,447

,754

997

163,642

,000

308,104

,384

997

802,474

,000

294,674

,411

997

717,172

,000

288,343

,424

997

680,718

,000

262,397

,476

997

551,678

,000

112,782

,776

997

145,381

,000

Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales.



La tabla de ANOVA indica cuales variables contribuyen más a la conformación del cluster.

K-medias 

Los centros de los clusters finales reflejan las características de cada grupo. 

 

Cluster 1: incluye a los grandes compradores y gastadores en muchos servicios telefónicos. Cluster 2: muestra a los consumidores moderados. Cluster 3: representa a los consumidores con menores gastos.

Centros de los conglomerados finales Conglomerado 2

,05

,22

-,16

,24

,12

-1,05

,81

-,19

-,69

,17

,02

-,17

,42

-,75

-1,00

,48

-,29

-,05

1,26

-,24

-,44

1,43

-,38

-,44

,81

-,59

-,02

,82

,71

-,81

,76

,72

-,80

,78

,69

-,79

,74

,67

-,75

,70

-,63

,05

K-medias 



Las distancias muestran la distancia euclídea entre los iniciales y los finales. Grandes distancias corresponden a grandes disparidades. Por ejemplo: Los Clusters 1 y 3 son muy diferentes, pero el cluster 2 tiene semejanzas con 1 y 3.

Distancias entre los centros de los conglomerados finales Conglomerado 1 2 3

2 3,500

3,500 4,863

3 4,863 3,396

3,396

Número de casos en cada conglomerado Conglomerado

Válidos Perdidos

1 2 3

226,000 292,000 482,000 1000,000 ,000

Cluster Jerárquico 

El análisis cluster jerárquico (ACJ) es una herramienta exploratoria diseñada para revelar las agrupaciones naturales (o los conglomerados o clusters) dentro de un conjunto de datos que no sería de otra manera evidente. Es el más útil cuando usted desea agrupar un número pequeño (menos que algunos cientos) de objetos. Los objetos en análisis cluster jerárquico pueden ser casos o variables, dependiendo de si usted desea clasificar casos o examinar relaciones entre las variables.

Jerárquico… 

El Análisis Cluster Jerárquico comienza separando cada objeto en un cluster por sí mismo. En cada etapa del análisis, el criterio por el que los objetos son separados se relaja en orden a enlazar los dos conglomerados más similares hasta que todos los objetos sean agrupados en un árbol de clasificación completo.

Jerárquico… 

El criterio básico para cualquier agrupación es la distancia. Los objetos que estén cerca uno del otro pertenecerían al mismo conglomerado o cluster, y los objetos que estén lejos uno del otro pertenecerán a distintos clusters. Los clusters que se construyen dependen de la especificación de los siguientes parámetros: 



El método cluster, el cual define las reglas para la formación del cluster. Por ejemplo, podemos usar el par de objetos más cercado entre clusters o el par de objeto más alejados, o un compromiso entre estos métodos. La medida de distancia, la cual define la formula para el cálculo de la distancia. Por ejemplo, la medida de distancia Euclídea calcula la distancia como una línea recta entre dos clusters. Las medidas de intervalo asumen que las variables están medidas en escala; las medidas de conteo asumen que son números discretos, y las medidas binarias asumen que toman dos valores. La estandarización permite igualar el efecto de las variables medidas sobre diferentes escalas.

Ejemplo para segmentación para competencia 



Los fabricantes de autos necesitan valorar el mercado actual para determinar la posible competencia para sus vehículos. El propósito es encontrar grupos de vehículos con características similares que compitan en el mismo segmento de mercado. Para realizar el análisis de cluster tome en consideración sólo los modelos cuyas ventas sobrepasen las 100 mil unidades. La información para distintos tipos y modelos de motor de autos está contenida en el archivo car_sales.sav. Considere las variables “precio en miles” hasta “eficiencia en el consumo”.

Jerárquico… 



Primero se deberán seleccionar aquellos modelos cuays ventas excedan las 100 mil unidades. Esto se solicita con el propósito de disminuir los datos de la muestra.

Jerárquico… 



Se seleccionan las variables y se solicita etiquetar casos por la variable modelo de auto. Se selecciona en gráficos el dendrograma, el cual da una representación espacial de los casos similares.

Jerarquico… 



En Método se selecciona el método de conglomeración del Vecino más Próximo. Se seleccionan las puntuaciones Z como el método de estandarización el grupo de Transformar Valores.

* * * * * * H I E R A R C H I C A L

C L U S T E R

A N A L Y S I S * * * * * *

Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E Num

0 5 10 15 20 25 +---------+---------+---------+---------+---------+

Accord Camry Malibu Grand Am Impala

8 11 2 9 3

         

Taurus Mustang Focus Civic Cavalier Corolla

5 4 6 7 1 10

            

Label

Los casos se enumeran a lo largo del eje vertical de la izquierda. El eje horizontal muestra las distancias entre los clusters. El análisis del árbol de clasificación para determinar el número de clusters es subjetivo, generalmente, empezamos buscando distancias entre los agrupamientos a lo largo del eje horizontal. Empezando desde la derecha, hay un hueco entre las distancias 20 y 25, que divide a los automóviles en dos conglomerados. Hay otro hueco desde aproximadamente 10 a 15, que sugiere 6 conglomerados.



Cuando hay muchos casos, la tabla puede ser muy larga, pero puede ser más fácil de revisar la columna de coeficientes para los saltos más grandes que revisar el dendograma. Una buena solución cluster es aquella que considera un salto repentino (hueco) en el coeficiente de distancia. La solución anterior al salto indica la buena solución. El mayor salto en la columna de coeficientes se da entre las etapas 5 y 6, indicando una solución de 6 clusters, y en las etapas 9 y 10, indicando una solución de 2 clusters. Estas son las mismas que habíamos encontrado a partir del revisión del dendograma.

Historial de conglomeración

Etapa 1 2 3 4 5 6 7 8 9 10

Conglomerado que se combina Conglom Conglom erado 1 erado 2 8 11 6 7 2 9 1 6 3 5 1 10 2 8 2 3 2 4 1 2

Coeficientes 1,260 1,579 1,625 2,318 2,619 3,670 4,420 4,505 4,774 5,718

Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 0 0 2 0 0 4 0 3 1 7 5 8 0 6 9

Próxima etapa 7 4 7 6 8 10 8 9 10 0

Jerárquico práctica 2 



Esto solución es insatisfactoria debido a que no hay una clasificación fuerte, por lo que se debe intentar una nueva solución utilizando un método de conglomeración diferente: vecino más lejano o vinculación completa como método de agrupamiento. Realice el análisis de cluster e interprete los resultados.

Jerárquico práctica 3 



Una compañía desea realizar una introducción a escala limitada, de un producto en un grupo de ciudades del país que representen de la mejor forma su mercado futuro, con el fin de determinar las probables reacciones de los compradores. Para lo cual primero deberán realizar una selección de las ciudades de lanzamiento. Con la base de datos mtk_prueba.sav disponible en el buzón de transferencia digital, seleccione al conjunto de ciudades para el lanzamiento.