Cluster Analysis
La classificazione delle unità statistiche I metodi statistici per la classificazione delle unità in gruppi omogenei può essere distinto in: Discriminazione (analisi discriminante) Analisi dei gruppi (Cluster analysis) Nel primo caso è noto a priori che le n unità osservate appartengono a due o più popolazioni differenti, per ogni unità si conosce il corrispondente vettore dei valori delle p variabili. L’obiettivo è quindi stabilire un criterio per assegnare correttamente ulteriori unità alla rispettiva popolazione di appartenenza, minimizzando la probabilità degli errori di attribuzione. La cluster analysis è invece un metodo tipicamente esplorativo: consiste nella ricerca nelle n osservazioni pdimensionali di gruppi di unità tra loro simili non sapendo a priori se tali gruppi omogenei esistono effettivamente nel data set.
Lo scopo
L’analisi dei gruppi ha dunque l’obiettivo di riconoscere gruppi che appaiono con naturalezza nelle osservazioni. Con la cluster ananlysis si consegue una sorta di riduzione delle dimensioni di Rn: dalle n unità osservate inizialmente (spesso molto numerose), si giunge a g gruppi omogenei (g<<n), con il vantaggio d’una notevole parsimonia nella descrizione e di una interpretazione più semplice. Una classica applicazione è la segmentazione del mercato, consideriamo ad es. i modelli di automobili. Se per ciascuno di essi conosciamo un insieme di variabili (cilindrata, prezzo, velocità max, …) con la Cluster Analisis possiamo suddividere i modelli in gruppi omogenei (segmenti del mercato automobilistico) e questa conoscenza è molto importante per impostare le strategie delle case produttrici, effettuandosi la concorrenza quasi esclusivamente tra vetture dello stesso segmento.
Un po’ di storia
Fu K. Pearson che affrontò per primo lo studio della classificazione dal punto di vista statistico, sul finire del secolo XIX. Da allora ai giorni nostri gli algoritmi di clustering si sono moltiplicati e differenziati nei diversi ambiti applicativi. In particolare dalla seconda metà degli anni ’50 alcune delle tecniche di raggruppamento hanno ricevuto una più ampia trattazione teorico-metodologica grazie alla corrispondenza con la teoria dei grafi. Successivamente, di pari passo agli sviluppi delle tecnologie di calcolo, si è posta maggiore attenzione agli aspetti algoritmici delle tecniche di raggruppamento. Attualmente si dispone di molteplici soluzioni alternative per l’analisi dei gruppi. Quasi tutte le tecniche considerano una matrice di dissomiglianza che contiene le informazioni riguardanti il grado di dissomiglianza tra le diverse unità statistiche. La matrice di dissomiglianza può risultare da considerazioni soggettive sulle differenze tra le unità, come da calcoli effettuati sulla matrice dati. In questo secondo caso vi sono diversi criteri a seconda che le variabili rilevate siano, quantitative, qualitative, binarie o miste.
Variabili quantitative In questo caso la dissomiglianza tra unità coincide con la distanza tra le stesse. Diverse sono le forme di distanze che vengono considerate nella pratica. Sia X una matrice dati nxk, Xi il vettore k-dimensionale della iesima osservazione ed xih il suo elemento generico. Sia inoltre S-2 l’inversa della matrice di varianze e covarianze campionarie.
Nelle prime 3 distanze le variabili con maggiore variabilità hanno un peso maggiore nella misura della dissomiglianza tra le unità. Per evitare questo inconveniente è preferibile considerare le osservazioni standardizzate o utilizzare la distanza di Mahalanobis.
Variabili dicotomiche
Si assuma che ciascuna xih possa assumere valori 0 o 1 per i = 1, 2, …, n e h = 1, 2, …, k. La dissomiglianza tra due osservazioni Xi e Xj può essere rappresentata tramite la tabella Xj
Xi 1
0
1
a
b
0
c
d
a = numero di variabili che valgono 1 per entrambe le osservazioni; b = numero di variabili che valgono 1 per la i-esima e 0 per la j-esima osservazione; c = numero di variabili che valgono 0 per la i-esima e 1 per la j-esima osservazione; d = numero di variabili che valgono 0 per entrambe le osservazioni.
a+b+c+d = k. Questa rappresentazione può essere sintetizzata tramite due indici di dissomiglianza: il coefficiente di dissomiglianza semplice e il coefficiente di Jaccard.
b+c dij = k
b+c dij = a+b+c
Variabili miste Se vengono rilevate variabili di natura diversa la perdita di informazioni che implicherebbe la riduzione di tutte le variabili alla scala di precisione inferiore si può evitare applicando l’indice di Gower: k ∑ δ ijh sijh dove se la h-esima xih − x jh variabile è quantitativa sijh = 1 − dij = 1 − h =1 ed R(h) è il suo campo di k Rh ∑ δ ijh variazione, si ha: h =1 mentre se è qualitativa ⎧1 se la h - esima variabile ha la stessa modalità ⎪ sijh = ⎨ per le osservazio ni i - esima e j - esima, ⎪0 altrimenti . ⎩
( )
ed in generale ⎧1 ⎪ ⎪ δ ijh = ⎨ ⎪0 ⎪⎩
se si conoscono i valori dell' h - esima variabile per le osservazio ni i - esima e j - esima (serve quando vi sono dati mancanti) nel caso contrario, o in caso di accordo 0/0 per variab ili binarie di tipo presenza/a ssenza.
Concetto di similarità per la formazione dei clusters Le unità all’interno dello stesso clusters dovrebbero essere simili tra loro ma differenti dalle unità appartenenti ad altri clusters. La situazione ideale sarebbe che una unità appartenesse ad uno ed un solo cluster e che tutti i cluster fossero disgiunti In realtà i confini di ogni singolo cluster non sono ben definiti Le procedure che utilizziamo assegnano una unità ad uno ed un solo cluster Il numero di cluster che la procedura definisce può essere molto ampio, l’algoritmo dovrebbe produrre il miglior raggruppamento.
Le scelte nella cluster analysis: Scelta delle variabili La metodologia statistica in questo caso è di scarso aiuto: sono le conoscenze del ricercatore in merito al problema che possono indirizzare la scelta, che conserva però larghi margini di soggettività. La classificazione si dovrebbe basare su tutti gli aspetti che si ritengono importanti per gli scopi prefissati e questo potrebbe ampliare le variabili rilevate. Bisogna comunque considerare che aggiungere variabili con scarso potere discriminante tra i gruppi può peggiorare i risultati. Un criterio è quello di utilizzare una pluralità di variabili in modo tale che l’eliminazione o l’aggiunta di una di esse variabile lasci pressoché inalterati i gruppi individuati. L’ACP applicata in via preliminare a tutte le variabili può essere d’aiuto nella scelta delle variabili da utilizzare nella cluster analysis. Se k CP tengono conto di un’alta percentuale di varianza totale, il ricercatore può effettuare la classificazione direttamente sugli scores di tali CP, che rappresentano il segnale degli aspetti rilevanti, mentre le restanti componenti rappresentano i residui, ossia il rumore “noise” In alternativa si potrebbe applicare la cluster analysis ad un sottoinsieme delle variabili di partenza e precisamente a quelle più correlate con le prima k CP, essendo le altre poco connesse con i fondamentali aspetti dell’indagine.
Le scelte nella cluster analysis: Scelta della distanza o dell’indice di similarità Anche questa scelta condiziona i risultati della classificazione, poiché variando il tipo di distanza cambia l’ordinamento delle coppie di unità (da quelle da loro più simili a quelle più diverse) e quindi possono differire anche i gruppi di unità “omogenee”. La scelta della distanza più opportuna deve basarsi sulle caratteristiche delle singole metriche viste precedentemente.
Le scelte nella cluster analysis: Scelta del metodo di formazione dei gruppi Vengono distinti in metodi gerarchici e non gerarchici. I metodi gerarchici permettono di ottenere una famiglia di partizioni, con numero di gruppi da n a 1, partendo da quella banale in cui tutte le unitĂ sono distinte per giungere a quella, altrettanto banale, in cui tutti gli elementi sono riuniti in un gruppo. I metodi non gerarchici forniscono unâ&#x20AC;&#x2122;unica partizione delle n unitĂ in g gruppi, con g fissato a priori.
Le scelte nella cluster analysis: Criteri di valutazione delle partizioni ottenute ed individuazione del numero ottimo di gruppi Dopo aver ricavato la famiglia di partizioni bisogna valutare se la classificazione ottenuta soddisfa le condizioni di coesione interna e di separazione esterna. A livello intuitivo si può dire che una partizione è soddisfacente quando la variabilità all’interno dei gruppi è piccola e i gruppi sono ben distinti l’uno dall’altro. Per individuare nella famiglia delle (n-2) partizioni non banali ottenute con metodo gerarchico quella con il numero ottimo di gruppi è necessario tener conto che esiste un trade-off tra il numero dei gruppi e l’omogeneità all’interno degli stessi: una riduzione del numero dei gruppi porta ad una classificazione più sintetica e più utile ai fini operativi anche se comporta una maggiore variabilità. La partizione del numero ottimo sarà quella che riesce meglio a contemperare queste opposte esigenze. Nei metodi non gerarchici il numero ottimo di gruppi si può individuare per tentativi, ripetendo più volte la procedure con diversi valori di g, valutando in ogni applicazione la bontà della partizione ottenuta e scegliendo quella più soddisfacente.
Tecniche gerarchiche Con questo nome si fa riferimento ai criteri per la creazione di partizioni annidate dell’insieme di osservazioni di partenza. Tali criteri permettono di esplorare la struttura di raggruppamento con riferimento a livelli variabili di omogeneità all’interno dei gruppi. La considerazione delle sole partizioni annidate, piuttosto che di tutte le partizioni possibili, riduce considerevolmente i tempi dell’analisi. D’altro canto un errore commesso nella fase iniziale della classificazione non può più essere messo in discussione.
Tecniche gerarchiche: caratteristiche generali Un metodo di classificazione gerarchico gode delle seguenti caratteristiche: 1. Considera tutti i livelli di distanza γ 2. I gruppi che si ottengono ad ogni livello di distanza comprendono i gruppi ottenuti a distanze inferiori, di conseguenza quando due unità si uniscono tra loro esse non possono più essere separate. Un’ampia classe di metodi gerarchici si basa sull’utilizzo iniziale della matrice delle distanze D (in generale di indici di prossimità) calcolata per le n unità statistiche e la procedura per identificare i gruppi si articola nelle fasi: • Si individuano in D le 2 unità più simili (con minore distanza) e si uniscono per formare il primo gruppo. Si avrà una partizione con (n-1) gruppi di cui (n-2) costituiti da una singola unità ed 1 formato da 2 unità • Si ricalcola la distanza del gruppo ottenuto con gli altri ottenendo una nuova matrice delle distanze con dimensioni diminuite di uno. • Si individua nella nuova matrice la coppia di unità (o gruppi) con minore distanza, riunendole in un unico gruppo. • Si ripetono le fasi precedenti, sino a quando tutte le unità non fanno parte di un solo gruppo
Metodi gerarchici che richiedono solo l’uso della matrice delle distanze Metodo del legame singolo o del vicino più prossimo La distanza tra due gruppi è data dalla minore delle distanze tra gli elementi. Un possibile effetto collaterale di questo metodo è il concatenamento tra unità appartenenti a gruppi diversi.
Metodo del legame completo o del vicino più lontano La distanza tra due gruppi è data dalla maggiore delle distanze tra gli elementi. Con questo criterio, tutte le distanze tra le unità del primo gruppo e quelle del secondo sono minori o uguali alla distanza tra i due gruppi così definita. Metodo del legame medio tra i gruppi È simile a quello del legame singolo, si parte dalla prima matrice delle distanze e si sceglie la coppia con distanza minore ottenendo una nuova matrice in cui la distanza tra un’unità ed il cluster appena formato si calcola come la media aritmetica delle distanze tra ogni unità di un gruppo ed ogni unità dell’altro gruppo. Metodo del legame medio nei gruppi La distanza tra due gruppi è definita come la media aritmetica delle distanze tra tutte le possibili coppie di unità del nuovo gruppo (considerando anche le unità dello stesso gruppo di partenza).
Differenza tra il Metodo del legame medio nei gruppi e quello tra i gruppi Consideriamo un gruppo A formato da 3 unità (1, 2, 3) ed un gruppo B formato da 2 unità (4, 5). Con il metodo del legame medio tra i gruppi la distanza tra A e B è uguale alla media delle distanze (1, 4) (1,5) (2, 4) (2,5) (3, 4) (3,5) Con il metodo del legame medio nei gruppi la distanza tra A e B è uguale alla media aritmetica delle distanze (1, 2) (1,3)(1, 4) (1,5)(2,3)(2, 4) (2,5)(3, 4) (3,5)(4,5)
Il dendogramma La famiglia di partizioni che si ottiene con il metodo gerarchico si può rappresentare graficamente attraverso il dendogramma in cui sull’asse delle x si riportano le unità statistiche, mentre su quello y una scala di distanza o di similarità alla quale si aggregano via via le unità o i cluster. Si uniscono le due unità statistiche che formano il primo gruppo al relativo livello di distanza o similarità, ad ogni fase corrisponde un livello di aggregazione. Dalla forma del dendogramma è possibile evincere il numero dei gruppi. Per individuare le unità di ciascun gruppo basta tracciare delle righe orizzontali in corrispondenza del livello di distanza o similarità prescelto. Allo stesso gruppo appartengono tutte le unità congiunte da tratti orizzontali che si trovano sotto la riga tracciata e non incluse in un eventuale gruppo precedente.
Il dendogramma In maniera formale: si dice dendogramma definito sull’insieme di n unità
ai ∈ A un' applicazione
D(γ ) : R+ → π ( A) dove π ( A) e l' insieme di tutte le partizioni di A e γ è il livello
di distanza, che soddisfa : a) D(0) è una partizione costituita da unità tutte diverse; D(h) è la partizione formata da un solo gruppo b) Se h<h’ la partizione D(h) è uguale o più fine (ossia ogni gruppo della partizione D(h’) è formato da uno o più gruppi di D(h) non vale il viceversa) di quella D(h’) c) D(h+ε) =D(h), per ε>0 sufficientemente piccolo esistono cioè degli incrementi di distanza che non modificano la posizione ottenuta.
Il dendogramma
le linee verticali del dendrogramma segnalano lâ&#x20AC;&#x2122;unione di due cluster, mentre le posizioni di tali linee indicano le distanze alle quali tali cluster vengono aggregati: in questo caso i tre cluster sembrano abbastanza delineati
Proprietà dei metodi di classificazione gerarchica Un criterio naturale per identificare una classificazione migliore di un’altra è richiedere che la massima distanza all’interno dei gruppi sia minore della minima distanza tra i gruppi. In generale si definisce partizione ben strutturata una partizione P, di un insieme di n elementi ni per i quali è definita una distanza d con max(dij)<min(drs), per ogni ni nj appartenenti allo stesso gruppo e nr e ns appartenenti a gruppi diversi. La partizione ben strutturata con un minor numero di gruppi è detta ben strutturata minimale. Un’altra proprietà è quella dell’invarianza per trasformazione monotona delle distanze, un metodo gerarchico si definisce invariante per trasformazione monotona crescente delle distanze se fornisce la stessa successione di partizioni per ogni trasformazione monotona crescente delle distanze che compongono la matrice D. Soddisfano tale proprietà il metodo del legame singolo e quello del legame completo. N:B: tali metodi pur godendo delle stesse proprietà individuano gruppi con caratteristiche differenti. Il metodo del legame singolo presenta il cosiddetto effetto a catena ossia riunisce in un unico gruppo elementi lontani nello spazio quando esiste una successione di punti intermedi; quello del legame completo individua gruppi compatti al loro interno ma di forma circolare.
Metodi gerarchici che utilizzano anche la matrice dei dati Metodo del centroide Il centroide di ciascun gruppo è definito come il punto che ha per coordinate la media delle coordinate degli elementi del gruppo. La distanza tra due gruppi è data dalla distanza euclidea tra i due centroidi corrispondenti. Ad ogni passo della procedura vengono aggregati i gruppi per i quali la distanza euclidea tra i centroidi risulta minima. Tale metodo presenta analogie con il metodo del legame medio tra i gruppi in cui si considera la media delle distanze tra le unità dell’uno e dell’altro gruppo, mentre nel metodo del centroide si individua dapprima il centro di ciascun gruppo e poi si misura la distanza tra essi. Metodo di Ward o della minima devianza Ad ogni passo vengono calcolate le devianze associate a tutti i raggruppamenti possibili e viene effettuata l’aggregazione che dà luogo al gruppo avente devianza minima. La distanza tra due gruppi è data dalla differenza tra la devianza complessiva e la somma delle devianze interne ai due gruppi, ovvero dall’incremento della devianza entro i gruppi dovuto all’aggregazione in questione.
Metodi gerarchici che utilizzano anche la matrice dei dati Metodo di Lance e Williams Riunisce in un’unica formulazione i cinque metodi esposti. L’espressione che definisce la distanza tra un generico cluster c3 e il cluster c1 U c2 formato al passo precedente è data da:
d c ,(c ∪c ) = α1d c ,c + β + γ d c ,c − d c ,c 3 1 2 3 2 3 1 3 2
1 2 1 legame completo α1 = α 2 = 2 ni legame medio αi = n1 + n2 legame singolo
α1 = α 2 =
centroide
αi =
Ward
αi =
ni
n1 + n2
β =0 β =0
1 2 1 γ= 2
γ =-
i = 1,2 β = 0 i = 1,2 β =
n1 + n3
(n1 + n2 + n3 )
γ =0 n1n2
(n1 + n2 )
i = 1,2 β =
2
γ =0 n3
(n1 + n2 + n3 )
2
γ =0
Lance e Williams suggeriscono la seguente configurazione per i parametri α1, α2, β, γ:
α1=α2,
α1+α2+β=1 β<1 γ=0
Metodi non gerarchici di classificazione I metodi non gerarchici di classificazione si propongono di ottenere una sola partizione degli n elementi in g gruppi (g<n), con g scelto a priori dal ricercatore. La ricerca di un unico raggruppamento rappresenta l’elemento distintivo rispetto agli algoritmi gerarchici, le procedure non gerarchiche mirano infatti a conseguire una classificazione che soddisfi determinati criteri di ottimalità e che sia costituita da un numero di gruppi prefissato. I possibili vantaggi di tali metodi sono: • formalizzare il meccanismo di allocazione delle unità ai gruppi attraverso la specificazione di una funzione obiettivo, che di solito è espressa in funzione della scomposizione della devianza totale. • Variando il numero dei gruppi viene meno il vincolo che tutte le coppie di unità che risultano tra loro unite ad un determinato livello di aggregazione gerarchica non possono essere separate ai livelli successivi. Per ogni valore di g l’algoritmo non gerarchico classifica ogni elemento sulla base del criterio prescelto ed i risultati ottenuti possono essere diversi al variare del numero dei gruppi, il che permette di superare i potenziali inconvenienti dovuti ad una fusione errata di unità eterogenee nei primi passi di una procedura gerarchica
Metodi non gerarchici di classificazione I metodi non gerarchici di classificazione si basano sull’esecuzione di una procedura iterativa che può essere formalizzata in: • Scelta di una classificazione iniziale delle n unità con un numero di gruppi prefissato • Calcolo della variazione della funzione obiettivo causata dallo spostamento di ciascun elemento dal gruppo di appartenenza ad un altro ed allocazione di ogni unità al cluster che garantisce il miglioramento più elevato nella coesione interna dei gruppi; • Interazione del passo precedente finché non viene soddisfatta una regola di arresto Il ricorso ad una procedura di tipo iterativo, per un solo valore di g, rende gli algoritmi non gerarchici assai veloci e non richiede la determinazione preliminare della matrice delle distanze tra unità. Questi metodi risultano pertanto utili in situazioni in cui n è molto elevato. Le tecniche non gerarchiche possono essere preferibili quando l’interessa della ricerca è la caratterizzazione delle peculiarità dei gruppi piuttosto che lo studio del comportamento delle singole unità nelle fasi successive dell’agglomerazione gerarchica.
Difetti dei metodi non gerarchici di classificazione
I metodi non gerarchici di classificazione presentano alcuni inconvenienti legati soprattutto alla necessitĂ di definire anticipatamente: Il valore di g, ossia il numero di gruppi della partizione ottima che si vuole ottenere; La configurazione di partenza dei clusters necessaria per iniziare lâ&#x20AC;&#x2122;algoritmo iterativo di classificazione.
Il metodo delle k - medie
L’algoritmo iterativo consiste nei passi: 1. Si scelgono g poli iniziali (g punti nello spazio p-dimensionale che costituiscono i centroidi dei clusters nella partizione iniziale); 2. Per ogni elemento si calcola la distanza dai centroidi dei g gruppi: se la distanza minima non è ottenuta in corrispondenza del centroide del gruppo di appartenenza, kl’unità è riassegnata al cluster corrispondente al centroide più vicino. In caso di riallocazione di un’unità, si ricalcola il centroide sia del nuovo che del vecchio gruppo. 3. Si ripete il passo precedente fino a quando non si ha la convergenza dell’algoritmo, cioè non si verifica alcuna modificazione dei poli; in alternativa si può sostituire con una regola che prevede l’interruzione in caso di: • Convergenza dell’algoritmo • Distanza tra ciascun centroide calcolato nell’iterazione corrente ad il corrispondente centroide nell’interazione precedente non superiore ad una soglia prefissata • Raggiungimento del numero massimo di iterazioni prescelto Inconveniente: La classificazione finale può essere influenzata dall’ordine in cui sono elencate le unità statistiche nella matrice dei dati