Analisi delle componenti principali Romana Gargano
Che cos’è ACP è una metodologia statistica che partendo da una matrice dei dati
di dimensione nxp con variabili tutte quantitative, permette di sostituire alle p variabili (tra loro correlate) un nuovo insieme di variabili – componenti principali - che soddisfano le seguenti proprietà:
1) Sono tra loro ortogonali (incorrelate) 2) Sono elencate in ordine decrescente della loro varianza È una metodologia particolarmente utile quando un certo aspetto non è
direttamente quantificabile, ma si dispone di più indicatori del medesimo. Un esempio tipico – che storicamente costituisce anche la prima applicazione della metodologia- è la misurazione dell’ “intelligenza” degli individui, avvalendosi dei risultati espressi in termini numerici (punteggi) d’una pluralità di test.
ACP: Obiettivi •Ridurre la dimensionalità di un dataset, composto da p variabili X1, X2, …, Xp tra loro correlate; • Trovare relazioni non precedentemente sospettate tra le variabili. Trovare p combinazioni lineari delle variabili originarie che siano tra
loro incorrelate. Le p combinazioni lineari eliminano le informazioni ridondanti presenti nel data-set originario. Sceglierne un numero k ≤ p che spiegano la massima parte della varianza originaria. Geometricamente, queste p combinazioni rappresentano un nuovo sistema di coordinate ottenuto ruotando il sistema originale con X1, X2, …, Xp assi coordinati
Determinazione CP La prima CP Y1 è la combinazione lineare delle p variabili di partenza
avente la massima varianza La seconda CP è la combinazione lineare delle p variabili di partenza avente la varianza immediatamente inferiore, con il vincolo dell’ortogonalità con la prima CP (devono essere incorrelate) …..
Individuazione CP Sia X = [ X 1 X 2 ... X p ] il vettore contenente le p variabili Sia Σ ( p × p ) la matrice semidefinita positiva di covarianza delle Xi siano (λi , ai ) i = 1,..., p le coppie di autovalori e autovettori associate ad Σ con λ1 ≥ λ2 ≥ ... ≥ λ p ≥ 0 La i-esima componente è
Yi = ai ' X = ai1 X 1 + ai 2 X 2 + + aip X p a '1 X 1 Y1 Y = = a' X = a ' p X p Y p
Si verifica che
Var (Yi ) = a'i Σai = λi
∑i =1Var ( X i ) = σ 11 + σ 22 + +σ pp = λ1 + λ2 + + λ p = ∑i =1Var (Yi ) p
p
Cov (Yi , Yk ) = a'i Σak = 0 (i ≠ k )
(
ρ (Yi , X k ) = aik λi
)
σ kk
i, k = 1,..., p
Individuazione prima CP Per determinazione della prima CP, y1, è necessario individuare il vettore a p dimensioni a1 dei coefficienti della seguente combinazione lineare delle p variabili, espressi in termini di scarti dalle rispettive medie: ~ y1 = Xa1 con a1 = a11 , a1s , , , a1 p '
[
]
Poiché la var tot di una trasformazione lineare della matrice degli scostamenti si può esprimere in funzione della matrice S (di covarianza), ossia ~ Var ( Xa1 ) = a'1 Sa1 Il vettore a1 deve essere tale da massimizzare l’espressione precedente Le soluzioni di questo problema di massimo, contenendo la combinazione lineare un fattore di scala arbitrario, ha soluzioni infinite proporzionali, per cui è necessario introdurre il vincolo che la norma del vettore di coefficienti sia uguale ad una costante, ossia: a'1 a1 = 1
… Individuazione prima CP
Per risolvere il problema di massimo vincolato è necessario ricorrere al moltiplicatore di Lagrange l, ottenuto calcolando le derivate prime parziali dell’espressione da massimizzare ossia:
[
(
)]
∂ a1' Sa1 − λ a1' a1 − 1 = ∂a1
2 Sa1 − 2λa1 = 2(S − λI )a1 Con I matrice identità p x p. Annullando le derivate prime parziali si ha un sistema di p equazioni in p incognite: (S − λ1I )e1 = 0 0 è un vettore p-dimensionale Il sistema ammette soluzioni non tutte nulle se il determinante: Equazione caratteristica di S (polinomio di ordine p) con p soluzioni (autovalori) tutte ≥0 (S è semidefinita positiva)
S − λ1I = 0
… Individuazione I CP Obiettivo: la massimizzazione della varianza della I CP, si sceglie come λ1 il massimo degli autovalori poiché vale:
Var (Yi ) = a'1 Sa1 = a'1 λ1a1 = λ1 Il primo autovalore è = alla varianza della prima CP La prima componente principale di p – variabili, espresse in termini di scostamenti dalla loro media, è la combinazione lineare:
~ y1 = a 1X con a1 autovettore corrispondente al più grande autovalore λ1 di S
Individuazione II CP
Analogamente la seconda componente principale è una combinazione lineare delle p variabili con coefficienti normalizzati e ortogonali al vettore a’1. ~ a2 y X = la determinazione della II CP 2 deve soddisfare i seguenti vincoli: Ortogonale alla I CP a1' a2 = 0
a2' a2 = 1
Vincolo di normalizzazione
Procedendo come per la I CP si ricava che (S-λI)a2=0 Per cui l’autovalore che definisce la II CP è il secondo più grande autovalore di S (λ2) ; a2 il corrispondente autovettore.
In generale La r-esima componente principale è la combinazione lineare delle p variabili ~ yr = Xar r = 1,2 ,...,k ≤ p Autovettore associato all’r-esimo autovalore λr, in ordine decrescente, della matrice S.
Problemi applicativi I risultati dell’analisi delle componenti principali dipendono dall’unità di misura in cui sono espressi i dati di partenza ed un cambiamento di scala modifica la matrice delle varianze e covarianze campionarie con i suoi autovalori ed autovettori, quindi modifica il valore della varianza totale e di conseguenza influenza fortemente i risultati dell’ACP. Si pensi ad esempio, ad una variabile che rappresenta delle lunghezze; se le misurazioni espresse in metri, con varianza uguale a σ2, vengono convertite in cm, la varianza diviene 10000 σ2. L’ACP non è invariante rispetto a questa trasformazione, per cui la variabile espressa in cm influenza i risultati in maniera enormemente maggiore rispetto alla medesima variabile espressa in metri. Bisogna tener presente che l’ACP mira a riprodurre la varianza totale delle p variabili, per cui se alcune di esse presentano una variabilità molto maggiore delle altre, i risultati sono determinati prevalentemente, o quasi esclusivamente, dalle variabili suddette.
I punteggi delle componenti principali Ogni CP è espressa come combinazione lineare degli scostamenti dalla media delle p variabili, se l’analisi è condotta partendo dalla matrice di covarianza, o come combinazione lineare degli scostamenti standardizzati se si considera la matrice di correlazione. La I CP è definita come: y1 = Za 1 Il punteggio “score” per la i-esima unità statistica è
yi1 = a11 zi1 + ... + a1s zis + ... + a1 p zip per i = 1,..., n Coefficiente della I CP e della sma variabile (cioè elemento smo del 1° autovettore) Il segno di tale elemento indica il tipo di relazione, diretta o inversa, tra la I CP e la s-esima variabile ed il suo valore numerico indica in quale misura tale variabile concorre alla determinazione dei punteggi della I CP.
In generale Per le prime k CP, la matrice degli scores, di dimensione n x k, è
Y=ZA
Per la condizione di normalizzazione (a’rar=1) i punteggi sono
standardizzati (media=0 e varianza = al rispettivo autovalore; ad es. per la I CP si ha che var(Y1)=λ1).
Essendo le componenti ottenute in ordine decrescente, i punteggi
della I CP hanno una maggiore variabilità rispetto a quelli della II, e così per le altre. In questo modo i valori degli scores di ogni CP riflettono l’importanza, ma hanno lo svantaggio di non essere direttamente comparabili per componenti differenti (alle quali corrispondono autovalori diversi).
Scelta del numero di componenti Metodi empirici
1. Ricordando che la varianza totale di X è uguale alla somma della varianza delle singole CP allora è possibile attribuire a p
∑ var (Yr ) = λr
r =1
il significato di misura della quota di varianza totale spiegata dalla r-esima CP. Quindi l’indice: λ1 + λ2 + ... + λq λ1 + λ2 + ... + λq Iq =
λ1 + λ2 + ... + λ p
= Iq =
traccia(S )
misura la quota di varianza totale spiegata dalle prime q CP e fornisce un’indicazione della qualità della descrizione del collettivo ottenibile dalla 0≤Iq≤ 1. Solitamente si fissa una soglia I∗ (solitamante I* ≃ 0.9) che indica la frazione della varianza totale che si vuole sia spiegata dalle componenti principali, così facendo il numero delle componenti principali sarà scelto in modo che q sia il più piccolo valore per cui la quota Iq di varianza spiegata dalle prime q componenti sia maggiore di I*.
Scelta del numero di componenti Metodi empirici
2. Non considerare le componenti associate ad autovalori inferiori alla media aritmetica degli autovalori di S 3. SCREE PLOT : Quando si costruiscono le CP corrispondenti ai diversi autovalori succede spesso che i primi autovalori siano molti elevati, mentre i successivi presentano grandezze trascurabili. Scree plot 90 80
% Varianza spegata
70 60 50 40 30 20 10 0
1
2
3
4 5 radici latenti
6
7
8
L’idea: Costruire un grafico in cui in ascissa si indicano i numeri d’ordine 1,2,…,p delle componenti principali ed in ordinata gli autovalori ad essi corrispondenti. I punti sono uniti tra loro da dei segmenti. Il numero delle CP sarà uguale al più piccolo intero q tale che a sinistra di q l’andamento degli autovalori è fortemente decrescente, a destra di q è invece pressoché costante o debolmente decrescente.
Scelta del numero di componenti - test Sotto l’ipotesi di normalità della variabile X esistono dei test che si possono utilizzare per stabilire il numero di componenti principali da utilizzare; uno di questi è il test di isotropia che serve per verificare se le ultime k-q componenti apportano verosimilmente lo stesso contributo di varianza totale spiegata. Le ipotesi sono:
H 0 : λq +1 = λq + 2 = ... = λk = λ*
H1: gli autovalori sono diversi. Applicando il test si parte da q=0 e si procede aumentando q sino a quando non si accetta H0. La funzione test che verifica questa ipotesi è costruita attraverso il criterio del rapporto di verosimiglianza generalizzato che si distribuisce asintoticamente come un χ2 con m=(k-q+2)(k-q-1)/2 gdl.