Correlazione Associazione tra due variabili
Associazione tra due variabili Oltre a descrivere un singola variabile, la statistica descrittiva è utile anche per descrivere contemporaneamente due variabili, ossia per capire il grado di associazione tra due variabili.  Variabili quantitative: si parla di correlazione tra variabili e si utilizza il grafico di dispersione  Variabili qualitative: si parla di dipendenza tra variabili e si usa la tabella di frequenza doppia
Covarianza In statistica la covarianza è un indice che misura la "contemporaneità" della variazione (in termini lineari) di due variabili casuali. Essa può assumere sia valori positivi che negativi. Nel caso di valori positivi indica che al crescere di una variabile statisticamente cresce anche l'altra, nel caso di valori negativi accade il contrario. Quando due variabili sono tra di loro indipendenti, allora la loro covarianza è nulla (l'inverso non è necessariamente verificato). Si utilizza spesso la notazione: cov(x,y) = sxy, dove
essendo mx e my rispettivamente la media aritmetica di x e y.
Covarianza È un operatore simmetrico, cioè La covarianza può essere scomposta in due termini, diventando:
ovvero la media dei prodotti meno il prodotto delle medie. Dividendo la covarianza per il prodotto delle deviazioni standard delle due variabili, si ottiene l‘indice di correlazione di Bravais-Pearson, di utilizzo più comune per misurare la dipendenza lineare tra due variabili:
Correlazione Con la correlazione si cerca un’associazione lineare fra due variabili e la forza dell’associazione è indicata dal coefficiente di correlazione. Quando il coefficiente di correlazione è basato su osservazioni di valori originali è noto come coefficiente di correlazione di Pearson. Quando invece è calcolato dopo avere ordinato i dati è noto come coefficiente di correlazione per dati ordinati di Spearman.
Coefficiente di correlazione lineare Il coefficiente di correlazione lineare o coefficiente di correlazione tra due variabili aleatorie o due variabili statistiche X e Y è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili: dove sxy , è la covarianza tra X e Y sx , sy sono le due deviazioni standard. Il coefficiente di correlazione è un indice di quanto bene i punti (xi, yi) si adattano ad una retta.
Coefficiente di correlazione Il coefficiente assume valori compresi tra -1 e +1. Se r è vicino a ±1, allora i punti giacciono vicino a qualche linea retta (se r è vicino a +1 si parla di correlazione positiva, se r è vicino a -1 si parla di correlazione negativa); se r è vicino a 0, allora i punti non sono correlati (linearmente), con poca o nessuna tendenza a giacere su una linea retta. Nel caso di indipendenza il coefficiente assume valore zero, mentre non vale la conclusione opposta, ovvero dal coefficiente nullo non si può desumere l'indipendenza, cioè la condizione è necessaria, ma non sufficiente per l'indipendenza delle due variabili.
Esempio
SOGGETTI ANSIA DEPRESSIONE 1
5
7
2
2
5
3
1
2
4
3
5
5
7
9
6
6
8
La relazione tra due variabili quantitative si rappresenta sul “grafico di dispersione�, utilizzando i punteggi di ciascun soggetto in X e in Y come coordinate. Per interpretare il grafico si usano le medie delle due variabili, che vanno a formare 4 quadranti.
Grafico: ansia e depressione
Calcolo del coefficiente r Sog 1 2 3 4 5 6 Tot
X 5 2 1 3 7 6 24
Y (X-4) (Y-6) (X-4) (Y-6) (X-4)2 (Y-6)2 7 1 1 1 1 1 5 -2 -1 2 4 1 2 -3 -4 12 9 16 5 -1 -1 1 1 1 9 3 3 9 9 9 8 2 2 4 4 4 36 0 0 29 28 32
Media X
24/6=4
Cov=29/6
Media Y
36/6=6
Cov=4,83
σx
2,16
σy
2,31
σx σy
4,99
Var(X)=28/6 Var(Y)=32/6 σ=√4,67 σ=√5,33
∑ (X − X )(Y − Y ) rxy =
N
σ XσY
29 4,83 = 6 = = 0,97 4,99 4,99
Essendo r compreso tra 0,5 e 1, la correlazione è alta e positiva.