INDICI DI VARIABILITÀ
• • • • • • • • • •
Indicano l’attitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità del carattere sono tutte uguali, cioè se non c’è dispersione; non si deve modificare se tutte le frequenze vengono moltiplicate per una costante positiva e deve essere positivo qualora vi sia variabilità; deve essere non negativo e deve aumentare al crescere della disuguaglianza. Gli indici più utilizzati sono: intervallo di variazione; differenza interquartile; scostamento semplice medio; devianza; varianza; momenti; scarto quadratico medio; differenze medie; coefficiente di variazione; covarianza.
Indici di variabilità assoluta
Indici di variabilità relativa
1
INTERVALLO DI VARIAZIONE
Il campo o intervallo di variazione, detto anche range, è definito come la differenza tra il valore massimo e quello minimo
Intervallo di variazione = xN – x1 dove xN ed x1 indicano, rispettivamente, la modalità massima e quella minima della distribuzione. È facile rendersi conto che il campo di variazione è una misura molto grossolana poiché esso dipende soltanto dai valori estremi senza tenere conto dei valori intermedi che sono in generale i più numerosi. 2
DIFFERENZA INTERQUARTILE Un indice di variabilità meno grossolano del campo di variazione è la differenza interquartile, che è uguale alla differenza tra il terzo ed il primo quartile della distribuzione. Altri indici dello stesso tipo si ottengono facendo la differenza tra il nono ed i primo decile o, più in generale, fra due centili. La differenza interquartile (alle volte si considera la semidifferenza interquartile) non presenta gli inconvenienti del campo di variazione; non tiene conto, però, di tutta l’informazione a disposizione.
3
LA VARIANZA La varianza o Quadrato Medio (MS da Mean Square), il cui simbolo è σ2, è la misura di quanto i dati siano distanti dalla loro media aritmetica. È pari alla media aritmetica dei quadrati degli scarti dei valori osservati dalla loro media aritmetica ossia:
(
)
n ∑ xi − M 2 2 σ = i =1
n
dati semplici
1 n σ = ∑ (xi − M )2 ni N i =1 2
(dati ponderati)
Per devianza s’intende semplicemente la somma dei quadrati degli scarti, ossia il numeratore della varianza.
4
LO SCARTO QUADRATICO MEDIO Lo scarto quadratico medio (standard deviation) dalla media aritmetica, il cui simbolo è σ , è il più utilizzato degli indici di variabilità. La sua espressione è:
σ=
σ=
)
(
n ∑ xi - M 2 i =1
n
(
)
n ∑ xi - M 2 ni i =1 n ∑ ni i =1
Distribuzione di frequenza
cioè non è altro che la radice quadrata della varianza; è anche uguale alla media quadratica degli scarti.
5
LO SCARTO QUADRATICO MEDIO: VANTAGGI Le ragioni per cui si utilizza lo scarto quadratico medio sono di varia natura: è più sensibile di altre misure di variabilità alla presenza di modalità particolarmente alte o basse, cioè amplifica le fluttuazioni intorno alla media delle modalità; si presta meglio di altri indici a elaborazioni matematiche; è uno dei parametri che, unitamente alla media, caratterizza la distribuzione normale.
6
DIFETTI DEGLI INDICI DI VARIABILITÀ ASSOLUTI Tra i requisiti formali degli indici di variabilità vi è quello di essere espressi nella stessa unità di misura delle osservazioni. Essi pertanto non consentono di effettuare il confronto fra la variabilità di distribuzioni espresse in unità di misura diverse; se si tratta di unità di misura trasformabili, come ad es. cm e m, kg e libbre, è semplice ottenere la misura della variabilità nell’unità di misura di una delle due distribuzioni. Quando invece le due distribuzioni sono espresse in unità di misura non trasformabili non è possibile con gli indici visti finora confrontare la variabilità delle distribuzioni. Inoltre gli indici di variabilità assoluta non consentono il confronto di distribuzioni che hanno medie diverse; essi sono influenzati dall’intensità del carattere
7
ESEMPIO DEVIANZA Calcolare la devianza (SQ) dell’età , espressa in anni, di 6 bambini iscritti ad una scuola di pianoforte: 5; 6; 7; 7; 8; 10. si deve calcolare prima la media: M=
5 + 6 + 7 + 7 + 8 + 10 43 = = 7.16 6 6
ed in seguito la Somma dei Quadrati degli scarti di ogni valore dalla media: = (5 - 7.16)2+(6-7.16)2+(7-7.16)2+(7-7.16)2+(8-7.16)2+(10-7.16)2= =4.665 + 1.346 + 0.026 + 0.026 + 0.706 + 8.066 = 14.835 8
ESEMPIO
Si calcoli la varianza e lo scarto quadratico medio per la variabile X rappresentante il numero di cani minori presenti in 6 diversi istituti. X
14
Media= 13.5 n
∑ (xi - M )2
σ 2 = i =1
n
=
1297.5 = 216.25 6
σ=
∑ (xi - x )2
i =1
n -1
= 216.25 =14.71
0.5
(xi-M)2
0.25
3
-10.5
45
31.5
992.25
-7.5
56.25
2
11 6
n
(xi-M)
81
-11.5 -2.5 0
110.25
132.25
6.25
1297.5
9
COEFFICIENTE DI VARIAZIONE Esprime quanto la deviazione standard s supera la media aritmetica M. È un indice di variabilità relativa perché prescinde dall’unità di misura. Il Coefficiente di Variazione (CV) è dato dal rapporto percentuale tra lo scarto quadratico medio e la media aritmetica:
CV =
σ
M
×100
Altri indici relativi si ottengono dividendo lo scostamento semplice medio dalla media per la media o lo scostamento semplice mediano per la mediana. 10
COVARIANZA Che cos’è? é la grandezza più usata per misurare la variabilità tra due variabili. A che cos’è uguale? La covarianza di due variabili x ed y cov(xy), è la media dei prodotti degli scarti di ciascuna variabile dalla propria media: n
cov( xy ) =
n
∑∑ ( x i =1 j =1
i
− x) × ( y j − y) n 11
ESEMPIO Sia X il numero di cani randagi per quartiere nella città di Messina ed Y il numero di gatti. Determinare il covarianza tra le due variabili.
Prima di tutto occorre determinare la media sia di X che di Y, successivamente si procede al calcolo degli scarti semplici ed infine si fa il prodotto degli scarti. La somma del prodotto degli scarti è uguale alla codevianza: Codev(XY)=1425.45 Per ottenere la covarianza occorre dividere per la numerosità n, che in questo caso è pari a 14. Pertanto: Covar (XY)= 1425,45 / 14 = 101.82
X
14
Y
( x i - x) 1
( yi - y ) ( xi − x )( yi - y)
-5.14
-12.79
-17.14
-1.79
3
23
-16.14
45
34
6
65.76
9.21
-148.74
25.86
20.21
522.68
5
-13.14
-8.79
115.47
21
21
1.86
7.21
45
44
1
6
7
3
2
11
81 23
3
6 268
12
21 8
-8.14
-58.74
-5.79
-357.89
3.86
-10.79
-41.6
5
-16.14
-8.79
7
-13.14
-6.79
3
193
61.86
7.21
30.61
25.86
-18.14
-12.14
0.04
13.4
30.21
781.26
-7.79
141.26
-10.79
130.97
-0.06
141.83 89.18
1425.45 12