MEDIE ANALITICHE E MEDIE DI POSIZIONE
INDICI STATISTICI DESCRITTIVI Gli indici statistici descrittivi riassumono alcune caratteristiche delle distribuzioni di frequenza consentendo il confronto fra le diverse distribuzioni Esistono tre diversi tipi di indici descrittivi: a) quelli che tendono a “localizzare” la distribuzione e li chiameremo indici di posizione (medie analitiche e misure di posizione); b) quelli che tendono a misurare la “variabilità” o “dispersione” di una distribuzione e li chiameremo indici di variabilità; c) quelli che tendono a individuare la “forma” della distribuzione e li chiameremo indici sulla forma.
MEDIE ANALITICHE
Quel valore che sostituito a tutti i valori osservati xi ne lascia invariata una certa quantità.
Media aritmetica (quel valore che sostituito ai valori osservati xi ne lascia invariata la somma) Media geometrica (quel valore che sostituito ai valori originari ne lascia invariato il prodotto) Media armonica (quel valore che sostituito ai valori originari ne lascia invariata la somma dei reciproci) Media quadratica (quel valore che sostituito ai valori originari ne lascia invariata la somma dei quadrati)
MEDIA ARITMETICA Insieme alle percentuali ed ai grafici la media aritmetica è lo strumento statistico più utilizzato e conosciuto. È definita come la somma del valore di tutte le osservazioni, diviso il numero di unita: n xi ∑ x + x + ... + xn i =1 M= 1 2 = N N Dove: M = media del campione xi=i-esima osservazione della variabile X N = numero di osservazioni N.B. La media delle popolazione viene indicata con µ
ESEMPIO
Calcolare il reddito lordo medio in migliaia di euro di 5 famiglie: 10,9; 11,5; 12,3; 12,8; 15,4.
10.9 + 11.5 + 12.3 + 12.8 + 15.4 M= = 12.58 5 Il reddito medio è 12.58 mila euro
MEDIA ARITMETICA PER DISTRIBUZIONI DI FREQUENZA
Nel caso di una distribuzione di frequenza di una variabile discreta non suddivisa in classi, la media aritmetica viene calcolata come la somma dei prodotti delle modalità osservate per le frequenze corrispondenti diviso il numero delle osservazioni. L’espressione matematica corrispondente è:
(
n ∑ xi × ni x1 × n1 + x2 × n2 + ... + xn × nn M= = i =1 n n1 + n2 + ... + nn ∑ ni i =1
(
) (
)
(
)
)
ESEMPIO È stato rilevato il numero di esami sostenuti da 39 studenti iscritti al primo anno. Calcolare il numero medio di esami. Il numero medio di esami sostenuti è dato da:
(
)
n ∑ xi × ni 69 = = 1.77 M = i =1 n 39 ∑ ni i =1
xi
ni
Xi°ni
0
12
0
1
8
8
2
6
12
3
6
18
4
4
16
5
3
15
Totale
39
69
MEDIA ARITMETICA PONDERATA Vi sono situazioni in cui è necessario assegnare un peso ossia una misura d’importanza collegata alla natura dei dati. Per esempio i diversi crediti formativi attribuiti alle diverse discipline universitarie. Siano x1, x2, …, xn le osservazioni e w1, w2, …, wn i rispettivi pesi. Allora la media aritmetica ponderata è data dal rapporto della somma delle osservazioni moltiplicata per i rispettivi pesi e la somma dei pesi. n
M=
∑ (x × w ) i
i =1
i
n
∑w i =1
i
ESEMPIO Uno studente al primo anno di un corso di laurea triennale della Facoltà di Economia di una certa Università ha sostenuto 5 esami riportando i voti riportati in tabella, insieme ai CFU attribuiti alle cinque discipline.
Il numero medio di esami sostenuti è dato da: Disciplina xi A B C D E Totale
25 26 26 28 24
wi xiwi 8 200 8 208 10 260 6 168 8 192
40 1028
Disciplina
A
B
C
D
E
Voto
25
26
26
28
24
CFU
8
8
10
6
8
n
M=
∑ (x × w ) i
i =1
i
n
∑w i =1
i
=
1028 = 25.7 40
MEDIA ARITMETICA PER DISTRIBUZIONE DI FREQ. DI UNA VARIABILE QUANTITATIVA DIVISA IN CLASSI In caso di una distribuzione di frequenza di una variabile quantitativa discreta o continua suddivisa in intervalli, la media aritmetica viene calcolata come la somma dei prodotti dei valori centrali degli intervalli per le rispettive frequenze, diviso per il numero delle osservazioni, ossia: . . . x 1 × n1 + x 2 × n2 + ... + x n × nn = M = n1 + n2 + ... + nn
. x × n i ∑ i i =1 n
n
∑n i =1
i
dove x1, x2, …,xn rappresentano i valori centrali degli intervalli in cui risulta suddivisa la variabile (il valore centrale è dato dalla semisomma di valori estremi di ogni intervallo) e n1, n2,…, nn sono le frequenze assolute corrispondenti ad ogni intervallo.
ESEMPIO
Si calcoli la media aritmetica del peso in Kg di 38 polli, raggruppati in classi di frequenza: Classi
Valore centrale (xi)
ni
xi Ă—ni
2.1-2.5
(2.1+2.5)/2=2.3
12
27.60
2.6-3.0
(2.6+3.0)/2=2.8
15
42.00
3.1-3.5
(3.1+3.5)/2=3.3
6
19.80
38
98.15
1.5-2.0
(1.5+2.0)/2=1.75
Totale
5
Il peso medio dei 38 polli è dato da:
98.15 M= = 2.58 38
8.75
MEDIA QUADRATICA
È la radice quadrata della media aritmetica dei quadrati: n
2
∑ xi
M q = i =1 n
Mq =
n 2 ∑ xi ni i =1 n ∑ ni i =1
La media quadratica trova applicazione nell’analisi di superfici. Viene usata anche quando conviene elevare al quadrato le quantità osservate per poter operare con numeri non negativi.
MEDIA QUADRATICA: ESEMPIO
Supponiamo di voler conoscere la superficie media espressa in ettari di 14 allevamenti di bovini: Cod. allevamento
x (ettari di superficie)
x2
1
14
196
2
19
361
3
16
256
4
26
676
5
25
625
6
19
361
7
17
289
8
29
841
9
15
225
10
23
529
11
22
484
12
18
324
13
11
121
14
24
576
Totale
5864
Mq =
5864 = 418.857 = 20.466 14
La superficie media degli allevamenti è di 20.466 ettari .
MISURE DI POSIZIONE
MISURE DI POSIZIONE Gli indici di posizione servono per individuare la tendenza centrale del fenomeno studiato. I piÚ utilizzati sono: Moda Mediana Quartili, percentili,‌
MODA La moda, detta anche “norma”, è il valore a cui corrisponde la massima frequenza assoluta o relativa. Nel caso di caratteri continui e per distribuzioni fornite per classi di ampiezza, il calcolo della moda avviene mediante l’individuazione della classe modale, cioè quella caratterizzata dalla massima frequenza. Se le classi non sono equi ampie è bene dividere la frequenza assoluta di ogni classe per l’ampiezza dell’intervallo ottenendo la cosiddetta “densità di frequenza”. La classe modale è quella con la densità di frequenza più alta. Oltre alle distribuzioni di frequenza che hanno una sola moda dette unimodali, si trovano distribuzioni di frequenza che presentano due o più mode; denominate, rispettivamente, distribuzioni bimodali o plurimodali.
MODA: VANTAGGI La moda è un indice di posizione di immediata determinazione e ben interpretabile nei termini del problema perché, a differenza delle medie analitiche, è sicuramente un valore tra quelli. Il calcolo della moda presenta due vantaggi principali: 1. È l’unica media che si riesce a valutare nel caso di caratteri qualitativi 2. È la sola misura rilevante per certi tipi di problemi come ad es. la taglia dei vestiti.
MODA: SVANTAGGI 1 La moda presenta anche degli inconvenienti: • Non è rappresentativa della popolazione in esame se due o più modalità, anche distanti tra loro, presentano frequenze simili, la determinazione di una fra loro può dipendere solo da qualche osservazione. Ad es. la moda del numero di componenti per famiglia in molte regioni d’Italia è la stessa anche se vi è una posizione differente tra la distribuzione delle famiglie nelle varie regioni, essendo noto che quelle meridionali sono tendenzialmente più numerose di quelle settentrionali. • con ampiezza differente.
MODA: SVANTAGGI 2 • Ha un comportamento atipico rispetto ad altri indici di posizione, nel senso che non rispetta il principio di monotonicità. Infatti se alla distribuzione di una variabile si sostituiscono valori maggiori o minori di un indice di posizione, logica vorrebbe che l’indice muti nella stessa direzione; la moda non rispetta sempre questo principio. • È meno stabile e meno oggettiva delle altre misure di tendenze centrale. Può, infatti, differire nella stessa serie di dati, quando si formano classi di distribuzione con ampiezza differente.
ESEMPIO • Determinare la moda della distribuzione “Gruppo sanguigno” Gruppo sanguigno
frequenze
A
34
B
19
AB
27
0
39
La moda (Mo) è il gruppo sanguigno 0
• Determinare la moda della distribuzione di unità commerciali nel comune di Messina secondo il numero degli addetti (classe chiusa) Addetti
Frequenze
Di
1-2
20
2
20/2=10
3-5
80
3
80/3=26.6
6-10
120
5
24
11-20
105
10
10.5
21-30
70
10
7
La classe modale è la classe chiusa 3-5
di
DISTRIBUZIONE UNIMODALE
BIMODALE 160
140
120
100
80
60
40
20 0
MEDIANA È la modalità statistica che occupa la posizione centrale di una successione ordinata delle osservazioni. Caratteristiche: •è calcolata sul numero di osservazioni; •ogni valore estratto a caso ha la stessa probabilità di essere inferiore o superiore alla mediana. •Non è influenzata dagli outliers •Non è influenzata dai valori estremi
MEDIANA: COME SI CALCOLA? Per variabili discrete: •Si dispongono i valori in una serie ordinata in modo crescente o decrescente e si conta il numero totale n di dati: •se n è dispari, la mediana corrisponde al valore numerico del dato che occupa la posizione (n+1)/2; •se n è pari, la mediana è calcolata come la media aritmetica dei valori che occupano le posizioni (n/2) e (n/2)+1 . Per variabili continue: Il raggruppamento in classi delle modalità consente al più di determinare la classe mediana nella quale ricade l’unità statistica che bipartisce la distribuzione ordinata delle modalità.
ESEMPIO Calcolare la media e la mediana di una serie di 6 dati (10,1; 10,8; 13,1; 13,9; 14,2; 14,5; ) e rappresentarle graficamente. la media è 12,85 la mediana, essendo n pari, è data dalla media aritmetica dei valori che occupano le posizioni 3 e 4 quindi sarà :
Me =
13.1 + 13.9 = 13.5 2
ESEMPIO
In un campione di 131 studenti iscritti al secondo anno di un corso di laurea è stato rilevato il numero di esami superati. I dati sono stati organizzati nella seguente distribuzione di frequenza: Complicanze
ni
Freq.cum
0
5
5
1
17
22
2
24
46
3
28
74
4
35
109
≥5
22
131
Totale
131
→ mediana 3 esami
N=131 dispari per cui la mediana corrisponderà al valore che occupa la posizione:
131 + 1 = 66 2
QUARTILI, PERCENTILI,… Che cosa sono? Sono ottenuti estendendo la definizione di mediana; suddividendo in quattro gruppi di pari numerosità la popolazione di n unità, risulterà che tra il minimo delle osservazioni e un valore Q1, vi sono n/4 unità, come pure tra Q1 e Q2, tra Q2 e un valore Q3 ed il massimo. È possibile estendere tale concetto a quello di decili, percentili e quantili. Come si calcolano? •Si ordinano in modo crescente i dati; •Si determina il prodotto np dove n è il numero tot. delle osservazioni e p la proporzione di casi inferiore al quantile; • se il prodotto non è un intero, si arrotonda per eccesso; •se è intero si calcola la media tra il valore che occupa tale posizione e quello di posto successivo.
ESEMPIO
Supponiamo di voler calcolare i quartili relativi al numero di clienti che hanno soggiornato nel mese di novembre 2014 in 10 strutture alberghiere . Dall’osservazione sono risultati i seguenti dati : 8, 37, 23, 10, 16, 36, 18, 32, 25, 30
Come prima cosa è necessario ordinare in senso crescente i dati: 1°
2°
3°
4°
5°
6°
7°
8°
9°
10°
8
10
16
18
23
25
30
32
36
37
I Quartile n x p=10x0.25=2.5 si arrotonda all’intero successivo 3° posto: 16 clienti II Quartile n x p=10x0.5=5.0 media tra il 5° e 6° posto: (23+25)/2=24 clienti III Quartile n x p=10x0.75=7.5 si arrotonda all’intero successivo 8° posto: 32 clienti