Analisi delle distribuzioni doppie: regressione
UN PO’ DI STORIA
Il termine di regressione lineare risale alla famosa applicazione compiuta dallo statistico inglese Galton che notò, esaminando le altezza dei figli (Y ) in funzione delle altezze dei genitori (X) la presenza di una relazione funzionale tra le due variabili, giungendo a quello che oggi viene definito modello di regressione lineare semplice. Galton osservò che la statura media dei figli di padri alti (con altezza superiore alla media) era più vicina alla media generale di quanto non lo fosse la media della statura dei padri, cioè notò che la statura dei figli tendeva a regredire verso la media.
REGRESSIONE Un modello di regressione è un modello di dipendenza in cui si cerca di “spiegare” una variabile casuale Y in funzione di una variabile matematica X non casuale. Le variabili X e Y sono entrambe variabili quantitative. Nel modello di regressione quindi si ipotizza che Y dipenda in media da X, nel senso che sia il valor medio di Y a dipendere da X. Generalmente si indica con Y la variabile dipendente o risposta e con X1, X2,..., Xn le n variabili esplicative o indipendenti e con ε la componente stocastica, l’errore.
MODELLO DI REGRESSIONE Una relazione statistica (e quindi modello di regressione di Y su X) può essere descritta tramite l’equazione
y = f (x) + ε
dove la variabile risposta, y, è espressa come somma di due componenti, quella rappresentata dalla funzione matematica f (x) (che dà il contributo della variabile indipendente x al livello della variabile risposta) e quella “residuale”, ε, che sintetizza il contributo di tutti i fattori che potrebbero influire sulla variabile risposta e che non vengono considerati.
REGRESSIONE LINEARE Se la funzione matematica f(x), che descrive la dipendenza di Y da X, è l’equazione della retta allora y = β0 + β1x + ε , abbiamo la regressione lineare, in cui β 0 e β1 sono i parametri della funzione, rispettivamente l’intercetta ed il coefficiente angolare (coefficiente di regressione).
INTERPRETAZIONE Il significato di β 0
Quando β0 = 0 esiste una proporzionalità diretta tra X ed Y e la retta passa per l’origine degli assi;
Il significato di β 1
β1 > 0 la retta ha pendenza
positiva e quindi al crescere di X, Y aumenta;
β1 < 0 la retta ha pendenza
β1 = 0 la retta è parallela
negativa e quindi al crescere di X, Y diminuisce e viceversa; all’asse delle ascisse e Y è costante al variare di X.
La variabile casuale εi, che come detto rappresenta l’errore che si commette nella spiegazione della variabile casuale Yi attraverso una funzione lineare di Xi, è supposta con valore atteso nullo (E(εi) = 0). Questo tipo di errore può derivare da misurazione imprecise, da incompletezza di informazioni, da omissione di variabili esplicative ecc...
ASSUNZIONI
Le assunzioni del modello di regressione lineare semplice si riferiscono al processo che genera le N coppie di dati disponibili, (x1, y1), (x2, y2), …, (xN, yN) e sono :
y = β 0 + β1 xi + ε i , per ogni osservazione i = 1, 2, …, N.
Le εi sono v.c. indipendenti con valore atteso nullo e varianza costante V ar(εi,) = σ2 per ogni i = 1, 2, …, N indipendentemente dal valore della X. I valori xi della variabile esplicativa X sono noti senza errore.
ASSUNZIONI 2
La prima assunzione implica che tra le possibili funzioni f(X) che possono descrivere il legame tra la variabile dipendente e la variabile esplicativa, si è scelta la funzione lineare. Ogni εi è una variabile casuale poichè rappresenta gli scostamenti di Yi dal suo valore atteso. Si assume allora che le v.c. εi siano tra loro statisticamente indipendenti, con valore atteso uguale a zero e varianza costante, per ogni valore di X. La condizione di varianza costante viene detta ipotesi di omoschedasticità: per ogni valore fissato di X, la Y possiede sempre lo stesso grado di variabilità.
Per esempio, se X è il reddito famigliare e Y il consumo dei beni alimentari, allora i due insiemi di famiglie corrispondenti a due livelli di reddito, x1 e x2, presenteranno la stessa varianza σ2 dei consumi per i beni alimentari.
COME DETERMINARE I PARAMETRI DELLA RETTA DI REGRESSIONE
Occorre a questo punto determinare i parametri della retta di regressione ossia definire un metodo di stima dei coefficienti di regressione. Poichè abbiamo assunto l’esistenza di una relazione lineare tra la Y e la X e che l’errore ha media nulla e varianza costante, risulta ovvio che la “vera” retta di regressione debba passare attraverso la nuvola di punti, avvicinandosi il più possibile ad essi. In altri termini occorre individuare una retta che per ogni xi restituisca un valore di Yi prossimo ai valori osservati yi.
ESEMPIO DI RELAZIONE STATISTICA Nella tabella che segue sono riportati le stature (in centimetri) di dieci coppie di fratelli e sorelle. Statura Statura fratello
sorella
Vogliamo stabilire se la retta (cm) (cm) è una funzione adatta 173 164 178 172 a esprimere il legame di 169 163 associativo tra la statura della 170 160 177 166 fratello e quella della sorella. 178 165 Detto in altro modo, si tratta 180 165 185 170 di vedere se siamo in grado di 165 152 di effettuare una buona predizione 168 156 Della statura delle sorelle a partire dalla statura dei fratelli.
RELAZIONE SOLA STATISTICA ESPRESSA DA UNA RETTA: ESEMPIO Grafico di dispersione della distribuzione presentata nella diapositiva precedente. Come si vede, lâ&#x20AC;&#x2122;andamento dei punti suggerisce che la relazione statistica che lega la statura della sorella a quella del fratello può essere espressa da una retta.
y
Nuvola di punti
x
COME DETERMINARE I PARAMETRI DELLA RETTA DI REGRESSIONE
Sia yˆ i = b0 + b1 xi , i = 1, 2, , N il valore di Y fornito dalla retta stimata in corrispondenza di xi, dove b0 e b1 sono le stime dei coefficienti di regressione.
Il problema consiste nell’individuare i coefficienti di regressione in modo che i valori stimati yˆ i siano più vicini ai valori osservati yi.
Si dice che una retta ha un migliore adattamento ai dati osservati di un’altra se, fissati i valori dei coefficienti di regressione, complessivamente gli scarti: ( yi − yˆ i ) = ( yi − b0 − b1 xi ) sono più piccoli. Per valutare gli scarti risulta comodo utilizzare la somma delle differenze al quadrato che sta alla base del metodo di stima dei minimi quadrati il quale consiste nel ricercare le stime di b0 e b1 che rendono minima la N funzione: G (b0 , b1 ) = ∑ ( yi −b0 − b1 xi ) 2 i =1
METODO DEI MINIMI QUADRATI
Chiameremo residuo i-esimo la differenza tra il valore osservato e il valore fornito dalla retta di regressione:
Per individuare i valori di b0 e b1 che rendono minima la funzione G(b0,b1) occorre calcolare le derivate parziali di tale funzione rispetto a b0 e b1 e porle uguali a zero. Si tratta della somma dei quadrati delle differenze tra i valori effettivi e i valori teorici di Y, una misura del grado di approssimazione dei valori osservati tramite le predizioni. Dopo alcuni passaggi e semplificazioni si ottengono le stime dei minimi quadrati dei coefficienti di regressione .
STIMA DEI PARAMETRI Dalla soluzione del problema di minimo sopra indicato, si trovano le formule seguenti per b1 e b0: C XY = b1 = DX
N (xi − μ X )(yi − μY i =1 N 2 ( − ) x μ i X i =1
∑
∑
b 0 = μY − b 1μ X
)
codevianza devianza
µX e µY le medie aritmetiche delle distribuzioni marginali di X e di Y.
PARAMETRI DELLA RETTA DI REGRESSIONE: ESEMPIO DI CALCOLO (DATI DIAPOSITIVA 5) μX = 174,30 μY = 163,30 xi
(xi – μX).(yi - μY)
y
yi xi - μX yi - μY (xi - μX)2
173
164
-1,30
0,70
1,69
-0,91
178
172
3,70
8,70
13,69
32,19
169
163
-5,30
-0,30
28,09
1,59
170
160
-4,30
-3,30
18,49
14,19
177
166
2,70
2,70
7,29
7,29
178
165
3,70
1,70
13,69
6,29
180
165
5,70
1,70
32,49
9,69
185
170
10,70
6,70
114,49
71,69
165
152
-9,30
-11,30
86,49
105,09
168
156
-6,30
-7,30
39,69
45,99
Totale
356,10
293,10
yˆ = 19,851 + 0,823 x retta di regressione stimata
x
b 1=
C XY 293,10 = = 0,823 356,10 DX
b 0 = y − b1x = 163 , 30 − 0,823 ·174,30 = 19, 851
RETTA DI REGRESSIONE Una volta calcolati b1 e b0 l’equazione che ne risulta
yˆ = b 0 + b 1x
rappresenta è la retta di regressione stimata di Y su X. Il significato da attribuire al coefficiente angolare b1 è il seguente. Poiché la retta rispecchia l’“andamento medio” dei dati osservati, b1 indica la variazione media che subisce Y quando X aumenta di una unità. La retta di regressione passa per il baricentro della distribuzione doppia, cioè per il punto (µX, µY).
Bisogna ricordare che la retta di regressione gode delle seguenti proprietà: è unica, poichè è unico il minimo della funzione G(b0; b1) passa sempre per il punto di coordinate x, y è tale che la media delle yi osservate coincide con la media delle yˆ i stimate
(
)
RESIDUI Le differenze tra i valori effettivi e i valori teorici di Y, ei = yi − yˆi , i = 1, 2, , N sono dette residui. La loro somma è uguale a 0: N
∑e i =1
i
=0
ADATTAMENTO DELLA RETTA DI REGRESSIONE AI DATI
L’analisi di regressione include la verifica dell’idoneità del modello a rappresentare la relazione statistica tra le variabili Y e X. A questo fine, viene introdotto un apposito indice che misura la bontà dell’adattamento della retta di regressione ai punti osservati, per la cui costruzione ci si avvale della scomposizione della devianza.
SCOMPOSIZIONE DELLA DEVIANZA Data una distribuzione doppia disaggregata, la devianza della distribuzione marginale del carattere Y può essere così scomposta: devianza residua=DRL
devianza spiegata=DSL
devianza totale=DY N
2
DY = ∑ (yi − μY ) = i =1
N
∑ (yˆi
i =1
2
− μY ) +
N
∑ (yi
i =1
− yˆi )2
dove yˆi sono le predizioni fornite dalla retta di regressione.
SCOMPOSIZIONE DELLA DEVIANZA
La devianza totale (della variabile dipendente Y), detta Somma Totale dei Quadrati rappresenta la somma dei quadrati degli scarti tra i valori osservati dalla loro media. Essa vale zero quando tutte le yi sono uguali fra loro, e quindi uguali al valor medio, ossia quando non c’è variabilità nei dati. La devianza spiegata (Somma dei Quadrati della Regressione) rappresenta la somma dei quadrati delle differenze dei valori stimati dalla media. Esso indica la parte dell’ammontare di devianza tot riprodotta dai valori stimati attraverso la funzione di regressione.
SCOMPOSIZIONE DELLA DEVIANZA
La devianza residua (Somma dei Quadrati degli Errori), è la somma dei quadrati delle differenze tra i valori osservati e i valori stimati. Tale termine può essere interpretato come il grado d’incertezza residua data la funzione di regressione stimata. Quando la relazione lineare prevede perfettamente le osservazioni, si ha DevRL=0. E’ intuitivo pensare che quanto più la devianza residua è bassa tanto più i valori teorici stimati sono vicini a quelli osservati e quindi tanto più la retta di regressione stimata si adatta bene ai dati osservati; al limite nel caso in cui la devianza residua è nulla la retta di regressione stimata si adatta perfettamente ai dati osservati. Al contrario tanto più alta è la varianza residua tanto più i valori teorici distano da quelli osservati.
SCOMPOSIZIONE DELLA DEVIANZA Le situazioni estreme sono quindi due: ²Se DSL=0, la relazione non riduce l’incertezza. In questo caso DRL = DY e i valori stimati sono tutti uguali alla media campionaria. Se DSL raggiunge il suo valore massimo, DY, allora DRL = 0 e tutti i valori stimati sono uguali a quelli osservati
SCOMPOSIZIONE DELLA DEVIANZA: ESEMPIO
Valori teorici
Verifichiamo empiricamente la scomposizione della devianza di cui sopra: 326,10 ≈ 241,20 + 84,85 = 326,05
Possiamo anche verificare che la somma dei valori teorici di Y è uguale alla somma dei valori osservati.
xi
173
yi
yˆi (yi − μY )2 (yˆi − μY )2 (yi − yˆi )2
164 162,23
0,49
1,145
3,13
178 169
172 166,35 163 158,94
75,69 0,09
9,27 19,03
31,98 16,50
170 177 178 180
160 166 165 165
159,76 165,52 166,35 167,99
10,89 7,29 2,89 2,89
12,52 4,94 9,27 22,01
0,06 0,23 1,81 8,95
185
170 172,11
44,89
77,55
4,44
165
152 155,65
127,69
58,58
13,29
168
156 158,12
53,29
26,88
4,47
Totale 326,10
241,20
84,85
DY
DSL
DRL
INDICE DI DETERMINAZIONE La misura della bontà dell’adattamento della retta ai punti osservati, è rappresentata dal rapporto DSL 2 r = = DY
N (yˆi i =1 N (yi i =1
∑ ∑
Espressioni alternative:
DRL 2 r =1− =1− DY r2 =
N (xi i =1
[∑
N
− μY )2 − μY )2
N (yi i =1 N (yi i =1
∑ ∑
− yˆi )2 − μY )2
− μ X )(yi − μY )]2 N
[∑i =1 (xi − μ X )2 ][∑i =1 (yi − μ Y )2 ]
PROPRIETÀ DELL’INDICE R2
Assume valori nell’intervallo [0, 1]. Raggiunge il minimo se e solo se DSL = 0, cioè se e solo se la retta di regressione è parallela all’asse delle ascisse. Raggiunge il massimo se e solo se DRL = 0, circostanza che si verifica se e solo se i punti osservati giacciono su una retta. In base alla prima espressione, rappresenta la frazione della variabilità totale di Y spiegata dalla retta di regressione.
INDICE DI DETERMINAZIONE: CALCOLO
L’indice di determinazione con le tre formule: r2 =
r2 =1−
DSL 241,20 = = 0,74 DY 326,10
DRL 84,85 =1− = 0,74 DY 326,10
2 2 C 293 , 10 r 2 = XY = = 0,74 DX DY 356,10 ·326,10
covarianza
xi
173
yi
yˆi (yi − μY )2 (yˆi − μY )2 (yi − yˆi )2
164 162,23
0,49
1,145
3,13
178 169
172 166,35 163 158,94
75,69 0,09
9,27 19,03
31,98 16,50
170 177 178 180
160 166 165 165
159,76 165,52 166,35 167,99
10,89 7,29 2,89 2,89
12,52 4,94 9,27 22,01
0,06 0,23 1,81 8,95
185
170 172,11
44,89
77,55
4,44
165
152 155,65
127,69
58,58
13,29
168
156 158,12
53,29
26,88
4,47
Totale 326,10
241,20
84,85
DY
DSL
DRL