Adt 6

Page 1

Analisi delle distribuzioni doppie: regressione


UN PO’ DI STORIA 

Il termine di regressione lineare risale alla famosa applicazione compiuta dallo statistico inglese Galton che notò, esaminando le altezza dei figli (Y ) in funzione delle altezze dei genitori (X) la presenza di una relazione funzionale tra le due variabili, giungendo a quello che oggi viene definito modello di regressione lineare semplice. Galton osservò che la statura media dei figli di padri alti (con altezza superiore alla media) era più vicina alla media generale di quanto non lo fosse la media della statura dei padri, cioè notò che la statura dei figli tendeva a regredire verso la media.


REGRESSIONE Un modello di regressione è un modello di dipendenza in cui si cerca di “spiegare” una variabile casuale Y in funzione di una variabile matematica X non casuale. Le variabili X e Y sono entrambe variabili quantitative.  Nel modello di regressione quindi si ipotizza che Y dipenda in media da X, nel senso che sia il valor medio di Y a dipendere da X.  Generalmente si indica con Y la variabile dipendente o risposta e con X1, X2,..., Xn le n variabili esplicative o indipendenti e con ε la componente stocastica, l’errore. 


MODELLO DI REGRESSIONE Una relazione statistica (e quindi modello di regressione di Y su X) può essere descritta tramite l’equazione

y = f (x) + ε

dove la variabile risposta, y, è espressa come somma di due componenti, quella rappresentata dalla funzione matematica f (x) (che dà il contributo della variabile indipendente x al livello della variabile risposta) e quella “residuale”, ε, che sintetizza il contributo di tutti i fattori che potrebbero influire sulla variabile risposta e che non vengono considerati.


REGRESSIONE LINEARE Se la funzione matematica f(x), che descrive la dipendenza di Y da X, è l’equazione della retta allora y = β0 + β1x + ε , abbiamo la regressione lineare, in cui β 0 e β1 sono i parametri della funzione, rispettivamente l’intercetta ed il coefficiente angolare (coefficiente di regressione).


INTERPRETAZIONE Il significato di β 0 

Quando β0 = 0 esiste una proporzionalità diretta tra X ed Y e la retta passa per l’origine degli assi;

Il significato di β 1 

β1 > 0 la retta ha pendenza

positiva e quindi al crescere di X, Y aumenta;

β1 < 0 la retta ha pendenza

β1 = 0 la retta è parallela

negativa e quindi al crescere di X, Y diminuisce e viceversa; all’asse delle ascisse e Y è costante al variare di X.

La variabile casuale εi, che come detto rappresenta l’errore che si commette nella spiegazione della variabile casuale Yi attraverso una funzione lineare di Xi, è supposta con valore atteso nullo (E(εi) = 0). Questo tipo di errore può derivare da misurazione imprecise, da incompletezza di informazioni, da omissione di variabili esplicative ecc...


ASSUNZIONI 

 

Le assunzioni del modello di regressione lineare semplice si riferiscono al processo che genera le N coppie di dati disponibili, (x1, y1), (x2, y2), …, (xN, yN) e sono :

y = β 0 + β1 xi + ε i , per ogni osservazione i = 1, 2, …, N.

Le εi sono v.c. indipendenti con valore atteso nullo e varianza costante V ar(εi,) = σ2 per ogni i = 1, 2, …, N indipendentemente dal valore della X. I valori xi della variabile esplicativa X sono noti senza errore.


ASSUNZIONI 2 

La prima assunzione implica che tra le possibili funzioni f(X) che possono descrivere il legame tra la variabile dipendente e la variabile esplicativa, si è scelta la funzione lineare. Ogni εi è una variabile casuale poichè rappresenta gli scostamenti di Yi dal suo valore atteso. Si assume allora che le v.c. εi siano tra loro statisticamente indipendenti, con valore atteso uguale a zero e varianza costante, per ogni valore di X. La condizione di varianza costante viene detta ipotesi di omoschedasticità: per ogni valore fissato di X, la Y possiede sempre lo stesso grado di variabilità. 

Per esempio, se X è il reddito famigliare e Y il consumo dei beni alimentari, allora i due insiemi di famiglie corrispondenti a due livelli di reddito, x1 e x2, presenteranno la stessa varianza σ2 dei consumi per i beni alimentari.


COME DETERMINARE I PARAMETRI DELLA RETTA DI REGRESSIONE

Occorre a questo punto determinare i parametri della retta di regressione ossia definire un metodo di stima dei coefficienti di regressione. Poichè abbiamo assunto l’esistenza di una relazione lineare tra la Y e la X e che l’errore ha media nulla e varianza costante, risulta ovvio che la “vera” retta di regressione debba passare attraverso la nuvola di punti, avvicinandosi il più possibile ad essi. In altri termini occorre individuare una retta che per ogni xi restituisca un valore di Yi prossimo ai valori osservati yi.


ESEMPIO DI RELAZIONE STATISTICA Nella tabella che segue sono riportati le stature (in centimetri) di dieci coppie di fratelli e sorelle. Statura Statura fratello

sorella

Vogliamo stabilire se la retta (cm) (cm) è una funzione adatta 173 164 178 172 a esprimere il legame di 169 163 associativo tra la statura della 170 160 177 166 fratello e quella della sorella. 178 165 Detto in altro modo, si tratta 180 165 185 170 di vedere se siamo in grado di 165 152 di effettuare una buona predizione 168 156 Della statura delle sorelle a partire dalla statura dei fratelli.


RELAZIONE SOLA STATISTICA ESPRESSA DA UNA RETTA: ESEMPIO Grafico di dispersione della distribuzione presentata nella diapositiva precedente. Come si vede, l’andamento dei punti suggerisce che la relazione statistica che lega la statura della sorella a quella del fratello può essere espressa da una retta.

y

Nuvola di punti

x


COME DETERMINARE I PARAMETRI DELLA RETTA DI REGRESSIONE 

Sia yˆ i = b0 + b1 xi , i = 1, 2, , N il valore di Y fornito dalla retta stimata in corrispondenza di xi, dove b0 e b1 sono le stime dei coefficienti di regressione.

Il problema consiste nell’individuare i coefficienti di regressione in modo che i valori stimati yˆ i siano più vicini ai valori osservati yi.

Si dice che una retta ha un migliore adattamento ai dati osservati di un’altra se, fissati i valori dei coefficienti di regressione, complessivamente gli scarti: ( yi − yˆ i ) = ( yi − b0 − b1 xi ) sono più piccoli. Per valutare gli scarti risulta comodo utilizzare la somma delle differenze al quadrato che sta alla base del metodo di stima dei minimi quadrati il quale consiste nel ricercare le stime di b0 e b1 che rendono minima la N funzione: G (b0 , b1 ) = ∑ ( yi −b0 − b1 xi ) 2 i =1


METODO DEI MINIMI QUADRATI 

Chiameremo residuo i-esimo la differenza tra il valore osservato e il valore fornito dalla retta di regressione:

Per individuare i valori di b0 e b1 che rendono minima la funzione G(b0,b1) occorre calcolare le derivate parziali di tale funzione rispetto a b0 e b1 e porle uguali a zero. Si tratta della somma dei quadrati delle differenze tra i valori effettivi e i valori teorici di Y, una misura del grado di approssimazione dei valori osservati tramite le predizioni. Dopo alcuni passaggi e semplificazioni si ottengono le stime dei minimi quadrati dei coefficienti di regressione .


STIMA DEI PARAMETRI Dalla soluzione del problema di minimo sopra indicato, si trovano le formule seguenti per b1 e b0: C XY = b1 = DX

N (xi − μ X )(yi − μY i =1 N 2 ( − ) x μ i X i =1

b 0 = μY − b 1μ X

)

codevianza devianza

 µX e µY le medie aritmetiche delle distribuzioni marginali di X e di Y.


PARAMETRI DELLA RETTA DI REGRESSIONE: ESEMPIO DI CALCOLO (DATI DIAPOSITIVA 5) μX = 174,30 μY = 163,30 xi

(xi – μX).(yi - μY)

y

yi xi - μX yi - μY (xi - μX)2

173

164

-1,30

0,70

1,69

-0,91

178

172

3,70

8,70

13,69

32,19

169

163

-5,30

-0,30

28,09

1,59

170

160

-4,30

-3,30

18,49

14,19

177

166

2,70

2,70

7,29

7,29

178

165

3,70

1,70

13,69

6,29

180

165

5,70

1,70

32,49

9,69

185

170

10,70

6,70

114,49

71,69

165

152

-9,30

-11,30

86,49

105,09

168

156

-6,30

-7,30

39,69

45,99

Totale

356,10

293,10

yˆ = 19,851 + 0,823 x retta di regressione stimata

x

b 1=

C XY 293,10 = = 0,823 356,10 DX

b 0 = y − b1x = 163 , 30 − 0,823 ·174,30 = 19, 851


RETTA DI REGRESSIONE Una volta calcolati b1 e b0 l’equazione che ne risulta

yˆ = b 0 + b 1x

rappresenta è la retta di regressione stimata di Y su X. Il significato da attribuire al coefficiente angolare b1 è il seguente. Poiché la retta rispecchia l’“andamento medio” dei dati osservati, b1 indica la variazione media che subisce Y quando X aumenta di una unità. La retta di regressione passa per il baricentro della distribuzione doppia, cioè per il punto (µX, µY).


Bisogna ricordare che la retta di regressione gode delle seguenti proprietà:  è unica, poichè è unico il minimo della funzione G(b0; b1)  passa sempre per il punto di coordinate x, y  è tale che la media delle yi osservate coincide con la media delle yˆ i stimate 

(

)


RESIDUI Le differenze tra i valori effettivi e i valori teorici di Y, ei = yi − yˆi , i = 1, 2,  , N sono dette residui. La loro somma è uguale a 0: N

∑e i =1

i

=0


ADATTAMENTO DELLA RETTA DI REGRESSIONE AI DATI

L’analisi di regressione include la verifica dell’idoneità del modello a rappresentare la relazione statistica tra le variabili Y e X. A questo fine, viene introdotto un apposito indice che misura la bontà dell’adattamento della retta di regressione ai punti osservati, per la cui costruzione ci si avvale della scomposizione della devianza.


SCOMPOSIZIONE DELLA DEVIANZA Data una distribuzione doppia disaggregata, la devianza della distribuzione marginale del carattere Y può essere così scomposta: devianza residua=DRL

devianza spiegata=DSL

devianza totale=DY N

2

DY = ∑ (yi − μY ) = i =1

N

∑ (yˆi

i =1

2

− μY ) +

N

∑ (yi

i =1

− yˆi )2

dove yˆi sono le predizioni fornite dalla retta di regressione.


SCOMPOSIZIONE DELLA DEVIANZA 

La devianza totale (della variabile dipendente Y), detta Somma Totale dei Quadrati rappresenta la somma dei quadrati degli scarti tra i valori osservati dalla loro media. Essa vale zero quando tutte le yi sono uguali fra loro, e quindi uguali al valor medio, ossia quando non c’è variabilità nei dati. La devianza spiegata (Somma dei Quadrati della Regressione) rappresenta la somma dei quadrati delle differenze dei valori stimati dalla media. Esso indica la parte dell’ammontare di devianza tot riprodotta dai valori stimati attraverso la funzione di regressione.


SCOMPOSIZIONE DELLA DEVIANZA 

La devianza residua (Somma dei Quadrati degli Errori), è la somma dei quadrati delle differenze tra i valori osservati e i valori stimati. Tale termine può essere interpretato come il grado d’incertezza residua data la funzione di regressione stimata. Quando la relazione lineare prevede perfettamente le osservazioni, si ha DevRL=0. E’ intuitivo pensare che quanto più la devianza residua è bassa tanto più i valori teorici stimati sono vicini a quelli osservati e quindi tanto più la retta di regressione stimata si adatta bene ai dati osservati; al limite nel caso in cui la devianza residua è nulla la retta di regressione stimata si adatta perfettamente ai dati osservati. Al contrario tanto più alta è la varianza residua tanto più i valori teorici distano da quelli osservati.


SCOMPOSIZIONE DELLA DEVIANZA Le situazioni estreme sono quindi due:  ²Se DSL=0, la relazione non riduce l’incertezza. In questo caso DRL = DY e i valori stimati sono tutti uguali alla media campionaria.  Se DSL raggiunge il suo valore massimo, DY, allora DRL = 0 e tutti i valori stimati sono uguali a quelli osservati 


SCOMPOSIZIONE DELLA DEVIANZA: ESEMPIO

Valori teorici

Verifichiamo empiricamente la scomposizione della devianza di cui sopra: 326,10 ≈ 241,20 + 84,85 = 326,05

Possiamo anche verificare che la somma dei valori teorici di Y è uguale alla somma dei valori osservati.

xi

173

yi

yˆi (yi − μY )2 (yˆi − μY )2 (yi − yˆi )2

164 162,23

0,49

1,145

3,13

178 169

172 166,35 163 158,94

75,69 0,09

9,27 19,03

31,98 16,50

170 177 178 180

160 166 165 165

159,76 165,52 166,35 167,99

10,89 7,29 2,89 2,89

12,52 4,94 9,27 22,01

0,06 0,23 1,81 8,95

185

170 172,11

44,89

77,55

4,44

165

152 155,65

127,69

58,58

13,29

168

156 158,12

53,29

26,88

4,47

Totale 326,10

241,20

84,85

DY

DSL

DRL


INDICE DI DETERMINAZIONE La misura della bontà dell’adattamento della retta ai punti osservati, è rappresentata dal rapporto DSL 2 r = = DY

N (yˆi i =1 N (yi i =1

∑ ∑

Espressioni alternative:

DRL 2 r =1− =1− DY r2 =

N (xi i =1

[∑

N

− μY )2 − μY )2

N (yi i =1 N (yi i =1

∑ ∑

− yˆi )2 − μY )2

− μ X )(yi − μY )]2 N

[∑i =1 (xi − μ X )2 ][∑i =1 (yi − μ Y )2 ]


PROPRIETÀ DELL’INDICE R2  

Assume valori nell’intervallo [0, 1]. Raggiunge il minimo se e solo se DSL = 0, cioè se e solo se la retta di regressione è parallela all’asse delle ascisse. Raggiunge il massimo se e solo se DRL = 0, circostanza che si verifica se e solo se i punti osservati giacciono su una retta. In base alla prima espressione, rappresenta la frazione della variabilità totale di Y spiegata dalla retta di regressione.


INDICE DI DETERMINAZIONE: CALCOLO

L’indice di determinazione con le tre formule: r2 =

r2 =1−

DSL 241,20 = = 0,74 DY 326,10

DRL 84,85 =1− = 0,74 DY 326,10

2 2 C 293 , 10 r 2 = XY = = 0,74 DX DY 356,10 ·326,10

covarianza

xi

173

yi

yˆi (yi − μY )2 (yˆi − μY )2 (yi − yˆi )2

164 162,23

0,49

1,145

3,13

178 169

172 166,35 163 158,94

75,69 0,09

9,27 19,03

31,98 16,50

170 177 178 180

160 166 165 165

159,76 165,52 166,35 167,99

10,89 7,29 2,89 2,89

12,52 4,94 9,27 22,01

0,06 0,23 1,81 8,95

185

170 172,11

44,89

77,55

4,44

165

152 155,65

127,69

58,58

13,29

168

156 158,12

53,29

26,88

4,47

Totale 326,10

241,20

84,85

DY

DSL

DRL


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.