Regresion lineal simple

Page 1

Tema 1- Regresiรณn lineal simple. 1.1. Introducciรณn 1.2. Especificaciรณn del modelo de regresiรณn lineal simple en la poblaciรณn. 1.2.1. Estructura de los modelos de regresiรณn 1.2.2. Hipรณtesis bรกsicas 1.3. Estimaciรณn de los parรกmetros del modelo de regresiรณn lineal simple 1.3.1. La recta de regresiรณn de mรญnimos cuadrados en puntuaciones directas y principales propiedades 1.3.2. La recta de regresiรณn en puntuaciones diferenciales 1.3.3. La recta de regresiรณn en puntuaciones tรญpicas 1.3.4. Relaciรณn entre la pendiente de la recta y el coeficiente de correlaciรณn 1.3.5. Interpretaciรณn de los coeficientes de la recta de regresiรณn 1.4. El contraste de la regresiรณn 1.4.1.Componentes de variabilidad y bondad de ajuste 1.4.2. Validaciรณn del modelo 1.4.3. Significaciรณn de parรกmetros 1.5. Diagnosis del modelo: Anรกlisis de residuos 1.6. Predicciรณn


Tema 1- Regresión lineal simple. 1.1. Introducción 1.1.1. Ejemplos de investigaciones en las que puede ser adecuado utilizar el modelo de regresión simple. 1.1.2. El concepto de relación entre variables: naturaleza y tipos de relación. 1.1.3. Herramientas para evaluar la relación entre dos variables 1.1.3.1. El diagrama de dispersión 1.1.3.2. La covarianza 1.1.3.3. El coeficiente de correlación de Pearson


1.1. Introducción 1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el modelo de regresión simple. Se pretende estudiar si la competencia escolar de niños, medida en una escala entre 1 y 4, depende del tiempo en meses que llevan viviendo con un progenitor Variable dependiente o criterio (endógena): competencia escolar Variable independiente o predictora (exógena): meses de monoparentalidad Se pretende estudiar si el ajuste emocional de niños, medido por un test de ajuste que proporciona puntuaciones en una escala entre 0 y 10, depende del ámbito rural o urbano en el que vive la familia Variable dependiente o criterio: ajuste emocional Variable independiente o predictora: ámbito geográfico


1.1. Introducción 1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el modelo de regresión simple. Se pretende estudiar la relación entre estrés laboral y la variable trabajo a turno Variable dependiente o criterio: estrés laboral Variable independiente o predictora: tipo de turno: fijo o variable Se pretende estudiar si las notas en Análisis de Datos II dependen de Análisis de Datos I Variable dependiente o criterio: Análisis de Datos II Variable independiente o predictora: Análisis de datos I Para estudiar empíricamente estas relaciones medimos, en una muestra de sujetos, los valores de las variables incluidas en la relación. Genéricamente, la información de un sujeto cualquiera de la muestra Si, vendrá dada por el par (Xi, Yi). El conjunto de pares constituye la matriz de datos de la investigación y para los ejemplos propuestos tendrá el siguiente formato.


Tabla o matriz de datos Análisis de datos I

N=9

Análisis de datos II 1 2 3 4 5 0 7 8 9 10

Meses

2 1 3 4 2 3 5 6 8 9

2 18 108 24 132 60 16 9 84

N=10 comp escolar

ámbito

4 4 3.66 2.83 2 3.5 2.16 2.66 2.5 1.83

N=10

1 1 1 1 1 0 0 0 0 0

comp escolar

Observar que las variable ámbito y turno aunque no son métricas las hemos codificado como numéricas. Hemos elegido el 0 y el 1 para diferenciar entre las categorías de las variables. Este tipo de codificación, muy frecuente en estadística, se conoce como codificación “dummy” o ficticia

N=10

4 4 3.66 2.83 2 3.5 2.16 2.66 2.5

Turno

estrés 0 0 0 0 0 1 1 1 1 1

65 76 50 89 57 45 34 56 55 61


1.1.2. El concepto de relaci贸n entre variables. Naturaleza y tipos de relaci贸n: el gr谩fico de dispersi贸n

25

5

20

0

15

-5

10

4 0

2

4

6

8

10

3 12 2

-10

5

1 -15

0 0

2

4

6

8

10

12 -20

0 0

2

4

6

8

10

12


1.1.2. El concepto de relaci贸n entre variables: naturaleza y tipos de relaci贸n. 100 10

80 5

60 0

40 -5

20 -10

0 0 30 25 20 15 10 5 0

1

-15

40 35 30 25 20 15 10 5 0 0

5

10

15

20

300 250 200 150 100 50 0 0

5

10

15

20


1.1.2. El concepto de relaci贸n entre variables: naturaleza y tipos de relaci贸n. 35

31

30

29

25

27

20 25

15

23

10

21

5

19

0 0

2

4

6

8

10

12

0

2

4

6

8

10

12


1.1.3.2. La covarianza N

S

x y

=

∑ (X i =1

i

− X N

)(Y

i

− Y

−1

)

=

S P C N −1

La covarianza puede tomar valores entre (-∞,+∞) de manera que si: Sxy= 0 independencia lineal Sxy> 0 relación lineal directa o positiva Sxy< 0 relación lineal inversa o negativa Vamos a ver, utilizando el gráfico de dispersión, porque las relaciones De orden anteriores están relacionadas con el tipo de relación lineal.


Sxy> 0 relaci贸n lineal directa o positiva

Sxy< 0 relaci贸n lineal inversa o negativa Y -Y

Y -Y

X - X

Y

Y

X - X

X

Sxy= 0 independencia lineal Y -Y

Y

X - X

X

X


Anรกlisis de datos I

Sumas Medias

Anรกlisis de datos II 1 2 3 4 5 0 7 8 9 10 49 4.9

2 1 3 4 2 3 5 6 8 9 43 4.3

X - X

(X

Y -Y

-3.9 -2.9 -1.9 -0.9 0.1 -4.9 2.1 3.1 4.1 5.1 0

-2.3 -3.3 -1.3 -0.3 -2.3 -1.3 0.7 S1.7 3.7 4.7 0 xy

)(

- X Y -Y

)

8.97 9.57 2.47 0.27 -0.23 6.37 1.47 5.27 15.17 23.97 73.3 8.14444444


1.1.3.2. La covarianza: dependencia de escalas


1.1.3.3. El coeficiente de correlación de Pearson N

r

=

x y

S S

x y x

S

∑ (X i =1

=

N

∑ (X

y

i =1

i

i

)(Y

− X

)

− Y

N

)

∑ (Y

2

− X

i

i =1

− Y

i

)

2

− 1 ≤ r xy ≤ + 1 9

25 20

7

15 10

10

6

8

5

6

4

rxy = 1

5

4

3 2

2

1

0 0

2

rxy = 0

12

rxy = 0.88

8

4

6

8

10

12

4

6

8

10

12

0

0

0

0

2

4

6

8

2

4

6

10

5 0 -5 -10 -15 -20

0

2

rxy = -1

rxy = -0.88

rxy = 0

8

10

12


1.2. Especificación del modelo de regresión lineal simple en la población. 1.2.1. Estructura de los modelos de regresión

Xi

Yi

predictora independiente exógena explicativa

criterio dependiente endógena explicada

i

Expresión matemática del modelo en la población

Y i = f ( X i ) + ε i = β 0 + β 1 X i + ε i = Y i + ε i Y i = β 0 + β 1 X i Puntuación predicha por la recta de regresión verdadera ε = Y − Y Residuo o error de predicción i

i

i

En el modelo hay dos variables observadas: X e Y y dos parámetros la ordenada en el origen de la recta de regresión  0 y la pendiente  1 Interpretación de los parámetros:


Interpretación de los parámetros:

Ejercicio físico

Esperanza de vida

 Yˆ = β 0 + β1 X = 70 + 0,3 X

i

Consumo de tabaco

Esperanza de vida

i

Yˆ = β 0 + β1 X = 70 − 0,04 X


1.2.2. Hipótesis básicas

1. El término de Error es una variable aleatoria con media cero: E (ε i ) = 0 2 Var ( ε ) = σ i 2. Homocedasticidad: la varianza del término de error es constante:

3. Los errores se distribuyen normalmente: ε i ≈ N (0, σ 2 ) 4. Los errores son independientes entre sí. Las hipótesis anteriores pueden formularse de manera equivalente en términos de la variable criterio. Así, /(YE α+=)Xi βXi

E (Y / X i) = α + β X i

E (Y / X i ) = α + β X i 1’. La media de Y depende linealmente de X: 2 2’. La varianza de Y es constante: Var (Y / X i ) = σ 2) XYVar/( =iσ

3’. La distribución de Y es normal para cada X:

Y / X i ≈ N (α + βX i , σ 2 )

4’. Las observaciones Yi son independientes entre sí.


Resumen gráfico de las hipótesis básicas formuladas en términos de la variable criterio

σy2 / x =σy2 / x =σy2 / x =σy2 / x 1

2

3

4

Distribución Normal

X1,

X2,

X3,

X4


Resumen gráfico de las hipótesis básicas formuladas en términos de los residuos

0

X1,

X2,

X3,

X4


El objetivo del anรกlisis de regresiรณn serรก estimar los parรกmetros del modelo presentado y contrastar las hipรณtesis de partida todo ello a partir de una muestra.


1.3. Estimación de los parámetros del modelo de regresión lineal simple

1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades 1.3.2. La recta de regresión en puntuaciones diferenciales 1.3.3. La recta de regresión en puntuaciones típicas 1.3.4. Relación entre la pendiente de la recta y el coeficiente de correlación 1.3.5. Interpretación de los coeficientes de la recta de regresión


1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades Partimos de una muestra de sujetos extraídos de una población en la que se han tomado valores de las variables X e Y. La situación más frecuente es que los puntos estén dispersos en el plano definido por X e Y. La primera pregunta a plantearnos es de las infinitas rectas que podemos ajustar a la nube de puntos ¿Cuál estimará mejor los parámetros?. Existen diferentes criterios.


1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

8,00

Y: Análisis de Datos II

7,00

6,00

5,00 

4,00

3,00

2,00

1,00

1,00

2,00

3,00

4,00

5,00

6,00

7,00

8,00

X: Análisis de datos I

Y

i

= a

+ b X

Y

i

= b

0

+ b

1

X

i

Y i

= b

0

+ b

1

X

i

e

= Y

i

− Y i

i

+ e

i

= Y i + e

i

9,00 10,00

i

+ e

i

= Y i + e

i


1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

Criterio de mínimos cuadrados: N

e

∂ ∂a

∑ (Y

∂ ∂b

∑ (Y

i =1

2 i

=

N

i =1

N

i =1

)

i

− (a + b X

i

− (a + b X

N

i =1

(Y i − Y i

2

∑( N

=

i =1

i

))

i

))

2

2

= 0

= 0

Y i − (a + b X

i

))

2

= m in


1.4.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

Recta de regresión mínimo cuadrática (puntuaciones directas): a = Y − bX N

b =

∑ (X i=1

− X

i

N

∑ (X i=1

 Yi = a + b X

i

i

)( Y − X

− Y

i

)

2

)

S xy Sy = 2 = rxy Sx S xº

= Y + b(X i − X

)


Ejemplo de cálculo de la recta de regresión de mínimos cuadrados x

y

1

2

-4,5

-2,1

20,25

9,45

2

1

-3,5

-3,1

12,25

10,85

3

3

-2,5

-1,1

6,25

2,75

4

4

-1,5

-0,1

2,25

0,15

5

2

-0,5

-2,1

0,25

1,05

6

3

0,5

-1,1

0,25

-0,55

7

5

1,5

0,9

2,25

1,35

8

4

2,5

2,9

6,25

7,25

9

6

3,5

1,9

12,25

6,65

10

8

4,5

3,9

20,25

17,55

55

41

0

0

82,5

56,5

Y Y

X X

( X  X )2

X  X Y  Y 


1.4.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

Recta de regresión mínimo cuadrática: a  Y  bX  4,1  0,743  5,5  0,021 N

b

 X i 1

i

 X Yi  Y  2

N

 X

i

 X

56,50   0,743 82,50

i 1

Yi  0,021  0,743 X i

Yˆ = 0,021 + 0,742 X i dependencia de escalas.xls


1.4.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

Propiedades de la Recta de regresión mínimo cuadrática: 1) La media de las puntuaciones predichas es igual a la media de Y 2) Los errores tienen media cero 3) La recta de mínimos cuadrados pasa por el punto: X , Y  4) Los errores no correlacionan ni con la variable predictora ni con las puntuaciones predichas


1.4.2. La recta de regresión de mínimos cuadrados en puntuaciones diferenciales

a) Modelo y recta en puntuaciones diferenciales

Y = a + bX + e = (Y − bX ) + bX + e Y − Y = b( X − X ) + e y = bx + e yˆ = bx


1.4.2. La recta de regresión de mínimos cuadrados en puntuaciones estandarizadas

a) Modelo y recta en puntuaciones estandarizadas y =bx +e Sy   yi =rxy Sx  yi xi =rxy Sy Sx

  xi +ei  e + i Sy

Z yi =rxy Z xi +Z ei ˆ =r Z Z i xy xi


Recta de regresión en diferenciales y en tipificadas. Relación entre b y r. Interpretación de los coeficientes de la regresión

a) En puntuaciones directas Yˆ = 0,021 + 0,742 X i

b) En puntuaciones diferenciales yˆ = 0,742 x

c) En puntuaciones estandarizadas Zˆ = 0,86 Z x

Sx rxy = b Sy


1.4. El contraste de la regresi贸n: introducci贸n 1,5

1,0

,5

0,0

-,5

-1,0

-2,0 -1,0

-,5

0,0

,5

1,0

1,5

3

X

3

2

2

1

1

0

0

-1

-1

-2

Y

-2

Y

Y

-1,5

-3 -2

-3 -3

X

-2

-1

0

1

2

X

-1

0

1

2

3


3 1.4. El contraste de la regresi贸n: introducci贸n

3

2

2

1 1 0 0 -1

-2

-2

Y

Y

-1

-3

-2

-1

0

1

2

-2,0

3

X

X

2

1

0

-1

Y

-2

-3 -3

X

-3

-2

-1

0

1

2

3

-1,5

-1,0

-,5

0,0

,5

1,0

1,5


1.4. El contraste de la regresi贸n: introducci贸n

3 3 2 2 1 1 0 0 -1 -1 -2

-3 -3

-2

-1

0

1

2

3

Y

Y

-2

-3 -3

X

X

-2

-1

0

1

2

3


1.4. El contraste de la regresi贸n: introducci贸n 3

2

1

0

-1

-2

Y

-3 -4 -4

X

-3

-2

-1

0

1

2

3


1.4. El contraste de la regresión: introducción

Yˆi = a + bX i

Yi

Xi


1.4.1.Componentes de variabilidad y bondad de ajuste

Yˆi = a + bX i

Yi

Y

(Y −Y ) = (Yˆ −Y ) + (Y −Yˆ ) i

i

i

i

Desviación Desviación Desviación total explicada residual

Xi


1.4.1. Componentes de variabilidad y bondad de ajuste

∑ (Y − Y ) = ∑ (Yˆ − Y ) + ∑ (Y − Yˆ ) N

i =1

2

2

N

i =1

i

N

i =1

i

2

i

SCt  SCexp  SCres Variación Total

Variación Explicada

Variación Residual

Xi


1.4.1. Componentes de variabilidad y bondad de ajuste

Fórmulas para calcular las sumas de cuadrados en puntuaciones directas y diferenciales: 2

N

SCt 

 Y i1

N

(

SCexp = ∑ Yˆ − Y i =1

N

SCres = ∑ i =1

 Y

i

(

)

N

N

y

i1

2

=b

Yi − Yˆi

2

∑( X − X ) N

i =1

) = ∑e 2

N

i =1

2 i

2

2 i

i1

Yi 2

 N    Yi   i1   N

2

  N  1S y2

2 N       X   ∑ i N N   = b 2 ∑ xi2 = b 2  ∑ X i2 −  i =1   = b 2 ( N − 1) S x2 N i =1  i =1     

= SCt − SCexp


1.4.1. Componentes de variabilidad y bondad de ajuste

Fórmulas para calcular las sumas de cuadrados en tipificadas:

SCt  SCexp  SCres N

SCt = ∑ Z y2 = N − 1 i =1

N

SCexp = ∑ Zˆ = r i =1

2 i

2 xy

(

N

2 2 Z = r ∑ x xy ( N −1) i =1

SCres = ( N − 1) 1 − rxy2

)


1.4.1. Componentes de variabilidad y bondad de ajuste SCexp SCt SCres   SCt SCt SCt 1  R 2  1  R2 

Bondad de ajuste o Coeficiente de determinación ∑(Yˆ −Y ) N

R = 2

SCexp SCt

=

i =1 N

i

∑(Y i =1

2

i

−Y )

2

=

b2 ( X − X )

∑(Y N

i =1

i

−Y )

2 2

b 2 S x2 = = rxy2 2 Sy


1.4.1. Componentes de variabilidad y bondad de ajuste

Representaci贸n en diagramas de Venn

r2xy= 0 Y

X r2xy= 1 Y X r2xy Y

X


1.4.2. Validación del modelo

Esquema del Contraste de Hipótesis Contrastar una Hipótesis Estadísticamente es juzgar si cierta propiedad supuesta para una población es compatible con lo observado en una muestra de ella.


Elementos de una Prueba de Hipótesis

1.- Hipótesis Nula (H0), Hipótesis Alternativa. 2.- Estadístico de Contraste (Discrepancia). 3.- Región de Rechazo (Región Crítica): nivel de significación. 4.- Regla de Decisión.


1.4.2. Validación del modelo 1.- Hipótesis Nula (H0), Hipótesis Alternativa.

H 0 : E ( Y / X ) = β 0 = µ ⇒ Yi = µ + ε i

H1 : E ( Y / X ) = β 0 + β 1 X i ⇒ Yi = β 0 + β 1 X i + ε i 2.- Estadístico de Contraste (Discrepancia).

F 

2 S exp 2 Sres

SCexp 

2 rxy

k K  2 SC res 1  rxy N K1 N  K 1


1.4.2. Validación del modelo 3.- Región de Rechazo (Región Crítica): nivel de significación. Región de aceptación de H0 Región de rechazo de H0

1- Fc


1.4.2. Validación del modelo 4.- Regla de Decisión. Se rechaza la H0 si: F >Fc o de manera equivalente si: p< Por el contrario, se acepta la H0 si: F  ≤Fc o de manera equivalente si: p ≥


Tabla F


Tabla F


1.4.3. Significación de parámetros 1.- Hipótesis Nula (H0), Hipótesis Alternativa. H0 :  1  0

H1 :  1  0

H0 :   0

H1:   0

2.- Estadístico de Contraste (Discrepancia). t 

b  1  Sb

b 2 S res N

 X i 1

b

2 S res

2

i

 X

N

i1

Nota: en regresión simple t2 = F

X i2 

 N    Xi   i 1  N

2

rxy   1  rxy2 N  2


1.4.3. Significación de parámetros 3.- Región de Rechazo (Región Crítica): nivel de significación. Región de aceptación de H0 

 2

1 

2

∀ Fc

Regiones de rechazo de H0


1.4.3. Significación de parámetros 4.- Regla de Decisión. Se rechaza la H0 si: t  >+tc o de manera equivalente si: p< Por el contrario, se acepta la H0 si:  t  ≤  +tc o de manera equivalente si: p≥


http://www.stat.ucla.edu/~dinov/courses_students.dir/Applets.dir/T-table.html


Tabla t de Student


Calculadoras estadĂ­sticas en internet http://faculty.vassar.edu/lowry/VassarStats.htm http://members.aol.com/johnp71/pdfs.html http://davidmlane.com/hyperstat/F_table.html http://davidmlane.com/hyperstat/t_table.html http://www.psychstat.missouristate.edu/introbook/tdist.htm http://www.psychstat.missouristate.edu/introbook/fdist.htm http://calculators.stat.ucla.edu/cdf/


1.6. Predicción Intervalos de predicción: Y o : Y ± t ( α , N

− K −1

)

  1 2  S res 1 + +  N  

(X − X ) ∑ (X − X ) 2

o

N

i =1

i

2

     



Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.