Econometría, Apuntes del Método de los Mínimos Cuadrados Ordinarios Equipo T-Económica
Contenido 1.
Modelo Bivariado ...............................................................................................................................2 1.1.
Método de los Mínimos Cuadrados Ordinarios (MCO). ............................................2
1.1.1.
Propiedades algebraicas ................................................................................................5
1.1.1.1. Bondad de ajuste del modelo ...................................................................................9 1.1.2.
Propiedades estocásticas ............................................................................................ 10
1.1.3.
Estimador de la varianza
1.1.4.
Inferencia en el modelo bivariado .......................................................................... 18
...................................................................................... 16
2.
Referencias ......................................................................................................................................... 21
3.
Anexos .................................................................................................................................................. 23
Modelo Bivariado
1. Modelo Bivariado Suponga que usted desea comprobar la validez de la hipótesis keynesiana del consumo, hipótesis que dice lo siguiente 0 < =
+
<1
+
(1.1)
para el cual, se tiene un conjunto de datos del consumo e ingresos ( , ). El método de los mínimos cuadrados ordinarios (MCO) permitirá contrastar la validez estadística de tal hipótesis planteada. Este método, es un método simple de estimación puntual de parámetros, el cual goza de algunas propiedades deseables que iremos analizando a lo largo de estos apuntes. 1.1. Método de los Mínimos Cuadrados Ordinarios (MCO). Supongamos que existe una relación subyacente entre las variables ( , ), de la siguiente forma =
+
+
= [ | ]+
, [ | ]=
+
(1.2)
A la relación (1.2) se le denomina función de regresión poblacional (FRP), puesto que es la verdadera relación que subyacente entre las variables ( , ). Sin embargo, esta relación no es observable directamente, por lo que, al tener un conjunto de datos, una muestra de dicha población, podemos aproximar esta relación subyacente por una estimación, la cual está dada por la siguiente relación1 =
+
(1.3)
+
que se denomina función de regresión muestral (FRM). Donde
se denomina error
muestral, el cual =
−
−
=
−
(1.4)
donde
1
Gujarati y Porter (2010), pp. 37-45.
2
Modelo Bivariado
=
(1.5)
+
Elevando (1.4) al cuadrado y sumando, obtenemos lo siguiente =
−
−
(1.6)
A la expresión (1.6), también se le conoce como función de pérdida, y como tal, el objetivo es minimizar dicha pérdida. Entonces, el problema de los mínimos cuadrados consiste en encontrar el juego de parámetros min
=
,
−
,
tal que minimicen (1.6), esto es
−
(1.7)
Esta función de pérdida cuadrática tiene la ventaja que, como es una función convexa y suave, esta tiene mínimo local, que, por el teorema local-global, este mínimo local también es global, y, sobre todo, permite el uso de los métodos de optimización tradicionales. Las condiciones de primer orden (CPO) para el problema (1.7) son2 = −2
−
−
= −2
−
−
=0
=0
(1.8)
(1.9)
reordenando (1.8) y (1.9), tenemos +
=
+
2
(1.10)
=
Aquí, debemos recordar una versión de la regla de la cadena, la cual establece que [ ( ) ′( ).
(1.11)
( )] =
3
Modelo Bivariado
Las ecuaciones (1.10) y (1.11) son conocidas como ecuaciones normales3, podemos expresar este sistema en la siguiente forma matricial
=
(1.12)
De la expresión anterior (1.12), podemos notar que la matriz de coeficientes es una matriz simétrica, esto es que, es igual a su transpuesta,
= .
(1.13)
=
desarrollando la matriz inversa4 de la expresión anterior, tenemos ∗
=
−
1 ∑
(1.14)
− ∑
−
Desarrollando el producto de matrices de la expresión anterior, tenemos finalmente el conjunto de estimadores que resuelve (1.7), los cuales son ∗
3
=
∑
∑
−∑
∑
− ∑
∑
(1.15)
En efecto, existe otro método de estimación de parámetros que consiste en maximizar la probabili-
dad de que la perturbación o término de error se distribuya con una distribución normal, este método es conocido como estimación de máxima verosimilitud. 4
En una matriz cuadrada de dimensión n, la matriz inversa está definida como
=
Adj .
4
Modelo Bivariado
∗
=
∑
−∑ ∑
∑
(1.16)
− ∑
Analicemos el numerador de (1.16), podemos probar que5 −
(
=
− ̅ )(
− )
(1.17)
Del denominador de (1.16), podemos probar lo siguiente6 −
=
(
(1.18)
− ̅)
remplazando (1.17) y (1.18) en (1.16), tenemos que ∗
=
∑ ( − ̅ )( − ) cov( , ) = = ∑ ( − ̅) var( )
,
(1.19)
Siendo la expresión (1.19) válida solo para el modelo bivariado. Cabe señalar que, para obtener los estimadores no ha sido necesario asumir alguna propiedad estocástica acerca del término de error 1.1.1.
.
Propiedades algebraicas
El estimador MCO posee las siguientes propiedades algebraicas, las mismas que repasamos a continuación Propiedad 1 La suma de las estimadas
es igual a la suma de las observadas
. Esto es
= Prueba 5
La prueba de (1.17) puede revisarse en el Anexo 3.1.
6
La prueba de (1.18) puede consultarse en el Anexo 3.2.
5
Modelo Bivariado
Para probar esta propiedad, sumaremos la expresión (1.5) teniendo =
+
(1.20)
Sin embargo, por la ecuación normal (1.10) se tiene +
=
(1.21)
Entonces, de (1.20) y (1.21) concluimos que =
⟹
=
(1.22)
Propiedad 2 La suma de los residuos es cero =0 Prueba Para probar esta propiedad utilizaremos la expresión (1.4), teniendo =
(
−
)=
−
(1.23)
que, por el resultado conseguido en la propiedad 1, tenemos =0
(1.24)
6
Modelo Bivariado
Propiedad 3 La suma del producto cruzado de la variable explicativa es, las variables
y los residuos es cero. Esto
y son ortogonales o independientes.
=0 Prueba Para probar esta propiedad, tomaremos en cuenta lo siguiente, sea =
=
(
−
)=
−
−
−
−
=
−
−
Por la ecuación normal (1.11) tenemos que =0
(1.25)
Propiedad 4 La suma del producto cruzado de la variable estimada es, las variables
y los residuos es cero. Esto
y , son ortogonales o independientes.
=0 Prueba Para probar esta propiedad, debemos tener en cuenta lo siguiente =
+
=
+
que, con los resultados conseguidos por las propiedades 2 y 3, tenemos 7
Modelo Bivariado
=0
(1.26)
Cabe señalar que, en la literatura econométrica, dadas las propiedades 3 y 4, los residuos también son denominados perturbaciones esféricas7 así como su contraparte poblacional
.
Propiedad 5 La suma de cuadrados de
podemos descomponerla en la suma de cuadrados para
más la suma de cuadrados de los residuos. =
+
Prueba Para demostrar esta propiedad, debemos recordar que =
+
(1.27)
elevando al cuadrado (1.27) y sumando =
(
+
) =
+2
+
(1.28)
Por la propiedad 4, tenemos =
+
(1.29)
con lo que queda probada esta propiedad.
Puede probarse que, de satisfacerse las propiedades antes mencionadas, el vector formado por ( , , ) no es más que las proyección ortogonal del radio al interior de una esfera (Wonnacott y Won7
nacott, 1979, p. 397).
8
Modelo Bivariado
1.1.1.1. Bondad de ajuste del modelo Sin embargo, a partir de (1.27), también podemos encontrar otra relación fundamental. En efecto, a partir de esta expresión y la propiedad 1 se tiene =(
−
− )+
(1.30)
elevando al cuadrado (1.30) y sumando (
− ) =
(
− ) +2
(
− )
+
(1.31)
Por la propiedad 4 tenemos lo siguiente (
− ) =
(
− ) +
(1.32)
La expresión (1.32) podemos interpretarla en términos de la varianza. En efecto, el lado izquierdo es la varianza total, el cual, puede ser descompuesta en varianza explicada y varianza residual. = ∑(
)
+ ∑(
(1.33) ∑
)
Dividiendo la expresión (1.32) por la expresión al lado izquierdo, se tiene 1=
∑( ∑(
∑ − ) + ∑( − ) − )
(1.34)
reordenando la expresión anterior, tenemos lo siguiente ∑( ∑(
− ) = − )
=1−
∑ ∑( − )
(1.35)
9
Modelo Bivariado
Siendo (1.35) la bondad de ajuste del modelo (1.3). Este indicador
∈ [0,1], cuanto
más cercano esté el indicador a la unidad, mejor representará el modelo (1.3) a la serie de datos8. 1.1.2.
Propiedades estocásticas
Antes de continuar, es necesario recordar algunas de las propiedades de la esperanza matemática y la varianza. Sean las constantes ( , ) y dos variables aleatorias ( , ), entonces, las siguientes, son propiedades de la esperanza matemática9 ( )=
(1.36)
(
)=
(
+
( ) )=
(1.37) ( )+
( )
(1.38)
( )
=
(1.39)
y, para la varianza, enunciamos las siguientes propiedades var( ) = 0 var(
)=
var(
+
(1.40) var( ) )=
(1.41)
var( ) +
var( ) + 2
cov( , )
(1.42)
Una generalización útil de (1.42) es la siguiente var
=
Si además,
y
var( ) + 2
cov( ,
)
, son variables aleatorias independientes, entonces cov
(1.43) ,
= 0.
Por lo que (1.43) se reduce a 8
Véase Wonnacott & Wonnacott (1979), pp. 395-396.
9
Para una revisión de todas estas propiedades a partir de la función generatriz de momentos, véase
Hoel (1971), Capítulo VI.
10
Modelo Bivariado
var
=
var( )
(1.44)
Ahora, podemos establecer los siguientes supuestos sobre el término de perturbación : [ ]=0
(1.45)
var( ) =
(1.46)
cov
,
=0
(1.47)
cov( ,
)=0
(1.48)
El supuesto (1.46) implica el supuesto de varianza constante u homocedasticidad. El supuesto (1.47), implica la no existencia de correlación serial. El supuesto (1.48) por general es interpretado de esta forma, la variable explicativa muestreo repetido, por lo que las variables
y
es constante o fija en
son ortogonales o independientes10.
Estos supuestos, son cruciales, porque nos ayudarán a probar un resultado importante, que se enuncia a continuación. Teorema de Gauss-Markov El estimador MCO, es el mejor estimador (de varianza mínima) lineal e insesgado. La prueba de este teorema la dividiremos en dos partes. a. El estimador
es insesgado
Podemos expresar (1.19) de la siguiente manera =
∑(
− ̅ )( − ) ∑ ( − ̅)
(1.49)
que, desarrollando el numerador
10
Véase Hu (1979), p. 50. Gujarati y Porter (2010), pp. 61-69.
11
Modelo Bivariado
=
1 ∑ ( − ̅)
(
− ̅) −
(
− ̅)
remplazando (1.2) en el resultado anterior, tenemos =
∑ ( − ̅) ∑ ( = ∑ ( − ̅)
+ + )( ∑ ( − ̅)
− ̅)
que, desarrollando nuevamente el numerador
=
1 ∑ ( − ̅)
(
− ̅) +
(
− ̅) +
(
− ̅)
quedando momentáneamente =
1 ∑ ( − ̅)
(
− ̅) +
(
− ̅)
(1.50)
inspeccionando el primer término entre corchetes de (1.50) (
− ̅) =
[ (
− ̅) − ̅(
(
− ̅) − ̅
− ̅ )] =
(
(
− ̅)
− ̅)
(1.51)
utilizando (1.51), podemos expresar (1.50) nuevamente =
1 ∑ ( − ̅)
(
− ̅) +
(
− ̅)
por lo que =
+
∑ ( − ̅) ∑ ( − ̅)
(1.52) 12
Modelo Bivariado
Aplicando el operador esperanza a ambos miembros de (1.52), nos queda =
+
por lo que
∑ ( − ̅) = ∑ ( − ̅)
+
∑ ( − ̅) [ ] = ∑ ( − ̅)
(1.53)
es insesgado.
b. El estimador
tiene varianza mínima
A partir de (1.52), aplicamos el operador varianza en ambos miembros, obteniendo lo siguiente var
= var
+
∑ ( − ̅) ∑ ( − ̅) = var( ) + var ∑ ( − ̅) ∑ ( − ̅)
(1.54)
utilizando las propiedades de la varianza vistas anteriormente, tenemos var
=
∑ ( − ̅ ) var( ) ∑ ( − ̅ ) = = [∑ ( − ̅ ) ] [∑ ( − ̅ ) ] ∑(
− ̅)
(1.55)
Ahora, definamos el siguiente estimador lineal =
(1.56)
tal que =
− ̅ + ∑ ( − ̅)
(1.57)
Remplazado (1.2) en (1.56) tenemos =
(
+
+
)
(1.58)
desarrollando la expresión (1.58) nos queda =
+
+
(1.59) 13
Modelo Bivariado
sea insesgado, es necesario que ∑ = 0 y ∑ = 1, para lo cual, debe satisfacerse que ∑ = 0y∑ = ∑ ( − ̅ ) = 0. En efecto, dado (1.57) se tiene Para que
1 ∑ ( − ̅)
=
(
− ̅) +
La expresión anterior, es cero si ∑ =
1 ∑ ( − ̅)
(
(1.60) = 0. Además
− ̅) +
(1.61)
que, por (1.51) =1+ por lo que ∑ el estimador =
(1.62) = 0 para que ∑
= 1. De acuerdo con las condiciones anteriores,
es insesgado. En efecto, la expresión (1.59) se reduce a lo siguiente
+
(1.63)
que, aplicando el operador esperanza a ambos miembros, se tiene [
]=
(1.64)
Ahora, aplicando el operador varianza a la expresión (1.63), se tiene var(
)=
var( ) =
(1.65)
A partir de (1.57), elevamos al cuadrado =
( − ̅) 2 ( − ̅) + + [∑ ( − ̅ ) ] ∑ ( − ̅)
(1.66)
y sumando
14
Modelo Bivariado
=
∑ ( − ̅) 2 ∑ ( − ̅) + + [∑ ( − ̅ ) ] ∑ ( − ̅)
(1.67)
nos queda =
1 + ∑ ( − ̅)
(1.68)
Remplazado (1.68) en (1.65) obtenemos lo siguiente var(
)=
1 + ∑ ( − ̅)
=
∑(
− ̅)
+
(1.69)
que, recordando (1.55), podemos rescribir (1.69) de la forma var(
) = var
+
(1.70)
por lo que var(
) > var
QED.
Quedando, de esta manera, demostrado el teorema.
15
Modelo Bivariado
Figura 1. Diagrama de las clases restringidas de estimadores consideradas en el Teorema de Gauss-Markov. Fuente: Wonnacott y Wonnacott (1979), p. 27.
En la figura anterior, se presenta un diagrama clásico mostrando las clases de estimadores que están consideradas en este teorema, dentro del cual se muestra la posición del estimador MCO en el mismo. 1.1.3.
Estimador de la varianza
En esta sección, encontraremos un estimador para
, toda vez que este parámetro es
desconocido. A partir de (1.30), tenemos =(
− )−(
− )
(1.71)
ahora, aplicando el operador de media a (1.2), se tiene =
+
̅+
(1.72)
Si bien, una consecuencia del supuesto (1.45) es que
= 0; este término, será conser-
vado en la expresión (1.72) porque es funcional a nuestro propósito, por lo que si restamos (1.72) de la expresión (1.2), nos queda −
=
(
− ̅) + (
− )
(1.73)
Ahora, a partir de (1.10) se tiene =
+
̅
(1.74) 16
Modelo Bivariado
recordando además que, restando (1.74) de la expresión (1.5), tenemos −
=
(
(1.75)
− ̅)
Remplazando (1.73) y (1.75) en (1.71), tenemos lo siguiente =−
(
−
− ̅) + (
− )
(1.76)
que, elevando al cuadrado y sumando, obtenemos =
(
−
− ̅) − 2
(
−
− ̅ )(
− ) (1.77)
+
(
− )
Reordenando la expresión (1.52) y, elevando al cuadrado, tenemos −
=
∑ ( − ̅) ∑ ( − ̅)
(1.78)
remplazando (1.78) en (1.77), nos queda =
∑ ( − ̅) ∑ ( − ̅) +
−
(
− ̅) − 2
∑ ( − ̅) ∑ ( − ̅)
(
− ̅ )(
− )
1
reduciendo la expresión anterior, conseguimos lo siguiente =
[∑ ( − ̅ )] [∑ ( − ̅ )] −2 + ∑ ( − ̅) ∑ ( − ̅)
−
1
que, reduciendo la expresión anterior nos queda =
−
1
−
[∑ ( − ̅ )] ∑ ( − ̅)
Ahora, aplicando el operador esperanza a ambos miembros de la expresión, tenemos 17
Modelo Bivariado
=
−
despejando
−
= ( − 2)
, ahora
, obtenemos la estimación para la varianza del término de
error =
∑ −2
con el cual, podemos expresar nuevamente (1.55) de la siguiente manera var
=
∑(
− ̅)
=
∑ ( − 2) ∑ (
que es la estimación para var 1.1.4.
− ̅)
(1.79)
.
Inferencia en el modelo bivariado
A los supuestos (1.45)-(1.48), añadiremos el siguiente ↝
(0,
)
(1.80)
Por (1.52), podemos apreciar que
es una función lineal respecto de
. Entonces, por
la propiedad reproductiva de la distribución normal, tenemos que ↝
,
∑(
− ̅)
(1.81)
De acuerdo a lo anterior, el siguiente indicador (estandarización), se distribuye con (0,1) −
↝
(0,1)
var
(1.82)
A continuación, definiremos la distribución -Student.
18
Modelo Bivariado
Definición (Distribución -Student) Una distribución
es una variable aleatoria del tipo
√
= donde
↝
(0,1) y
↝
, en el que, denota los grados de libertad, además
y
son variables aleatorias distribuidas independientemente (Hoel, 1971, p. 258). Sin embargo, para satisfacer (1.82), es necesario conocer la varianza poblacional
,
que no conocemos, sino su estimación , que, remplazando en (1.82), hace que el indicador, ya no se distribuya con (0,1) sino con . −
↝
(1.83)
var
Para probar (1.83), dividiremos tanto el numerado como el denominador por el siguiente factor var
, a partir del cual, podemos desarrollar algebraicamente la si-
guiente expresión
− var
−
−
−
var
var
var
=
=
= var var
var
∑(
− ̅)
∑ ( − 2) ∑ (
− ̅)
var −
−
−
var
var
var
= ∑ ( − 2)
√ −2 (1.84)
= −2 −2
( − 2)
19
Modelo Bivariado
El numerador de (1.84), se distribuye con (0,1) −
(0,1)
↝
(1.85)
var Mientras que, el denominador lo hace con
( − 2)
(1.86)
↝
por lo que, la expresión (1.83) se distribuye con , puesto que es la suma de variables con distribución (0,1) con − 2 términos en la sumatoria11. Con esta información, podemos construir el intervalo de confianza para el estimador , siendo el intervalo, el siguiente :
=0⟺
∈
+
var
,
(1.87)
siendo la anterior, una prueba de significancia de dos colas, donde , se denomina nivel de significancia, por lo que 1 − , es el nivel de confianza. Recordemos que el intervalo de confianza (dos colas) se construye de la siguiente manera: Pr −
≤
,
≤
=1−
,
(1.88)
remplazando (1.83) en la expresión anterior, tenemos
Pr ⎛− ⎝
11
,
≤
−
≤
,
var
⎞=1−
(1.89)
⎠
Para una prueba de esta afirmación véase Johnston (1975), p. 22.; Goldberberg (1970), p. 185. y
Novales (1993), capítulo 2, sección 2.8.
20
Modelo Bivariado
despejando Pr
−
en el intervalo, finalmente se tiene
,
var
≤
≤
+
,
var
=1−
(1.90)
a partir del cual, se obtiene (1.87). Figura 2. Prueba de dos colas en la Distribución -Student. Las áreas sombreadas corresponden al nivel de significancia , repartidos en ⁄2 por cada lado.
2. Referencias Hoel, P. (1971). Introduction to Mathematical Statistics (Fourth Edition). John Wiley & Sons. Goldberger, A. (1970). Teoría Econométrica. Biblioteca Tecnos de Ciencias Económicas. Editorial Tecnos, Madrid. Gujarati, D. y Porter, D. (2010). Econometría (Quinta Edición). McGraw-Hill, Interamericana Editores S. A. de C. V. Johnston, J. (1975). Métodos de Econometría (Tercera Edición). Vicens Vives, Barcelona. Hu, T. (1979). Econometría, Un Análisis Introductorio. Fondo de Cultura Económica. Novales, A. (1993). Econometría (Segunda Edición). McGraw-Hill, Interamericana de España S.A.
21
Modelo Bivariado
Wonnacott, R. & Wonnacott, T. (1979). Econometrics (Second Edition). John Wiley & Sons.
22
Modelo Bivariado
3. Anexos 3.1. Propiedad algebraica de la covarianza A partir del numerador de (1.16), tenemos −
−
= 1
−
1
=
̅
=
−
[
−
−
− ̅
−
−
̅ +
+
̅
̅ −
(
̅
[
=
+ ̅ ]=
− ̅
̅
− ̅ )(
−
− )
− ̅
+ ̅ ]
(3.1)
QED. 3.2. Propiedad algebraica de la varianza A partir del denominador de (1.16), se tiene −
= 1
−
−
−2
̅
−
1
=
=
̅ +
−
̅
−
=
̅ +
̅
̅ −
−2 ̅
̅
+
̅
23
Modelo Bivariado
[
−2 ̅
+ ̅ ]=
[
− ̅]
(3.2)
QED.
24