• Siempre se presentará el problema de variable omitida.
• En algunas ocasiones, la omisión de estas variables puede implicar un sesgo en el estimador de MCO
Regresión lineal múltiple
• El sesgo del MCO que ocurre cuando hay un factor omitido relevante se denomina sesgo de variable omitida.
• El problema se da en muestras pequeñas y grandes. ¿Cómo evitar el sesgo de variable omitida?
1. Llevando a cabo un experimento aleatorizado controlado.
2. Adoptar el enfoque de tabulación cruzada.
• Si una variable omitida es relevante (determinante de �� y correlacionada con ��) ⇒�� ̂ 1 es incosistente (y también es sesgado) Para ello, hay que recordar que el buen estimador es: insesgado, consistente y eficiente. Nuestro objetivo es obtener buenos estimadores.
Introducción
• El modelo de regresión lineal múltiple RLM extiende el modelo de regresión simple incluyendo otras variables adicionales como regresores (variables independientes)
• Si ������(����,����)≠0 se produce el sesgo de variable omitida
![](https://assets.isu.pub/document-structure/220906171102-9d10141f48559aad5b6ee513760e4cfe/v1/4da8a6e1e61ddd840efb907008ae9551.jpeg)
• Desde el punto de vista de MCO, si ������(����,����)≠0⇒ ��(����|����)≠0, así que el supuesto de media condicional cero no se cumple
• Para que esto ocurra, la variable omitida �� debe satisfacer dos condiciones: �� es un determinante de �� (es decir, �� es parte de ��) �� esta correlacionado con el regresor �� (es decir, ��������(��,��)≠0)
Desarrollo
3. Usar una regresión en la que la variable omitida deje de serlo. Es decir, en la que se incluya �� como un regresor adicional en una regresión lineal Así se obtiene un modelo de regresión lineal múltiple que se caracteriza por incluir a más de una variable independiente.
En el modelo de Regresión lineal simple -RLS- el término de error incluye otros factores o variables que influencian a la variable dependiente, que no están recogidos de forma explícita en la función de regresión. Esto implica que:
• Este modelo permite estimar el efecto de la variación de una variable independiente sobre ���� manteniendo constantes el resto de los regresores (efecto ceteris paribus) • Supongamos que hay solo dos regresores: ���� =��0 +��1��1�� +��2��2�� +����;�� =1,2, ,��[1] �� es la variable dependiente ��1,��2 son variables independientes (regresores) (����,��1��,��2��) denota la �� é�������� observación de ��,��1,��2 ��0: término constante poblacional ��1: efecto causal sobre �� de un cambio en ��1 manteniendo constante ��2 (y ��) ��2: efecto causal sobre �� de un cambio en ��2 manteniendo constante ��1 (y ��) ����: error (recoge otros factores que afectan a ��) Interpretación de los coeficientes en regresión múltiple ���� =��0 +��1��1�� +��2��2�� +����;�� =1,2, ,�� Se incrementa ��1 en ����1 manteniendo constante ��2 (y el error) • Recta de regresión poblacional antes del cambio: ��=��0 +��1��1 +��2��2 +�� • Recta de regresión poblacional después del cambio: ��+����=��0 +��1(��1 +����1)+��2��2 +��[2] • Diferencia ���� =��1����1 ⇒��1 = ���� ����1 [3] manteniendo constante (��2 y ��) • Igualmente ���� =��2����2 ⇒��2 = ���� ����2 [4] manteniendo constante (��1 y ��) • ��0: valor predicho de �� cuando ��1 =��2 =0
![](https://assets.isu.pub/document-structure/220906171102-9d10141f48559aad5b6ee513760e4cfe/v1/4da8a6e1e61ddd840efb907008ae9551.jpeg)
El modelo lineal de regresión múltiple y el estimador de MCO en forma matricial El modelo de regresión lineal múltiple en forma matricial El modelo de regresión múltiple (o general) poblacional se expresa como: ���� =��0 +��1��1�� +��2��2��+ +���������� +����, ��=1,2, ,��[5]
Este modelo se puede expresar en forma matricial, para lo cual, las �� ecuaciones de este modelo se pueden escribir como: ( ��1 ��2 . . ����) = ( 1 ��11 ����1 1 ��12 ����2 . . ... . . . ... . 1 ��1�� ������) × ( ��0 ��1 . ����) + ( ��1 ��2 . . ����) [6] o, de forma equivalente, se las puede expresar así: ��=����+��[7] Donde: • �� es de dimensión ��×1 • �� es de dimensión ��×(��+1) • ��=(��0,��1,...,����)′ es el vector (��+1)×1 • �� es un vector de dimensión ��×1 Debido a que �� es ��×(��+1) y �� es (��+1)×1 La estimación de ��=(��0,��1, ,����)′ se produce al minimizar la Suma de los Residuos Cuadrados SRC , como en el modelo de regresión lineal simple. Se parte de la definición de la suma de los residuales cuadrados para todo vector de parámetros �� de dimensión (��+1)×1 como: ������(��) ≡����=1 �� (���� ������)2[8] �� es el vector de estimadores de Mínimos Cuadrados Ordinarios (M.C.O), �� ̂ = (�� ̂ 0,�� ̂ 1,...,�� ̂ ��)′, que minimiza ������(��) para todos los vectores posibles de (��+1)×1. Este es un problema de cálculo multivariado. Para que �� ̂ minimice la suma del cuadrado de los residuales debe resolver la siguiente condición de primero orden (C.P.O): ∂������(��̂) ∂�� ≡0[34]
Puesto que la derivada de (���� ������)2 con respecto �� es el vector 1×(��+1), 2(���� ������)����, esto es equivalente: ����=1 �� ��′(���� ������ ̂)≡0[9]
![](https://assets.isu.pub/document-structure/220906171102-9d10141f48559aad5b6ee513760e4cfe/v1/4da8a6e1e61ddd840efb907008ae9551.jpeg)
• SRLM.2: Muestreo aleatorio, es decir, ��[(��1��,��2��, ,������,����):�� =1,2, ,��] son extracciones independientes idénticamente distribuidas (i.i.d.) a partir de su distribución conjunta
����=1 �� ��
̂ ����
Esta es la fórmula critica para el análisis matricial del modelo de regresión lineal Elmúltiple.supuesto de que ��′�� es invertible y equivalente al supuesto de que el ����������(��)= (��+1), significa que las columnas de �� deben ser linealmente independientes. Ésta es la versión matricial del SRLS.3
![](https://assets.isu.pub/document-structure/220906171102-9d10141f48559aad5b6ee513760e4cfe/v1/4da8a6e1e61ddd840efb907008ae9551.jpeg)
̂
Lo anterior también se puede escribir en forma de matrices para hacerla más fácil de usar, tenemos: ��′(�� ����̂)=0[11] o (��′��)�� ̂ =��′��[12]
Supuestos ampliados de MCO para el modelo de regresión múltiple Los supuestos ampliados (Stock and Watson 2012) son: • SRLM.1: Media condicional cero ��(��|��1,��2, ,����)=0
��
��
Se divide su resultado entre 2 y se toma la traspuesta. La C.P.O se puede escribir como: ����=1(�� ��0 �� ̂ 1��1�� �� ̂ ��������)=0 1��(�� ��0 ��1 1�� ... �� ����)=0 2��(���� �� ̂ 0 �� ̂ 1��1�� �� ̂ ��������)=0 . . . ����(���� �� ̂ 0 �� ̂ 1��1�� ... �� ̂ ��������)=0[10]
̂
̂
Se puede demostrar que [12] siempre tiene al menos una solución. Las soluciones múltiples no son de ayuda, puesto que se busca un conjunto único de estimadores MCO dado el conjunto de datos. Si se asume que la matriz simétrica (��′��) de dimensiones (��+1)×(��+1) no sea singular, se puede pre multiplicar ambos lados de [12] por (��′��) para obtener el estimador �� ̂ de MCO: �� ̂ =(��′��) ����′��[13]
����=1 �� ��
����=1 �� ��
• SRLM.3: linealidad en los parámetros �� =��0 +��1��1��+...+��1������ +�� Estos tres primeros supuestos son idénticos a los tres primeros supuestos de RLS
��
��
• SRLM.4: Colinealidad no perfecta o no multicolinealidad. �� tiene rango completo de columnas, no hay una relación lineal constante entre variables independientes. Es decir, que una columna de �� no puede ser combinación lineal de otras columnas. • SRLM.5: Homocedasticidad. Para cualquier valor de las variables explicativas, el error �� tiene la misma varianza. En otras palabras ������(��|��1,��2, ,����)=��2 • SRLM.6: Normalidad el error poblacional �� es independiente de las variables explicativas ��1,��2, ,���� y está distribuido normalmente, con media cero y varianza ��2: �� ∼������������(0,��2) Análisis de los resultados de la Regresión lineal múltiple. Uso del estadístico �� El estadístico F es útil para conocer si el modelo es significativo de forma global, para lo cual, se prueban las siguientes hipótesis: Hipótesis nula ��0:��0 =��1 = =���� =0 Hipótesis alternativa ����:���� ���������� ���� ���� ≠0 Regla de decisión: • si �������� >����1,��2,�� ⇒��0 se rechaza • ��������������(�������� >��)>�� ⇒��0 se rechaza Si se cumples estas condiciones el modelo de RLM de forma global es significativo. Estrategia general para la modelización no lineal Hasta el momento hemos asumido que la función de regresión poblacional era lineal. ���� =��0 +��1��1+...+�������� +���� Es decir, la pendiente de la función de regresión poblacional era constante ⇒ el efecto sobre �� de un cambio unitario en �� no dependía de �� Pero la aproximación lineal no siempre es adecuada. La regresión múltiple puede acomodar funciones de regresión no lineales a uno o más regresores. • Nos podemos enfrentar a dos escenarios: El efecto sobre �� de un cambio en un regresor ��1 depende de ��1 El efecto sobre �� de un cambio en un regresor ��1 depende de otro regresor ��2 Veremos más adelante el modelo de regresión cuadrática
![](https://assets.isu.pub/document-structure/220906171102-9d10141f48559aad5b6ee513760e4cfe/v1/4da8a6e1e61ddd840efb907008ae9551.jpeg)
1. Identificación de una posible relación no lineal: usar la teoría económica, el conocimiento del problema empírico del objeto de estudio, analizar la evidencia gráfica. 2. Especificación de una función no lineal y estimación de los parámetros por Mínimos Cuadrados Ordinarios M.C.O. .
3. Determinación de si el modelo no lineal mejora al modelo lineal: en muchos casos se pueden usar estadísticos habituales (��,��) para constrastar la ��0 de linealidad frente a la alternativa de no linealidad
• La relación entre �� y �� es no lineal: El efecto sobre �� de un cambio en �� depende del valor de �� (el efecto marginal de �� no es constante) Una regresión lineal está mal especificada: si la forma funcional es Elequivocadaestimador del efecto de �� sobre �� es sesgado La solución es estimar una función de regresión no lineal en �� general para la modelización no lineal mediante regresión lineal múltiple
4. Presentación de la función de regresión no lineal estimada: ¿describe bien los datos la función de regresión estimada?
La función de regresión poblacional se aproxima mediante un polinomio cuadrático, cúbico o de grado superior ��: ���� =��0 +��1���� +��2���� 2+ +�������� �� +����[14]
5. Estimación del efecto sobre �� de un cambio en �� Funciones no lineales de una variable Modelo de regresión polinomial
![](https://assets.isu.pub/document-structure/220906171102-9d10141f48559aad5b6ee513760e4cfe/v1/4da8a6e1e61ddd840efb907008ae9551.jpeg)
Este es un modelo de RLM con la única particularidad de que los regresores son potencias de ����. Todo el proceso de estimación, inferencia y significancia de la RLM también se aplican para el modelo de regresión polinomial. No obstante, los coeficientes son difíciles de interpretar. Existen procedimientos para elegir el grado del polinomio, tal es el caso del procedimiento secuencial basado en estadísticos ��, en el cual, se contrastar la hipótesis nula ��0 de la linealidad vs. la hipótesis alternativa no lineal a través del análisis de la prueba ��. ��0:��2 = ...=���� =0 La especificación de ���� es lineal ����: al menos un ���� ≠ 0 La especificación de ���� es no lineal
Metodología
1. Lineal log (nivel log) En este modelo la variable dependiente es lineal y se aplica el logaritmo en las variables independientes. ���� =��0 +��1����(����)+����[16]
Para tal efecto, se transforman la variable dependiente �� y/o las variables independientes �� tomando logaritmos. La interpretación en términos de porcentajes tiene sentido en muchas aplicaciones. Presentaremos tres modelos alternativos que tienen interpretaciones diferentes: Las tres especificaciones
2. Log lineal (log nivel) En este modelo se aplica el logaritmo a variable dependiente y las variables independientes no sufren ninguna transformación. ����(����)=��0 +��1���� +����[17] 3. Log-log (log-log) En este modelo tanto la variable dependiente, así como las independientes son transformadas a logaritmos. ����(����)=��0 +��1����(����)+����[18] Las interpretaciones de las pendientes en cada caso difieren. Por lo cual, la interpretación correcta se puede encontrar aplicado la regla general de antes y después. En esta se calcula el cambio en �� para un cambio dado en �� Modelo lineal log o nivel log ���� =��0 +��1����(����)+���� Interpretación de ��1 1 100��1 ≈ ���� 100×���� �� [19] • ¡¡Importante!! 1% de incremento en �� implica un incremento de 1 100��1 Modelo log lineal o log nivel ����(����)=��0 +��1���� +���� Interpretación de ��1
Logaritmos Notación: ����(��) se conoce como el logaritmo natural de ��. Lo cual permite convertir las variaciones de las variables en cambios porcentuales, mejor conocidas como elasticidades. Esto es debido a que si ���� �� es pequeño, entonces: ����(��+▵��) ����(��)=����(1+▵�� �� )≈▵�� �� [15]
![](https://assets.isu.pub/document-structure/220906171102-9d10141f48559aad5b6ee513760e4cfe/v1/4da8a6e1e61ddd840efb907008ae9551.jpeg)
lineales son posibles, así que hay que preguntarse ¿Qué efecto no lineal se prentender analizar? ¿Qué conclusiones se obtienen de la aplicación empírica?
Recordemos que, para aplicar la regresión lineal múltiple, la variable �� tiene que ser métrica y continua y, las variables �� pueden ser métricas y no métricas, ¿cómo se procede al momento usar esta herramienta para explicar eventos cualitativos? Lo estudiaremos cuando revisemos los modelos de variable dependiente binaria Bibliografía Stock, James H, and Marck M. Watson. 2012. Introducción a la econometría. Madrid (España): Pearson. http://www.ebooks7 24.com/?il=3445
![](https://assets.isu.pub/document-structure/220906171102-9d10141f48559aad5b6ee513760e4cfe/v1/c6f9e95ea0358f19bbbe39a3c5290533.jpeg)
100��1 ≈ 100×���� �� ���� [20] • ¡¡Importante!! Un incremento de una unidad en �� implica un incremento del 100��1% en �� Modelo log log ������(����)=��0 +��1����(����)+���� Interpretación de ��1 ��1 ≈ 100×���� �� 100×���� �� [22] • ¡¡Importante!! Un incremento de un 1% en �� implica un incremento de ��1% en �� ��1 tiene interpretación de elasticidad Cierre En esta sección se ha mostrado de forma teórica el uso de la Regresión lineal múltiple. Se han identificado las ecuaciones para plantear este modelo de forma matricial y para obtener los estimadores. Además, se complementa el estudio de la significancia parcial de cada estimador revisado en la regresión lineal simple con el análisis de significancia global. La interpretación de los coeficientes depende del modelo concreto que se aplique. La regla general para calcular los efectos de la variable dependiente sobre las independientes es comparar las situaciones “antes” y “después” de un cambio en los Muchasregresores.especificaciones
![](https://assets.isu.pub/document-structure/220906171102-9d10141f48559aad5b6ee513760e4cfe/v1/4da8a6e1e61ddd840efb907008ae9551.jpeg)