Regresión lineal simple y correlación Contenido BibliografíaCierreDesarrolloIntroducción.....................................................................................................................................................................2............................................................................................................................................................................2Determinacióndelasecuacionesparaobtenerlosestimaciones3Usodelosmodelosderegresiónenlainferenciacausal5Calidaddeajustedelaregresiónlineal6Lasumatotaldecuadrados(STC)........................................................................................................6Lasumaexplicadadecuadrados(SEC)............................................................................................6Lasumaresidualdecuadrados(SRC)...............................................................................................6Varianzamuestraldelaregresión........................................................................................................6Errorestándardelaregresión(ESR)...................................................................................................6Bondaddeajuste6Contrastedehipótesiseintervalosdeconfianza6SupuestosdeMCO6Hipótesisbilateralesacercadebetas.................................................................................................7Intervalosdeconfianza.................................................................................................................................8Introducirinformacióncualitativaalosmodelosderegresión..........................................899
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/155b2d2d782381dbf3c29c8e8209176b.jpeg)
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/79eceb0ebe03463f363134abc8ed0903.jpeg)
Lineal Simple, en el que solo se tiene una variable dependiente �� sobre �� Usamos como literatura básica los libros de (Stock y Watson 2012) y (Wooldridge 2009).
Desarrollo
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/79eceb0ebe03463f363134abc8ed0903.jpeg)
Para explicar la relación entre �� y �� se requiere establecer un modelo que explique a �� en términos de ��. Para ello, hay que tomar en consideración tres aspectos. Primero, dado que entre las variables nunca existe una relación, ¿cómo pueden tenerse en cuenta otros factores que afectan a ��?, Segundo, ¿cuál es la relación funcional entre �� y ��? Y, tercero, ¿cómo se puede estar seguro de que la relación entre �� y �� sea un relación ceteris paribus (un efecto causal) entre �� y �� (si es ese el objetivo buscado)?. Esta ambigüedades pueden resolverse estableciendo una ecuación que relaciones �� con ��, de la siguiente manera:
Introducción Cada vez que analizamos información nos encontramos ante dos grupos de variables: las dependientes y, las independientes. Las técnicas de dependencia buscan identificar la existencia o ausencia de relaciones entre estos dos grupos de variables. Se puede basar en un experimento controlado o con una base teórica. El objetivo será establecer si el conjunto de variables independientes (��1,��2, ,����) afectan a la variable dependiente (��) de manera conjunta o individualmente ��=��(��1,��2,..,����)[1]
Para (Pérez 2011), el análisis de la regresión múltiple es una técnica estadística utilizada para analizar la relación entre una variable dependiente (o endógena) métrica y varias variables independientes (o exógenas) también métricas. El objetivo esencial del análisis MRLM es utilizar las variables independientes, cuyos valores son conocidos, para predecir la única variable criterio (dependiente) seleccionada por el investigador.
Con ello, se determinar el efecto que tiene el conjunto de variables �� sobre �� o su relación. Vamos a explicar la intuición de esta relación con el Modelo de Regresión
En este caso estamos ante un análisis de dependencia ya que la variable dependiente (��) es métrica o cuantitativa (es común que la variable sea continua) y las variables independientes pueden ser métricas y no métricas, por lo cual, se usa el Modelo de Regresión Lineal Múltiple (MRLM)
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/3296b8b6151f87c676f027a795ad00f7.jpeg)
• Regresando (��), regresor (��)
• Para �� también se usa el término de covariada La variable ��, se llama término de error o perturbación. Esta representa factores distintos a �� que afectan a ��. La ecuación [2] también resuelve el problema de la relación funcional entre �� y �� Si los demás factores en �� permanecen constantes, de manera que el cambio de �� sea cero, ���� =0, entonces �� tiene un efecto lineal sobre ��: ����=��1����;���� =0 Los parámetros: • ��0: parámetro del intercepto o término constante. • ��1: parámetro de la pendiente, en la relación entre �� y �� A la ecuación [2] de le conoce como el Modelo Regresión Poblacional El objetivo es estimar los parámetros usando una muestra de datos de tañamo �� �� ̂ �� =�� ̂ 0 +�� ̂ 1���� +�� ̂ ��[3] La ecuación [3] se le conoce como el Modelo Regresión Muestral Donde: • �� ̂ ��: valores estimados o ajustados • �� ̂ 0 el estimador de intercepto • �� ̂ 1 el estimado de la pendiente • �� ̂ �� los residuales Determinación de las ecuaciones para obtener los estimaciones
Para obtener los estimadores se aplica la técnica de Mínimos Cuadrados Ordinarios (MCO). Esta consiste en elegir �� ̂ 0 y �� ̂ 1 de forma que minimice la suma de cuadrados de los residuos (SCR). Para ello, expresamos la SCR como una función de los estimadores:
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/79eceb0ebe03463f363134abc8ed0903.jpeg)
�� =��0 +��1��+��[2]
Este se define como el Modelo de Regresión Lineal Simple. A la ecuación [2] se llama también modelo de regresión lineal de dos variables o modelo de lineal bivariado. Cuando las variables �� y �� se relaciona mediante la ecuación [2] se les da diversos nombres: • Variable dependiente (��), variable independiente (��) • Variable explicada (��), variable explicativa (��) • variable de respuesta (��), variable de control (��) • variable predicha (��), variable predictora a la (��)
���� =�� ̂ �� +�� ̂ ��[4] Usando la ecuación [4] tenemos: ������������ =����������=1 �� �� ̂ �� 2 =����������=1 �� (���� �� ̂ ��)2 =����������=1 �� (���� �� ̂ 0 �� ̂ 1����)2[5] Para minimizar utilizo la condiciones de primero orden (C.P.O.), significa derivar parcialmente con respecto a �� ̂ 0 y �� ̂ 1 e igualar a cero, ∂����=1 �� (���� �� ̂ 0 �� ̂ 1����)2 ∂�� ̂ 0 =0= 2����=1 �� (���� �� ̂ 0 �� ̂ 1����)[6] ∂����=1 �� (���� �� ̂ 0 �� ̂ 1����)2 ∂�� ̂ 1 =0= 2����=1 �� (���� �� ̂ 0 �� ̂ 1����)����[7] Divido a [6] y [7] para 2, tenemos el siguiente sistema: ����=1 �� (���� �� ̂ 0 �� ̂ 1����)=0[����1] ����=1 �� (���� �� ̂ 0 �� ̂ 1����)���� =0[����2] Tomando la ecuación [MC1] y multiplico en ambos lados por �� 1, tenemos �� 1����=1 �� (���� �� ̂ 0 �� ̂ 1����)=0 Repartos �� 1����=1 �� para cada elemento interno �� 1����=1 �� (����) �� 1����=1 �� (�� ̂ 0) �� 1����=1 �� (�� ̂ 1����)=0 Por definición �� 1����=1 �� (����)=�� usando esta definición tenemos: �� �� 1���� ̂ 0 �� ̂ 1��=0 Simplificando y ordenando �� ̂ �� a la izquierda tenemos: �� ̂ �� =�� �� ̂ ����[������] Ahora usando [EC1] en [MC2], tenemos: ����=1 �� (���� (�� �� ̂ 1��) �� ̂ 1����)���� =0 Sacando de los paréntesis tenemos: ����=1 �� (���� ��+�� ̂ 1�� �� ̂ 1����)���� =0 Agrupando los términos con �� ̂ 1 y factor común: ����=1 �� (���� ��+�� ̂ 1[�� ����])���� =0 Usando un artificio para cambiar el signo de �� ̂ 1, tenemos: ����=1 �� ����(���� �� �� ̂ 1[���� ��])=0 Repartiendo el término ����=1 �� ���� para �� y �� y, pasando al lado derecho ��, tenemos: ����=1 �� ����(���� ��)= �� ̂ 1����=1 �� ����(���� ��)
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/79eceb0ebe03463f363134abc8ed0903.jpeg)
Uso de los modelos de regresión en la inferencia causal
• La relación entre el salario y la educación
• El efecto de la calidad en el producto y el nivel de exportaciones Para establecer matemáticamente el efecto de �� sobre �� es importante considerar lo siguiente, partiendo de la ecuación [6]: �� ̂ �� =�� ̂ 0 +�� ̂ 1���� +�� ̂ ��[6] El estimador del intercepto �� ̂ 0 es el valor predicho de �� cuando �� =0. Sin embargo, muchas veces no tiene sentido �� =0, entonces, en este caso �� ̂ 0 no tiene mucho interés. Este modelo busca hacer interpretaciones ceteris paribus, es decir, inferencias causales (el efecto de �� sobre ��). Es por ello, que partimos de la Función de Regresión Muestral (FRM) �� ̂ �� =�� ̂ 0 +�� ̂ 1����. Dado que la FRM se obtiene a partir de una muestra de datos, con una nueva muestra se obtendrían una pendiente e intercepto diferentes. A la pendiente estimada podemos expresar de la siguiente forma: �� ̂ 1 = ���� ̂ ����[7]
Los Modelos de Regresión Lineal en la estadística se usan para determinar las relaciones de causalidad entre �� y ��, conocido como ajuste lineal. También se usan para pronosticar valores de la variable �� dado un conjunto de variables explicativas. Por ejemplo:
• El efecto de algunos tipos de fertilizante sobre la producción de ciertos cereales
De acuerdo con las propiedades básicas de la sumatoria: ����=1 �� ����(���� ��)=����=1 �� (���� ��)2;����=1 �� ����(���� ��)=����=1 �� (���� ��)(���� ��) Por lo tanto, siempre que: ����=1 �� (���� ��)2 > 0 La pendiente estima es: �� ̂ �� = ����=�� �� (���� ��)(���� ��) ����=�� �� (���� ��)�� [������]
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/79eceb0ebe03463f363134abc8ed0903.jpeg)
Esto indica la cantidad en la cambia �� ̂ cuando �� cambia en una unidad: ���� ̂ =�� ̂ 1����[8]
• Para responder preguntas de política como, cuál es el efecto del número de estudiantes por aula sobre las calificaciones.
• La relación entre la capacitación del personal y el aumento de la productividad
Cuadrados Ordinarios • SRLS.1: media condicional cero ��(��|��)=0
También conocido como la raíz del error cuadrado medio ������ =√������(��)[13]
La variación total de �� se puede expresar como la suma de la variación explicada SEC más la variación no explicada SRC ������ =������+������[14]
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/79eceb0ebe03463f363134abc8ed0903.jpeg)
La ecuación [8] permite las interpretaciones así: Si �� aumenta en una unidad, el estimado de �� ̂ varia en promedio en �� ̂ 1 Calidad de ajuste de la regresión lineal A partir de la ecuación [3] vamos a definir el ajuste de la regresión, para ellos con: La suma total de cuadrados (STC) ������ =����=1 �� (���� ��)2[9] La suma explicada de cuadrados (SEC) ������ =����=1 �� (�� ̂ �� ��)2[10] La suma residual de cuadrados (SRC) ������ =����=1 �� �� ̂ �� 2[11] Varianza muestral de la regresión Conocido como el error cuadrado medio ������(��)=��2 = ������ �� 2 = 1 �� 2 ����=1 �� �� ̂ �� 2[12] Error estándar de la regresión (ESR)
Bondad de ajuste Si queremos medir que tan bien la variable explicativa (��) explica la variable dependiente �� se usa el Coeficiente de Determinación ��2, se obtiene: ��2 = ������ ������ =1 ������ ������[15] ��2 es el cociente de la variación explicada entre la variación total; por lo tanto, se interpreta como la proporción de la varianza muestral de �� que es explicada por ��. Contraste de hipótesis e intervalos de confianza Partimos de la idea de que la varianza de los errores es una varianza homocedástica o varianza Supuestosconstante.deMínimos
comenzamos
• SRLS.2: muestreo aleatorio, es decir, ��[(����,����):�� =1,2,...,��] i.i.d. (independiente idénticamente distribuido) • SRLS.3: linealidad de los parámetros �� =��0 +��1��+�� • SRLS.4: variación muestral de la variable explicativa, es decir, que no todos los valores muestrales de la variable �� tienen el mismo valor. Bajo los supuestos SRLS.1 SRLS.4, se cumple una de las propiedades de un buen estimador, que es el insesgamiento de los estimadores de MCO ��[�� ̂ 1]=��1[16] ��[�� ̂ 0]=��0[17] • SRLS.5: homocedasticidad o varianza constante ������(��|��) =��2 Ahora, bajo los supuestos SRLS.1 SRLS.5, la varianza de los estimadores, viene dada por: ������(�� ̂ 1)= ��2 ����=1 �� (���� ��)2 = ��2 �������� [18] ������(�� ̂ 0)= ��2�� 1����=1 �� ���� 2 ����=1 �� (���� ��)2 [19] Errores estándar ����(�� ̂ 1)= √������(�� ̂ 1)[20] ����(�� ̂ 0)= √������(�� ̂ 0)[21] Hipótesis bilaterales acerca de Betas El objetivo es determinar la significancia estadística del �� ̂ 1: • En términos estadísticos esto se traduce en contrastar la hipótesis nula ��0:��1 =0 • En contraste bilateral la hipótesis alternativa será, ����:��1 ≠0 • De forma general contrastamos: ��0:��1 =0 ����:��1 ≠ 0 Ejemplificaremos los contrastes para el nivel de significancia del 5% Pasos para la hipótesis bilateral • Elegir un nivel de significación: típicamente 1%, 5% o 10% • Calcular el estadístico de contraste: estadístico �� (o ������������)
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/79eceb0ebe03463f363134abc8ed0903.jpeg)
¿Como se intepreta?
Supongamos que tengo una variable de ventas nacionales o extrajeras, esta es un variable del tipo nominal que tiene el valor de uno si la venta fue nacional y 2 si es extrajera ¿Cómo crear una variable dummy? De la siguiente manera, 1 venta fue extrajera y 0 otros caso. Si veo una variable dicotómica que se llama mujer, 1 será la observación mujer y 0 otro caso.
• Bajo la hipótesis nula y los supuestos anteriores, la distribución asintótica de �� es ��(0,1) (normal estándar)
Para ingresar información cualitativa a los modelos de regresión se debe crear variables dicotómicas, ficticias o dummy
• El nivel de significación determina el valor crítico: para 5%, valor crítico es de 1.96
• Este intervalo contiene el verdadero valor ��1 en un 95% de las muestras
• Llamaremos �������� al valor que toma el estadístico �� en la muestra
• Estas variables nos permiten hacer comparaciones entre grupos
• El intervalo de confianza al 95% para ��1 es [�� ̂ 1 ±����/2,���� ×����(�� ̂ 1)]. Podría usar el valor 1.96 si los grados de libertad son mayores a 120.
• grados de libertad ���� = �� �� 1.
• La categoría que tiene el valor cero se llama grupo de control.
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/79eceb0ebe03463f363134abc8ed0903.jpeg)
��= �� ̂ 1 ��1,0 ����(�� ̂ 1) [22]
• Conclusión del contraste: Si |��������|>196 se rechaza la ��0 (hipótesis nula) en favor ���� (hipótesis alternativa) Estrategia para el uso del p valor �� ����������= 2��( |��������|)[23]
• Es el conjunto de valores para lo que no se rechaza la hipótesis nula al 5%
Introducir información cualitativa a los modelos de regresión
• El intervalo de confianza se calcula solo cuando tengo hipótesis bilateral.
Se rechaza la ��0 cuando el �� ���������� <�� El término �� representa la función de distribución acumulada normal estándar, es decir, que para encontrar el valor ��( |��������|) se debe buscar en la tabla ��, esta se encuentra al final de cualquier libro de estadística Intervalos de confianza
• La categoría que tiene el valor de uno le llamo grupo de tratados
• Expresión equivalente al estadístico para la media poblacional
Cierre Se han abordado los conceptos básicos necesarios para entender el modelamiento de datos usando el Modelo de Regresión Lineal Simple MRLS , incluidas las ecuaciones y el concepto de significancia estadística que valida el efecto de la variable independiente �� sobre la variable dependiente ��. Sin embargo, sólo sirve el MRLS para desarrollar la intuición del estudiante sobre la regresión. Abrimos el camino para la siguiente sesión mostrando el límite de esta herramienta que es el sesgo de variable omitida, pues un fenómeno no puede estar explicado solo por una variable independiente.
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/2614ee038a36d956c8b50a3501fe440c.jpeg)
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/79eceb0ebe03463f363134abc8ed0903.jpeg)
Bibliografía Pérez, César. 2011. Técnicas de análisis multivariante de datos: aplicaciones con SPSS Madrid: Pearson Prentice Hall. Stock, James H, y Marck M. Watson. 2012. Introducción a la econometría. Madrid (España): Pearson. http://www.ebooks7 24.com/?il=3445. Wooldridge, Jeffrey M. 2009. Introductory econometrics: a modern approach 4th ed. Mason, OH: South Western, Cengage Learning.
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/7396cc7b85a3cd50bcce1f07169a53fd.jpeg)
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/79eceb0ebe03463f363134abc8ed0903.jpeg)
![](https://assets.isu.pub/document-structure/220906164306-d904aeafece63f7b0727aa8ef71327b2/v1/92f16a7be5dcecbed42731a8a55a6744.jpeg)