REGRESIÓN LINEAL En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde
es la intersección o término "constante", las
son los parámetros
respectivos a cada variable independiente, y es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.
Historia
a primera forma de regresiones lineales documentada fue el método de los mínimos cuadrados, el cual fue publicado por Legendre en 1805,1 y en dónde se incluía una versión del teorema de Gauss-Márkov.
Etimología El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" alpromedio.2 La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno. El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por parte de la matemática y la estadística mucho más extenso. Pero bien, como se ha dicho, podemos usar el término lineal para distinguir modelos basados en cualquier clase de aplicación.
Hipótesis modelo de regresión lineal clásico.
1. Esperanza matemática nula.
Para cada valor de X la perturbación tomará distintos valores de forma aleatoria, pero no tomará sistemáticamente valores positivos o negativos, sino que se supone que tomará algunos valores mayores que cero y otros menores, de tal forma que su valor esperado sea cero. 2. Homocedasticidad para todo t Todos los términos de la perturbación tienen la misma varianza que es desconocida. La dispersión de cada
en torno a su valor esperado es siempre la misma.
3. Incorrelación. con t distinto de s
para todo t,s
Las covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no están correlacionadas o autocorrelacionadas. Esto implica que el valor de la perturbación para cualquier observación muestral no viene influenciado por los valores de la perturbación correspondientes a otras observaciones muestrales. 4. Regresores no estocásticos. 5. No existen relaciones lineales exactas entre los regresores. 6. Suponemos que no existen errores de especificación en el modelo ni errores de medida en las variables explicativas 7. Normalidad de las perturbaciones Tipos de modelos de regresión lineal Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:
Regresión lineal simple[editar · editar fuente] Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:4 (6) donde que
es el error asociado a la medición del valor
y siguen los supuestos de modo
(media cero, varianza constante e igual a un
y
con
).
Análisis[editar · editar fuente] Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:5 (7)
Derivando respecto a
y
e igualando a cero, se obtiene:5
(9)
(10) Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:4
(11)
(12) La interpretación del parámetro
es que un incremento en Xi de una unidad, Yi incrementará
en
Regresión lineal múltiple[editar · editar fuente] La regresion lineal nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación a otras variables llamándose Regresión múltiple. Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables. Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma: 6 (13) donde que
es el error asociado a la medición
del valor
y siguen los supuestos de modo
(media cero, varianza constante e igual a un
y
con
).
Estimación de mínimos cuadrados El método de mínimos cuadrados es utilizado para estimar los parámetros en el modelo de regresión lineal múltiple
Suponga que se tienen
observaciones. Se asume que
y
y que los errores son no correlacionados. El método de mínimos cuadrados minimiza la suma de cuadrados del error dada por
con respecto a cada uno de los parámetros del modelo La derivada con respecto a
La derivada con respecto a
es
.
igualando a cero la derivadas
simplificando para
se tiene
simplificando para
se tiene
y
se tiene
Luego las ecuaciones normales son :
Observe que hay ecuaciones. Para obtener la soluci贸n es conveniente utilizar notaci贸n matricial. En esta notaci贸n el modelo se expresa como
con
y donde es el vector de observaciones es una matriz es un vector
de niveles de lavariable regresora de coeficientes de regresión
es el vector aleatorio error de orden
.
La suma de cuadrados del error es dada por
y de manera análoga a la presentada en la notación matricial para regresión simple se obtiene que las ecuaciones normales son
la cual es similar a las obtenidas anteriormente
Para solucionar las ecuaciones normales se requiere que exista la inversa de la matriz
. Esta existe siempre que las variables regresoras sean linealmnete
independientes. Así, la solución de mínimos cuadrados de vector parámetrico
es
Ejemplo para los datos del ejemplo tratado el vector
La matriz
y el vector
es
es
El estimador de mĂnimos cuadrados de
o
es
y la matriz
son respectivamente
Luego el modelo ajustado por mínimos cuadrados es
Propiedades de los estimadores de mínimos cuadrados Las propiedades de mínimos cuadrados de los parámetros se enuncian y demuestran a continuación: 1.
es un estimador insesgado de
. Esto es,
Demostración
y como
entonces
2. La matriz de varianzas y covarianzas del vector
es cov
Demostración La demostración es la misma vista en notación matricial .para regresión simple
Ejemplo Para los datos del ejemplo se tiene que la estimación de la matriz de varianzascovarianzas del vector
es
Los errores estándar de cada parámetro es dado en la tabla: Parámetro Error estándar
http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un5/cont_03_43.html http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un5/cont_02_42.html