2016 REGRESION LINEAL
Newman [Escribir el nombre de la compañía]
Historia-Conceptos-Pronosticos-Analisis-Modelos-Hipotesis-Supuestos—Tipos-Formulas-Aplicaciones-Variantes.
ESTADISTICA II
EDITORIAL: Esta revista está enfocada a ayudar a aquel estudiante o cualquier persona que esté interesada en empezar con la aplicación de un análisis de regresión en alguna tarea. Solo con el objetivo de entender porque se le dio ese nombre, según Levin (2006), en su libro de estadísticas nos menciona que Francis Galton (estadista del reino unido, 1822 y 1911) fue de los primeros en realizar estudios de relacionados a la regresión. Francis Galton experimentó que todos los valores después de cierto tiempo tiende a regresarse a la media; sus experimentos consistían en tener observaciones de hombres de estatura muy alta o muy baja, los cuales estaban por arriba o debajo de la media y con el paso de las generaciones los valores de las estaturas tienden a regresarse a la media poblacional, de ahí el nombre de “regresión”. ¿Pero dónde más podemos usar regresión?, ¿porque regresión lineal? Estas son dos interrogantes que surgen en los estudiantes o personas interesadas en el tema, a continuación doy una breve explicación: Respecto a la primera pregunta; les podemos
decir que la
regresión se puede usar en muchos procesos en los cuales se tengan que tomar decisiones o hacer inferencias acerca de algún fenómeno que no conozcamos aún su resultado, en el cual se tenga información de una variable independiente y el comportamiento de otra variable que depende de la primera. Por poner un ejemplo: Si 8
se cuenta con información acerca de que un motor que se le dio mantenimiento cada año, el cual tuvo una vida útil de 5 años, y se tiene información de otro motor que se le dio mantenimiento cada seis meses y este obtuvo una vida útil de 8 años y así sucesivamente se tiene información similar, entonces si nunca se ha presentado la situación de haberle dado mantenimiento cada 3 meses, podemos llegar a predecir o hacer una inferencia acerca de la vida útil de ese motor en condiciones similares. Aclarando que este es un solo ejemplo que se nos viene a la mente, por lo tanto quizá no sea regresión del tipo lineal, para ello se tendría que hacer un análisis residual y confirmar si en modelo que acabo de crear cumple los supuestos de la regresión lineal. En cuanto a la segunda pregunta que se planteó al inicio de este documento: “ ¿porque regresión lineal?” Existe varios tipos de regresión: lineal o cuadrática, y a su vez la lineal se divide en simple o múltiple. Es lineal porque el patrón de comportamiento entre las variables (dependiente e independientes) se presenta con un patrón lineal, en línea recta y es cuadrática porque la relación entre las variables en forma curvilínea. Es regresión lineal simple porque la relación que se busca es solo entre dos variables, una independiente (predictora) y la otra dependiente (de respuesta). Y es regresión lineal múltiple porque para una variable dependiente se pueden tener más de una variable independiente. Sin duda alguna podría extenderme en el tema, pero la idea central es que el alumno se formara un panorama acerca del tema, para que el empiece con la búsqueda de información en los libros de
8
estadísticas. Les recomendamos algunos autores, Montgomery, Levin, Walpole Anderson. Además también les recomendamos hacer uso de las tecnologías de la información, ya que hoy en día existen muchos software que nos ayudan a realizar los cálculos matemáticos y así el usuario centre su interés en el análisis. Algunos de estos programas son: Minitab, SPSS, EXCEL (con el complemento de análisis de datos). (MAICOLL ZORRILLA NEUMAN).
8
INTEGRANTES:
• Mariangy Paola
Vivas Chacón V-19.097.712.
• Veronica Del Valle Guerrero Ruiz V-25.806.333.
• Maicoll Zorrilla Neuman V-18.125.127.
8
CONTENIDO: 7Historia. 8Y9 Regresión Lineal. 9Y10 Cuando Utilizar Un Pronóstico De Regresión Lineal. 10Y11 Análisis De Regresión. 11Y12 El Modelo De Regresión Lineal. 12Y13 Hipótesis Del Modelo De Regresión Lineal Clásico. 13 Supuestos Del Modelo De Regresión Lineal. 13,14,15,16,17,18Y19 Tipos De Regresión Lineal. 19,20Y21 Aplicaciones De La Regresión Lineal. 21Y22 Variantes De La Regresión Lineal. 23Y24 La Clase De Regresión.
8
HISTORIA: La primera forma de regresión lineal documentada fue el método de los
mínimos
cuadrados que
por Legendre en 1805, Gauss publicó
un
fue trabajo
publicada en
donde
desarrollaba de manera más profunda el método de los mínimos cuadrados, y en dónde se incluía una versión del teorema de Gauss-Márkov. El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio, tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media, "regresaban" al promedio. La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno. El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágiles y con un soporte teórico mucho más extenso por parte de la matemática y la estadística. Pero bien, como se ha dicho, se puede usar el término lineal para distinguir modelos basados en cualquier clase de aplicación. (MAICOLL ZORRILLA NEUMAN).
8
REGRESION LINEAL: En estadística la regresión
lineal o ajuste
lineal es
un modelo
matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
Donde: 1.- Variable dependiente, explicada o regresando. 2.- Variables explicativas, independientes o regresores. 3.- Parámetros, miden la influencia que las variables explicativas tienen sobre el regrediendo. Donde: Es la intersección o término "constante", son los parámetros respectivos a cada variable independiente, es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal. (MAICOLL ZORRILLA NEUMAN).
8
El modelo de pronóstico de regresión lineal permite hallar el valor esperado de una variable aleatoria a cuando b toma un valor específico. La aplicación de este método implica un supuesto de linealidad cuando la demanda presenta un comportamiento creciente o decreciente, por tal razón, se hace indispensable que previo a la selección de este método exista un análisis de regresión que determine la intensidad de las relaciones entre las variables que componen el modelo. (MARIANGY VIVAS). CUANDO UTILIZAR UN PRONÓSTICO DE REGRESION LINEAL: El pronóstico de regresión lineal simple es un modelo óptimo para patrones de demanda con tendencia (creciente o decreciente), es decir, patrones que presenten una relación de linealidad entre la demanda y el tiempo. Existen medidas de la intensidad de la relación que presentan las variables que son fundamentales para determinar en qué momento es conveniente utilizar regresión lineal.
8
(MARIANGY VIVAS). ANALISIS DE REGRESION:
El objetivo de un análisis de regresión es determinar la relación que existe entre una variable dependiente y una o más variables independientes. Para poder realizar esta relación, se debe postular una relación funcional entre las variables. Cuando se trata de una variable independiente, la forma funcional que más se utiliza en la práctica es la relación lineal. El análisis de regresión entonces determina la intensidad entre las variables a través de coeficientes de correlación y determinación. Coeficiente de correlación: El
coeficiente
de
correlación,
comúnmente
identificado
como r o R , es una medida de asociación entre las variables aleatorias X y Y, cuyo valor varía entre -1 y +1.
8
El cálculo del coeficiente de correlación se efectúa de la siguiente manera:
Dónde t hace referencia a la variable tiempo y x a la variable demanda. (MARIANGY VIVAS). EL MODELO DE REGRESION LINEAL: El modelo lineal relaciona la variable dependiente Y con K variables explícitas (k = 1,...K), o cualquier transformación de éstas que generen
un hiperplano de
parámetros desconocidos:
Como
la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explícita, el hiperplano es una recta, el problema de la regresión consiste en elegir
unos valores determinados
para
los
parámetros
desconocidos, de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación i-ésima (i= 1,... I) cualquiera, se registra el
8
comportamiento simultáneo de la variable dependiente y las variables explícitas (las perturbaciones aleatorias se suponen no observables). Los valores escogidos como estimadores de los parámetros, son los coeficientes de regresión sin que se pueda garantizar que coincida n con parámetros reales del proceso generador.
Por
tanto,
en
los
valores
son
por
su
parte estimaciones o errores de la perturbación aleatoria. (MAICOLL ZORRILLA NEUMAN). HIPOTESIS DEL MODELO DE REGRESION LINEAL CLASICO: Esperanza matemática nula, para cada valor de X la perturbación tomará distintos valores de forma aleatoria, pero no tomará sistemáticamente valores positivos o negativos, sino que se supone tomará algunos valores mayores que cero y otros menores que cero, de tal forma que su valor esperado sea cero. HOMOCEDASTICIDAD: Para todo t. Todos los términos de la perturbación tienen la misma varianza que es desconocida. La dispersión de cada en torno a su valor esperado es siempre la misma. INCORRELACION O INDEPENDENCIA: Para todo t,s con t distinto de s. Las covarianzas entre las distintas perturbaciones son nulas, lo que quiere decir que no están correlacionadas. Esto implica que el valor de la perturbación para cualquier observación muestral no viene
influenciado
por
los
valores
de
las
perturbaciones
correspondientes a otras observaciones muéstrales. INDEPENDENCIA LINEAL: No existen relaciones lineales exactas entre
los
regresores:
Suponemos 8
que
no
existen
errores
de especificación en el modelo, ni errores de medida en las variables explicativas. (MAICOLL ZORRILLA NEUMAN). SUPUESTOS DEL MODELO DE REGRESION LINEAL: Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes supuestos: 1.- Que la relación entre las variables sea lineal. 2.- Que los errores en la medición de las variables explicativas sean independientes entre sí. 3.- Que los errores tengan varianza constante. (Homocedasticidad) 4.- Que los errores tengan una esperanza matemática igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). 5.- Que el error total sea la suma de todos los errores. (MAICOLL ZORRILLA NEUMAN). TIPOS DE MODELOS DE REGRESION LINEAL: Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:
REGRESION LINEAL SIMPLE:
8
Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros, es el error asociado a la medición del valor y siguen los supuestos. La Regresión y la correlación son dos técnicas estadísticas que se pueden
utilizar
para
solucionar problemas comunes
en
los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable. Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple. "Y es una función de X" Y = f(X) Como Y depende de X, Y es la variable dependiente, y X es la variable independiente. En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente. En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así: Y = f (X) "Y está regresando por X" La variable dependiente es la variable que se desea explicar, predecir. También se le llama REGRESANDO ó VARIABLE DE RESPUESTA.
8
La
variable
Independiente
X
se
le
denomina
VARIABLE
EXPLICATIVA ó REGRESOR y se le utiliza para EXPLICAR Y. (MAICOLL ZORRILLA NEUMAN). FORMULAS DE REGRESIÓN LINEAL SIMPLE:
Pronóstico del período t Intersección de la línea con el eje Pendiente (positiva o negativa) Período de tiempo Donde:
Promedio de la variable dependiente (Ventas o Demanda) Promedio de la variable independiente (Tiempo) Donde:
Ejemplo de aplicación de un
pronóstico de Regresión lineal
Simple. La juguetería Gaby desea estimar mediante regresión lineal simple las ventas para el mes de Julio de su nuevo carrito infantil "Mate". La información del comportamiento de las ventas de todos sus almacenes de cadena se presenta en el siguiente tabulado.
8
Mes
Ventas
1 Enero 7000 2 Febrero 9000 3 Marzo 5000 4 Abril 11000 5 Mayo 10000 6 Junio 13000 El primer paso para encontrar el pron贸stico del mes 7 consiste en hallar la pendiente, para ello efectuamos los siguientes c谩lculos:
8
Luego,
y
dado
que
ya
tenemos
el
valor
de
la
pendiente b procedemos a calcular el valor de a, para ello efectuamos los siguientes cálculos:
Ya por último, determinamos el pronóstico del mes 7, para ello efectuamos el siguiente cálculo:
Podemos así determinar que el pronóstico de ventas para el período 7 es equivalente a 13067 unidades.
(MARIANGY VIVAS). REGRESION LINEAL MULTIPLE:
8
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la misma manera, es posible analizar la relación entre dos o más variables a través de ecuaciones, lo que se denomina regresión múltiple o regresión lineal múltiple. Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionadas entre sí, por lo que es posible que una de las variables pueda relacionarse matemáticamente en función de otra u otras variables. Maneja
varias variables
independientes.
Cuenta
con
varios
parámetros. Se expresan de la forma:
Donde los
es el error asociado a la medición del valor supuestos
de
modo
cero, varianza constante e igual a un
y siguen
que y
(media con
).
(VERONICA GUERRERO).
RECTAS DE REGRESION: Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste. (MAICOLL ZORRILLA NEUMAN). APLICACIONES DE LA REGRESION LINEAL: LINEAS DE TENDENCIA: 8
Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petróleo o el valor de las acciones) han aumentado o decrementado en un determinado período. Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.
MEDICINA:
8
En medicina, la mortalidad con
las
primeras
evidencias
el fumar tabaco vinieron
de
relacionando estudios
que
utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-económico
para
asegurarse
que
los
efectos
de mortalidad por tabaquismo no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión. En el ejemplo del tabaquismo, un hipotético gen podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la actualidad las pruebas controladas aleatorias son consideradas mucho más confiables que los análisis de regresión.
INFORMATICA:
8
Ejemplo de una rutina que utiliza una recta de regresi贸n lineal para proyectar un valor futuro: C贸digo escrito en PHP. (MAICOLL ZORRILLA NEUMAN). VARIANTES DE LA REGRESION LINEAL: 1.- LA FUNCION POTENCIAL: y=c路xa Se puede trasformar en
Si usamos las nuevas variables X=log x e Y=log y, obtenemos la relaci贸n lineal Y=aX+b. Donde b=log c Ejemplo: X
10
20
30
40
50
60
70
80
Y
1.06 1.33 1.52 1.68 1.81 1.91 2.01 2.11
Usar la calculadora para transformar esta tabla de datos en esta otra X=log 1.0
1.30
1.477 1.60
1.699 1.778 1.845 1.903
x Y=log 0.025 0.124 0.182 0.225 0.258 0.281 0.303 0.324 y 8
Calcular
mediante
el
programa
regresión
lineal
los
parámetros a y c. 2.- FUNCION EXPONENCIAL: y=c·eax Tomando logaritmos neperianos en los dos miembros resulta ln y=ax+ln c Si ponemos ahora X=x, e Y=ln y, obtenemos la relación lineal Y=aX+b Donde b=ln c. Ejemplo: x
12
41
93
147
204
264
373
509
773
y
930
815
632
487
370
265
147
76
17
Usar la calculadora para transformar esta tabla de datos en esta otra X= x
12
41
93
147
204
264
373
509
773
Y=ln 6.835 6.703 6.449 6.188 5.913 5.580 4.990 4.330 2.833 y Calcular mediante el programa regresión lineal los parámetros a y c. LA CLASE REGRESION:
8
La clase Regresión que describe la regresión lineal no difiere substancialmente de la clase Estadística que se ha descrito en la sección anterior. La diferencia estriba en que los miembros datos son dos arraysx e y que guardan las series de valores X e Y, cuya dependencia funcional deseamos determinar. En los miembros dato públicos a y b se guarda la pendiente de la recta de regresión y la ordena en el origen. La función miembro lineal, calcula la pendiente a, y ordenada en el origen b de la recta de regresión. Se hace uso de variables auxiliares para guardar resultados intermedios: sx guarda la suma de todas las abscisas, sy la suma de todas las ordenadas, sx2 la suma de los cuadrados de las abscisas, sy2 la suma de las cuadrados de las ordenadas, y pxy, la suma de los productos de cada abscisa por su ordenada. Los valores calculados a partir de las
fórmulas
respectivas,
se
guardan
en
los
miembros
públicos a y b de la clase Regresión. Para obtener el coeficiente de correlación hemos de calcular primero el valor medio <x> de la serie de datos X, y el valor medio <y> de Y. No calculamos las desviaciones cuadráticas medias sino que empleamos una expresión equivalente a la dada anteriormente para el coeficiente de correlación. (VERONICA GUERRERO).
8