ESTADÍSTICA APLICADA A LA GESTIÓN EMPRESARIAL

Page 1

ESTADÍSTICA APLICADA A LA GESTIÓN EMPRESARIAL Semana 13: Regresión Lineal Simple y Series de Tiempo Material común elaborado por: Los Profesores del curso

2016 - II


2

1. Regresiรณn Lineal Simple


Objetivo Encontrar modelos estadĂ­sticos que puedan ser usados para predecir los valores de una variable dependiente basado en los valores de una variable independiente.

2


Es un técnica que sirve para pronosticar o estimar el valor esperado de la variable dependiente “Y”, en base a lo que ocurre o lo que sucede con la variable independiente ”X”. Modelo Poblacional:

Yi = β0 +β1 Xi + εi Donde:

Yi = Variable dependiente (respuesta). Xi = Variable independiente (explicativa, regresora, predictora). β0 = Intercepto en la ordenada. Cuando X= 0, Y= β0 β1 = Pendiente de la recta. Pendiente positiva (β1 > 0). Existe una relación lineal directa. Pendiente negativa (β1 < 0). Existe una relación Lineal inversa. εi = Variable aleatoria no observable, denominada también error aleatorio, representa a las otras variables no consideradas en el modelo. 4


Ejemplos: Pueden existir variables que presenten un grado de relación natural entre sí , como por ejemplo : ¿Existe una relación lineal entre las dos variables? 1. El ingreso de un trabajador se relaciona con el número de horas trabajadas. 2. Las ventas en función a los gastos de publicidad. 3. Los egresos en relación a los ingresos de los trabajadores de una empresa. 4. El precio de un producto en relación a la producción. 5. El precio de entrada a un evento en relación al número de entradas vendidas. 6. Nota obtenida en un curso en relación al número de horas dedicada al estudio.

5


Procedimiento para realizar un análisis de Regresión Lineal Simple 1. 2. 3. 4. 5.

Identificar la variable dependiente y la variable independiente. Realizar un diagrama de dispersión. Definir la función de regresión. Estimación de los coeficientes mediante el método de mínimos cuadrados. Estudio de la adecuación del modelo, para analizar la bondad de ajuste del modelo a los datos, se realiza mediante: a) Coeficiente de Correlación. b) Coeficiente de Determinación. d) Prueba de hipótesis global (Prueba F). 6. Validación del modelo. Se realiza la comprobación de los supuestos en relación al término ε del modelo: a) Normalidad b) Homocedasticidad 7. Uso del modelo para realizar predicciones.

5


1.

Identificación de: Variable dependiente: Y Variable independiente: X

2. Identificar el tipo de relación existente entre las variables a través del diagrama de dispersión.

6


DIAGRAMA DE DISPERSIร N y

y

x

x

Relaciรณn lineal directa

Relaciรณn lineal inversa

y

y

x

x

Relaciรณn no-lineal

No hay relaciรณn 8


3. Definir la función de regresión lineal. Y = f (x) Ecuación de la recta: Y = a + bX + Ԑ Y = β0 + β1 X + Ԑ

9


4. Estimación de los coeficientes de la recta de regresión. Realizada la gráfica, se procede a calcular cuál es la ecuación de regresión lineal apropiada que mejor represente los datos. La recta apropiada tendrá que ser la que tenga la suma mínima del cuadrado de los errores definido como la diferencia entre el valor observado (Y) y el valor estimado por la ecuación de regresión lineal (Ŷ). A este método se denomina Mínimos Cuadrados.

Modelo de regresión poblacional: Y = a + bX +Ԑ o Y = β0 +β1 X1 + Ԑ Modelo de regresión muestral: Y = a + bX + ei o Y = β0 +β1 X1 + ei

10


4. Estimación de los coeficientes de la recta de regresión. Estimar los coeficientes a través del Método de Mínimos cuadrados (MMC) El método de los Mínimos cuadrados minimiza la expresión: n

n

2 ˆ  ei   Yi  Yi   m ínim o i 1

2

i 1

donde: ei= Residual (diferencia entre el valor observado y el valor estimado). Yi= Valor observado. Ŷi= Valor estimado por la ecuación de regresión lineal.

11


Estimación del modelo de regresión lineal simple:

Recta de Mínimos Cuadrados

Fuente: Véliz, Carlos. Estadística para administración y negocios. 2011 14


Fórmula para calcular la pendiente:

b  1 

n

n

n

i 1

i 1

i 1

n  x i yi   x i  yi n

n xi i 1

2

     xi   i 1  n

2

Fórmula para calcular el intercepto:  y   i a   0  i 1 b  n   a  y  bx n

 x  i  i 1   n   n

13


5. Adecuación del Modelo a) Coeficiente de Correlación : r El análisis de CORRELACIÓN nos permite determinar el grado en el que están relacionadas las variables X e Y. El análisis de CORRELACIÓN, nos dice qué tan bien la ecuación de regresión describe la relación de las variables. Fórmula: n n n n xi yi   xi  yi i 1 i 1 i 1 r  n 2  n  2  n 2  n  2   n x    x   n y    y    i 1 i  i 1 i   i 1 i  i 1 i     

-1 ≤ r ≤ 1 -1

-0.70

0

0.70

Cuando r se aproxime a 1 ó -1, existe una relación fuerte.

1 14


b) Coeficiente de Determinación ( r2 ) : Indica en qué proporción la variable independiente X explica el comportamiento de la variable dependiente Y. Fórmula:

n

SCR S 2Yˆ r   2  STC S Y 2

 Yˆ  Y  i 1 n

i

2   Y  Y  i i 1

Donde:

S 2 Yˆ 2 S Y

2

n n  X i  Yi  n  i 1 b *   X iYi  i 1  i 1 n    2  n    Yi  n 2  i 1  Y  i  n i 1

     

0≤ r2 ≤1 = Es la varianza explicada por la ecuación. = Es la varianza Total 15


c) Prueba de hipótesis: Análisis de Varianza (ANOVA). El análisis de la adecuación del modelo a nivel población se reduce al análisis de la significancia estadística de la suma de cuadrados debido a la regresión, respecto de la suma de los cuadrados de los errores. Esta significancia se mide con el estadístico F, también conocida como prueba de significancia global. Pasos a seguir: 1) Planteamiento de la hipótesis: H0: βi = 0 (El modelo de regresión lineal no es adecuado a nivel poblacional) H1: βi ≠ 0 (El modelo de regresión lineal es adecuado a nivel poblacional) 2) Nivel de significancia α = 0.05 (Nivel de confianza 95%) 3) Estadística de Prueba Para ello se construye la tabla ANOVA 17


Tabla de Análisis de Varianza (ANOVA) Fuente de Variación

Suma de Cuadrados

Grados de Libertad

Cuadrado Medio

Regresión

SCR

k-1

CMR =SCR/k-1

Residual

SCE

n–k

CME =SCE/n-k

Total

SCT

n-1

n

__ 2

SCT   (Yi  Y) i 1

n

Estadística de prueba (Prueba F)

Fcal 

P_Valor

CMR CME

SCE   (Yi  Y ) 2 i i 1

SCR = SCT - SCE

17


Entonces el estadístico de prueba es:

Fcal

CMR  CME

4) Comparar: Decisión 1:

Si Fcal > Ftab. Entonces se rechaza la hipótesis nula.

FTab(α ;k-1,n-k) = Este valor se halla en la tabla de la distribución F. Se llega a la misma conclusión observando el “P_valor” Decisión 2: Si P_valor <

.

Entonces se rechaza la hipótesis nula

19


6. Validación del modelo: Comprobación de supuestos a) Homocedasticidad: En el diagrama no debe existir tendencias, que la variabilidad de los residuos se mantengan aproximadamente constante, que exista homocedasticidad.

Fuente: Véliz, Carlos. Estadística para administración y negocios. 2011

20


b) Normalidad: Si los puntos están alineados alrededor de la recta diagonal, se considera que los residuales tienen una buena aproximación a la curva normal.

Fuente: Véliz, Carlos. Estadística para administración y negocios. 2011

20


7. Uso del modelo para realizar estimaciones futuras de la variable dependiente en función de la variable independiente. Luego de verificar la adecuación y la validación del modelo y si el modelo logra pasar este proceso, entonces estamos en condiciones de utilizar el modelo de regresión lineal simple para predecir una nueva observación de la variable Y para un valor determinado de X. Está estimación puede realizarse de dos formas: Puntual y por intervalos de confianza, para nuestro curso se utilizará la estimación puntual.

22


22


Objetivo Realizar un análisis de la serie de tiempo con la finalidad de determinar patrones de cambio en la información de datos recolectados a través del tiempo, proyectar estos patrones para obtener una estimación para el futuro.

23


Introducción Los cambios futuros no sólo de la demanda, sino también de la oferta, se conocen con cierta exactitud si se usan las técnicas estadísticas adecuadas para analizar el presente. Para ello se usan las llamadas series de tiempo, pues lo que se desea observar es el comportamiento de un fenómeno respecto al tiempo.

24


Variación en las series de tiempo Las variaciones de una serie se clasifican en sistemáticas y aleatorias. Las variaciones sistemáticas ocurren con regularidad, siendo posible ser medidas y pronosticadas; por otra parte las variaciones aleatorias son causadas por sucesos aislados tales como huelgas, desastres naturales, etc. En consecuencia no pueden ser pronosticados. Una serie se compone de los siguientes tipos de variaciones: 1) Variaciones sistemáticas: Tendencia Cíclica Estacional 2) Variación irregular o variación aleatoria.

25


Análisis de tendencia La tendencia es la más común en las variaciones sistemáticas de las series de tiempo para estudiar la demanda y la oferta. La tendencia es el componente que constituye la base del crecimiento o decrecimiento de una serie, en un período a largo plazo. Para calcular una tendencia existe varios métodos:  El Gráfico  El de Medias Móviles  El de Mínimos Cuadrados Cuando la tendencia es no lineal (la parabólica y la exponencial).

26


Serie original y sus componentes

27


Estimación de la componente de la tendencia a través del Método de Mínimos Cuadrados Y = f (t)

Variable Tiempo Dependiente

Modelo: Y = a + bt + ei Para estimar los valores de a y b aplicamos el MMC

Yˆ  (

) (

)t 28


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.