Regresión lineal simple y analisis de correlación

Page 1

Manual de Estadística

Lic. Johane Daniel Pérez Leberman

REGRESIÓN LINEAL SIMPLE Y ANALISIS DE CORRELACIÓN

58


Manual de Estadística

Lic. Johane Daniel Pérez Leberman

REGRESIÓN LINEAL SIMPLE Y ANALISIS DE CORRELACIÓN Todos los días los gerentes toman decisiones personales y profesionales basadas en predicciones de sucesos futuros (relación entre variables). Para hacer estas predicciones, se basan en la relación (intuitiva y calculada) entre lo que ya se sabe y lo que se debe estimar. Si los responsables de la toma de decisiones pueden determinar cómo lo conocido se relaciona con el evento futuro, pueden ayudar considerablemente al proceso de toma de decisiones. Ése es el objeto de este tema; cómo determinar la relación entre variables. La regresión y los análisis de correlación muestran como determinar, tanto la naturaleza como la fuerza de una relación entre 2 variables.

El término regresión fue utilizado por primera vez como concepto estadístico en 1877 por sir Francis Galton, quien observo que los niños que tienen padres altos tienden a ser altos y tienden a retroceder o regresar a la altura media de la población. Designó la palabra regresión como el nombre del proceso general de predecir una variable (la altura de los niños) de otra (la altura del padre). Más tarde, los estadísticos acuñaron el término regresión múltiple para describir el proceso mediante el cual se utilizan varias variables para predecir otra. (Regresión: Proceso general de predecir una variable de otra).

En el análisis de regresión, se desarrollara una ecuación de estimación, esto es, una fórmula matemática que relaciona las variables conocidas con la variable desconocida.

Tipos de Relaciones: La variable conocida se conoce como “independiente” y la variable a predecir se conoce como “dependiente”. Por ejemplo las ventas de latas de desodorante (aerosol) desembocan en un aumento de calor. + Desodorante → + Calor

Otro ejemplo: El aumento en la producción de autos ecológicos desemboca en una disminución de calor.

+ Autos Ecológicos → − Calor

Relación Directa: Se da cuando una variable aumenta la otra también lo hace en la misma proporción

59


Lic. Johane Daniel Pérez Leberman

Ventas

Manual de Estadística

Publicidad

Contaminación

Relación Inversa: Se da cuando una variable aumenta la otra disminuye en la misma proporción

Autos Ecológicos

Diagrama de dispersión: El primer paso en la determinación de si existe relación entre dos variables es examinar la gráfica de los datos observados (o conocidos). Esta gráfica, o esquema, se llama diagrama de dispersión. Es el esquema o gráfica que determina si existe relación entre 2 variables. Se conoce así porque la información está dispersa en la gráfica.

Un diagrama de dispersión nos puede dar dos tipos de información. Visualmente, se puede buscar patrones que indiquen que las variables están relacionadas. Entonces, si esto sucede, se puede ver qué tipo de línea, o ecuación de estimación, describe esta relación. Ejemplo: A continuación se le presenta la siguiente tabla con la cual deberá primeramente tabular la información y luego transferirla a una gráfica.

A

b

C

d

e

f

G

H

74

69

85

63

82

60

79

91

2.6

2.2

3.4

2.3

3.1

2.1

3.2

3.8

60


Manual de Estadística

Lic. Johane Daniel Pérez Leberman

Seguidamente trace una línea recta que pase (abarque) por la mayor cantidad posible de puntos, para este caso, la línea trazada a través de los puntos constituye una relación directa, porque “Y” se incrementa al incrementarse “X”.

4 3.5 3 2.5 2

Series1

1.5 1 0.5 0 0

20

40

60

80

100

Posibles Relaciones:

Directa

Inversa

Curvilínea Inversa

Inversa con más Dispersión

Curvilínea

Ninguna relación

Estimación mediante la línea de regresión: En el diagrama de dispersión que se utilizó hasta este momento, la línea de regresión se colocó al ajustar la línea visualmente entre los puntos de datos. Ahora bien dicha línea puede calcularse de forma un poco más precisa, para ello se utilizara una ecuación que relaciona las

61


Manual de Estadística

Lic. Johane Daniel Pérez Leberman

dos variables matemáticamente. La fórmula matemática que se puede utilizar para dicho propósito se conoce como Ecuación de la Línea Recta, siendo la siguiente: Variable independiente

Variable dependiente

Y = a + bX Intersección en Y

Pendiente de la línea

¿Cómo encontrar los valores de las constantes numéricas, a y b? para ilustrar el proceso, usemos una línea recta cualquiera en un plano cartesiano, veamos:

Valores Y 8 7 6 5 4 3 2 1 0 0

0.5

1

1.5

2

2.5

Visualmente se puede encontrar “a” (intersección en Y) localizando el punto donde la línea cruza el eje Y. Para encontrar la pendiente de la línea “b” se debe determinar cómo cambia la variable dependiente Y al cambiar la variable independiente X. Encuentre las coordenadas de dos de los puntos en la gráfica y aplique la siguiente ecuación de variación: b=

Y − Y X − X

62


Manual de Estadística

Lic. Johane Daniel Pérez Leberman

si se toman las coordenadas del primer punto ( = 2 ! " = 7) quedaría:

(

b=

= 1 ! " = 5) y las coordenadas del segundo punto

7−5 2 = = 2 1 2−1

De esta forma, se puede conocer los valores de las constantes numéricas “a” y “b” y escribir una ecuación para una línea recta, así:

Y = a + bX Y = 3 + 2X

Usando esta ecuación se puede determinar el valor correspondiente de la variable dependiente para cualquier valor de X. Suponga que se desea encontrar el valor de Y cuando X = 7, la respuesta sería:

Y = 3 + 2(7) Y = 3 + 14 Y = 17

Ahora bien, obsérvese que cuando “b” es negativa, la línea representa una relación inversa, y la pendiente es negativa (Y disminuye al aumentar X). Véase la siguiente gráfica y luego sustituya los valores:

7 6 5 4 3 2 1 0 0

0.5

1

1.5

63

2

2.5


Manual de Estadística

Lic. Johane Daniel Pérez Leberman

b= si se toman las coordenadas del primer punto ( (

= 1 ! " = 3) quedaría:

b=

Y − Y X − X = 0 ! " = 6) y las coordenadas del segundo punto

3−6 3 = − = −3 1−0 1

Con los valores de las constantes numéricas “a” y “b” escriba una ecuación para una línea recta, así:

Y = a + bX Y = 6 + (- 3)X Y = 6 - 3X

Usando esta ecuación se puede determinar el valor correspondiente de la variable dependiente para cualquier valor de X. Suponga que se desea encontrar el valor de Y cuando X = 2, la respuesta sería:

Y = 6 - 3(2) Y=6-6 Y=0 Por tanto, cuando X = 2; Y debe ser igual a 0. Si se observa en la gráfica puede corroborarse que efectivamente Y = 0; la tendencia en inversa (mientras más aumente X menor será el valor de Y).

Método de los mínimos cuadrados: Una vez examinada la manera de determinar la ecuación para una línea recta, pensemos cómo se puede calcular una ecuación para una línea dibujada en medio de un conjunto de puntos en un diagrama de dispersión ¿Cómo se puede ajustar una línea matemáticamente si ninguno de los puntos cae en ella? La línea puede tener un buen ajuste si se minimiza el error entre los puntos estimados en la línea y los verdaderos puntos observados que se utilizaron para trazarla. ¿Cómo podemos saber cuándo se ha encontrado la mejor línea de ajuste? Estadísticamente se han derivado dos ecuaciones que se pueden utilizar para encontrar la pendiente y la intersección Y de la línea de regresión de mejor ajuste. La primera fórmula calcula la pendiente:

64


Manual de Estadística

Lic. Johane Daniel Pérez Leberman b =

En la que:

*Y * ∑ XY − nX * ∑ X − nX

b= pendiente de la línea de estimación de mejor ajuste X = valores de la variable independiente Y = valores de la variable dependiente

* X = media de los valores de la variable independiente * = media de los valores de la variable dependiente Y

n = número de puntos de datos (es decir, el número de parejas de valores para las variables independientes y dependientes)

La segunda fórmula calcula la intersección Y de la línea cuya pendiente se calcula usando la siguiente: * − bX * a = Y En la que:

a= intersección en Y b = pendiente de la ecuación

* X = media de los valores de la variable independiente * = media de los valores de la variable dependiente Y

Para demostrar la aplicación, suponga que el director del departamento de salubridad de una municipalidad del país está interesado en la relación que existe entre la edad de un camión de recolección de basura y los gastos anuales de reparación que debería esperar. Con el fin de determinar esta relación, el director ha acumulado información referente a cuatro de los camiones que la ciudad posee actualmente:

Gastos del último año (en Número de Camión

Edad del Camión (en años)

dólares)

101

5

$ 700

102

3

$ 700

103

3

$ 600

104

1

$ 400

Primeramente se deber determinar cuál es la variable independiente y cuál la dependiente, para este caso es fácil establecer que la edad del camión recolector determina la cantidad del gasto en que se incurrirá. Luego determine que elementos es necesario crear para poder darle vida a las ecuaciones, se puede

65


Manual de Estadística

Lic. Johane Daniel Pérez Leberman

observar que se requieren de los promedios de las variables independientes y dependientes; así como la sumatoria de la multiplicación de las variables y las sumatoria del cuadrado de las variables independientes. El nuevo cuadro quedaría de la siguiente forma: +,

Camión

Edad (X)

Gasto (Y)

XY

101

5

700

3500

102

3

700

2100

9

103

3

600

1800

9

104

1

400

400

1

12

2400

7800

44

* = X * Y =

25

∑ X 12 = = 3 media de los valores de la variable independiente n 4

∑Y 2400 = = 600 media de los valores de la variable dependiente n 4

Ya que se tienen los valores en tabla y promedios es posible sustituir en las ecuaciones dadas, asi: b = b =

*Y * ∑ XY − nX * ∑ X − nX

7,800 − 4 3 600 7,800 − 7,200 600 = = = 75 pendiente de la recta 44 − 4 3 44 − 36 8

Y la intersección en Y es: * − bX * a=Y

a = 600 – 75(3) a = 375 (intersección en Y)

Ahora, para obtener la ecuación de estimación que describe la relación entre la edad de un camión recolector y sus gastos anuales de reparación se sustituyen los valores de “a” y “b” en la ecuación general para una línea recta:

Y = a + bX Y = 375 + 75X

66


Manual de Estadística

Lic. Johane Daniel Pérez Leberman

Con la ecuación de estimación creada el director del departamento de salubridad puede estimar los gastos anuales de reparación, dada la edad de su equipo. Si, por ejemplo, se tiene un camión de cuatro años de antigüedad, se puede usar la ecuación para predecir los gastos anuales de reparación para este camión de la siguiente manera:

Y = 375 + 75(4) Y = 375 + 300 Y = 675

Por lo tanto se puede decir que un camión recolector de basura con cuatro años de edad puede tener unos gastos de mantenimiento estimados en $ 675 dólares. Error estándar de la estimación (34 ): el siguiente paso en el proceso del análisis de regresión es medir la

confiabilidad de la ecuación de estimación que se ha desarrollado, para ello se cuenta con una fórmula conocida como el método de atajo, para calcular el error estándar:

56 = 7

∑" − 8∑" − 9∑ " :−2

Esta ecuación es un atajo, porque cuando primero organizamos los datos de este problema para poder calcular la pendiente de la intersección Y, se determinan casi todos los valores que se requieren para darle vida a la fórmula, menos uno, el valor de ∑ " , la siguiente es la misma tabla que ya se creó con la salvedad

de que se agrega la columna con la información requerida:

Camión

Edad (X)

Gasto (Y)

XY

101

5

700

3500

102

3

700

103

3

104

+,

;,

25

490000

2100

9

490000

600

1800

9

360000

1

400

400

1

160000

12

2400

7800

44

1500000

Se sustituyen los valores en la fórmula de error y se tiene:

56 = 7

∑" − 8∑" − 9∑ " :−2

67


Manual de Estadística

56 = 7

56 = 7

Lic. Johane Daniel Pérez Leberman

1,500,000 − 375 2400 − 75 7800 1,500,000 − 900,000 − 585,000 = 7 4−2 2

15,000 = =7,500 = 86.60 el error estándar para este ejercicio es de $ 86.60 2

Como se aplica en la desviación estándar, mientras más grande sea el error estándar de la estimación, mayor será la dispersión de los puntos alrededor de la línea de regresión. De manera inversa, si 56 = 0

esperamos que la ecuación de estimación sea un estimador “perfecto” de la variable dependiente y en ese

caso, todos los puntos de datos caerían directamente sobre la línea de regresión, y no habría puntos dispersos alrededor.

El Coeficiente de correlación: Éste coeficiente es la segunda medida que se puede usar ara describir qué tan bien una variable es explicada por otra. Cuando se trata con muestras, el coeficiente de correlación de muestra se denota como “r”. Éste análisis consiste en la relación que existe entre dos variables. En otras palabras mide el grado relativo de dependencia entre dos variables, o lo que tienden a variar conjuntamente respecto a las medias aritméticas que les corresponden. Normalmente se ubica entre más uno y menos uno (+ 1 = - 1) siendo su interpretación, según el valor encontrado, el mismo puede ser: “r” > 0 “r” < 0

Correlación lineal positiva o directa (indica que los valores de “x” y “y” aumentan o disminuyen de forma directa) La correlación es más fuerte cuanto más se aproxime a 1 Correlación lineal negativa o inversa (indica que si sube el valor de una variable, disminuye el valor de la otra y a la inversa) La correlación es más fuerte cuanto más se aproxime a – 1

“r” = 0

Correlación nula; no existe correlación lineal entre variables

Un segundo análisis sobre el índice obtenido es el siguiente: “r” < ± 0.30

Correlación Débil

“r” < ± 0.50

Correlación Mediana

“r” < ± 0.80

Correlación Apreciable

“r” < ± E.00

Correlación Fuerte

68


Manual de Estadística

Lic. Johane Daniel Pérez Leberman

“r” = ± E.00

Correlación Perfecta

r > 0 (+)

La fórmula es la siguiente:

r<0(-)

r=0

*O H ∑ IJK ∑ LIMNI *O ∑ IO MNI

F = G

Aplicando la información que ya se posee en las tablas se tendría:

F = 7

375 2400 + 75 7800 − 4 600 1500000 − 4 600

= 7

900000 + 585000 − 1440000 45000 = 7 = √0.75 1500000 − 1440000 60000

F = 0.8660

Como el valor es mayor a 0 se entiende que se trata de una correlación positiva o directa; de correlación fuerte. Todos los valores obtenidos pueden observarse en el gráfico que surge de la información que se tiene:

69


Manual de Estadística

Lic. Johane Daniel Pérez Leberman

8

7

6

5

4

3

2

1

0 0

1

2

3

4

5

6

Ejercicio de aplicación # 1: En un cantón del occidente del país hay una familia que produce ollas de barro, de forma artesanal, está compuesta por 8 personas. Un investigador de la administración ha observado que mientras más años de realizar dicha práctica se tenga más ollas se produce; la información es la siguiente:

Obrero

Ollas Producidas

Años de experiencia

A

9

6

B

6

5

C

4

3

D

3

1

E

3

4

F

5

3

G

8

6

H

2

2

70


Manual de Estadística

Lic. Johane Daniel Pérez Leberman

Con esa información se le solicita:

a.

Determine la variable independiente y la variable dependiente y cree una ecuación para posibles proyecciones

b.

Proyectar cuántas ollas produciría alguien con 8 años de experiencia

c.

Calcular el error estándar de estimación de la manera más confiable posible

d.

Determine el coeficiente de correlación e indique que significa

e.

Realizar el diagrama correspondiente para corroborar el tipo de relación

Ejercicio de aplicación # 2: el vicepresidente de investigación y desarrollo (I y D) de una gran compañía de bebidas espirituosas, cree que las ganancias anuales de la empresa dependen de la cantidad gastada en I y D. El nuevo presidente no está de acuerdo y le ha solicitado pruebas para justificar sus apreciaciones, los datos son los siguientes:

Año

Gasto en I y D

Ganancia anual

(millones de Q)

(millones de Q)

2007

2

20

2008

3

25

2009

5

34

2010

4

30

2011

11

40

2012

5

31

Con esa información se le pide:

a.

Establezca la variable independiente y la variable dependiente, además cree una ecuación de estimación para posibles proyecciones

b.

Proyecte la ganancia a obtener si se invirtieran ocho millones en I y D

c.

Calcule la confiabilidad de la proyección por medio del error estándar de estimación

d.

Determine el coeficiente de correlación y explique el significado del índice obtenido

e.

Realice el dispersigrama respectivo al ejercicio y corrobore los valores obtenidos en los incisos anteriores

71


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.