2. Correlación y Regresión Lineal
2.1. Introducción
2.2. Análisis de Correlación Lineal 2.2.1. Diagrama de Dispersión 2.2.2. Tipos de Relación 2.2.3. Coeficiente de Correlación Lineal (r) 2.2.4. Coeficiente de Determinación (R2)
2.3. Análisis de Regresión Lineal 2.3.1. Ecuación de la Recta de Regresión Simple
2.4. Ejercicios 2.4.1. Resueltos 2.4.2. Propuestos
Vázquez, H. 2009
| 2.1. Introducción
1
2.1. Introducción El análisis de correlación lineal se refiere a medir la fuerza con la que dos variables están relacionadas y en consecuencia el análisis de regresión lineal a la determinación de un modelo matemático ó función que se puede usar para pronosticar ó determinar una variable por medio de la otra variable. el modelo más elemental de regresión se denomina regresión simple, que es regresión lineal bivariada, lo que significa que comprende sólo dos variables. La que se pronostica es la variable dependiente y se designa como y, por otra parte, la que sirve para pronosticar es la variable independiente ó explicativa, y se designa como x.
2.2. Análisis de Correlación Lineal Este análisis consiste en medir la intensidad con la que dos variables están relacionadas a través de dos coeficientes: el coeficiente de correlación lineal (r) y el coeficiente de determinación (R2).
2.2.1. Diagrama de Dispersión Por lo general, el primer paso en el análisis de correlación y regresión lineal simple es construir un diagrama de dispersión que es una gráfica en dos dimensiones donde los pares de puntos (x,y) son las dos variables por considerar. En este diagrama se busca si los puntos graficados tienden a cierto comportamiento, donde se muestra si existe ó no relación y de que tipo entre las dos variables. En los siguientes ejemplos podemos observar la relación que existe entre las variables, en estos casos hablamos de: Si a medida que crece x no hay un cambio definido de y, se dice que no hay correlación, o relación entre x y y. Si a medida que crece x, hay un cambio definido en los valores de y, hay correlación: o La correlación es positiva cuando y tiende a crecer cuando los valores de x también crecen o La correlación es negativa cuando y tiende a decrecer cuando los valores de x crecen.
Vázquez, H. 2009
| 2.1. Introducción
2
Si los pares ordenados (x,y) tienden a seguir un patrón de línea recta, se tiene una correlación lineal. La precisión del cambio en y cuando crece x, determina la intensidad de la correlación lineal.
La correlación lineal perfecta ocurre cuando todos los puntos están exactamente sobre una línea recta, como se observa en la siguiente figura, esta correlación puede ser positiva o negativa. Si los datos forman una línea horizontal o vertical, no hay correlación, ya que una variable no afecta a la otra.
2.2.2. Coeficiente de Correlación (r) O coeficiente de correlación de Pearson, nombre que recibe en honor de su creador Karl Pearson (1857-19369), es una medida que nos sirve para describir que tan fuerte es la relación entre las dos variables. Es un número que varía de -1 a 1. Un valor de r de +1 denota una correlación positiva perfecta (relación directa), y en consecuencia un valor de r de -1 denota una correlación negativa perfecta (relación inversa), y un valor de r = 0 indica que no hay correlación entre las variables. Vázquez, H. 2009
| 2.2. Análisis de Correlación Lineal
3
El método que se emplea para el cálculo del coeficiente es el Método de Mínimos Cuadrados, y la fórmula es:
r
X 2
X Y XY n X Y Y n n 2
2
2
La fórmula es un poco tediosa por el cálculo de todas las sumatorias de los datos, pero el objetivo principal de este curso es que este coeficiente se calcule a través de una calculadora científica. El rango sugerido para determinar la intensidad con que dos variables están relacionadas es:
0 No hay correlación
Coeficiente de Correlación r 0<r<±0.4 ±0.4<r<±0.7 ±0.7<r<±1 Baja Moderada Fuerte Correlación Correlación Correlación
±1 Correlación Perfecta
2.2.3 Coeficiente de Determinación (R2) El coeficiente R2 mide la proporción de variabilidad de la variable dependiente (y) considerada o explicada por la variable independiente (x). El coeficiente de determinación R2 va entre 0 y 1. Un R2=0 significa que el pronosticador no considera una variabilidad de la variable dependiente y que no hay predicción de regresión de y por x. un R2 =1 indica una predicción perfecta. El investigador debe interpretar si un coeficiente de determinación R 2 particular es alto o bajo, dependiendo del modelo y el contexto dentro del cual se creó el modelo. Para el caso del análisis de correlación y regresión simple, el valor de R 2, no es más que el cuadrado del coeficiente de correlación r, es importante considerar que para el caso de un modelo múltiple (más de dos variables) el criterio para su cálculo es diferente.
R 2 r
2
El valor de R2 se interpreta en forma porcentual.
Vázquez, H. 2009
| 2.2. Análisis de Correlación Lineal
4
2.3 Análisis de Regresión El análisis de regresión se refiere a determinar el modelo matemático lineal que mejor se adapta al comportamiento de los datos, dicho en otras palabras, es calcular la ecuación lineal que mejor se ajusta a los datos.
2.3.1. Ecuación de la Recta de Regresión Simple El primer paso para determinar la ecuación de la recta de regresión que pasa por los datos de la muestra es establecer la forma de la ecuación. En este análisis se emplea la recta de la forma: pendiente y ordenada en el origen, en matemáticas su forma es:
Y mx b donde :
m pendiente de la recta b ordenada al origen En estadística, la forma de la ecuación de la recta que pasa por los puntos poblacionales es:
yˆ o 1 x donde : yˆ valor pronostica do de y o ordenada poblacional
1 pendiente poblacional Para calcular los coeficientes de la ecuación, se emplea también el Método de Mínimos Cuadrados, por lo que las fórmulas se calculan de la siguiente manera:
yˆ o 1 x donde :
1
XY X
o
2
X Y
n X 2 n
Y X n
1
n
Al igual que el coeficiente de correlación, también estos coeficientes se pueden determinar con una calculadora científica.
Vázquez, H. 2009
| 2.3 Análisis de Regresión
5
2.4. Ejercicios 2.2.4.1 Ejercicios Resueltos 1. Un especialista en administración de hospitales dice que el número de empleados de tiempo completo (ETC),de un hospital, se puede estimar al contar el número de camas en el hospital (una medida común del tamaño de un hospital). N° de camas 23 29 29 35 42 46 50 54 64 66 76 78
N° de empleados (ETC) 69 95 102 118 126 125 138 178 156 184 176 225
a) Realiza un diagrama de dispersión y que observas en cuanto al comportamiento de los datos? b) Calcula los coeficientes de correlación y de determinación. c) Determina la ecuación de la recta de mejor ajuste d) Si un hospital que se está construyendo, se planea que tenga 70 camas, de cuantos empleados tendría que disponer? e) Si un hospital cuenta con 90 empleados, cuantas camas estimas que tenga? Solución: a) para la solución de este inciso nos apoyamos en Excel, (insertando un gráfico de dispersión, seleccionando las celdas con títulos de los datos)
Vázquez, H. 2009
| 2.4. Ejercicios
6
Del gráfico podemos concluir que hay una alta correlación positiva, dado que los puntos tienden a una línea recta con pendiente positiva o ascendente, esto indica que mientras aumente el número de camas, también aumentará el número de empleados de tiempo completo Excel, como función adicional también puede graficar esa recta de tendencia:
b) Para el cálculo de todos los coeficientes nos apoyamos en una calculadora científica que trabaje con datos bivariados (x,y) c) Como ejemplo trabajamos con la calculadora que se muestra a continuación: Esta calculadora puede trabajar en 3 modos distintos: Oprimiendo la tecla
Aparece en pantalla, y trabajaremos con el modo REG (modo de regresión) oprimiendo la opción 3 Y posteriormente la opción 1, que es regresión Lineal.
La forma en que se ingresarán los datos será como sigue: Se capturarán por pares de datos (x,y): 23
69
Vázquez, H. 2009
todos y cada uno de los pares de datos, | 2.4. Ejercicios
7
Y después de haber capturado todos los datos, se oprime la tecla Para obtener los resultados se procede a entrar a la opción “S-VAR”, por lo que se tendrán que oprimir las teclas:
y en la pantalla aparecerá Posteriormente se oprimirá La tecla
hasta que aparezcan las opciones: que representan los coeficientes buscados de la ecuación :
yˆ o 1 x donde : yˆ A Bx Entonces los resultados de la calculadora son: A = 30.912 B = 2.231 r = 0.9415 de donde podemos concluir que: como r = 0.9415, los datos tienen una alta correlación positiva R2 = 0.8864,de donde se desprende que el 88.64% del número de empleados está explicado por el número de camas de un hospital. Y de los valores de A y B, la ecuación de la recta de mejor ajuste queda como:
yˆ A Bx yˆ 30.912 2.231x De donde, el valor de la pendiente nos muestra que por cada cama que aumente un hospital, aumentará 2.231 empleados de tiempo completo.
Vázquez, H. 2009
| 2.4. Ejercicios
8
d) Si un hospital que se está construyendo, se planea que tenga 70 camas, de cuantos empleados tendría que disponer? Como x=70 y nos interesa calcular y, entonces: En la calculadora se Ingresa 70 y buscamos Y con
buscamos la opción
la opción
xˆ yˆ , y se elige la opción 2 “ yˆ ”, obteniendo
como resultado:
yˆ 187.12 que indica que si un hospital se planea con 70 camas, tendría que considerar una plantilla de 187 trabajadores de tiempo completo. e)Si un hospital cuenta con 90 empleados, cuantas camas estimas que tenga? Siguiendo el procedimiento del inciso anterior pero intercambiando variables tenemos que: Como y=90 y nos interesa conocer x, Entonces xˆ 26.48 , nos muestra que el hospital que tiene 90 empleados tiene aproximadamente 27 camas.
2.2.4.2 Ejercicios Propuestos 1. El gerente de de una compañía de seguros desea establecer la relación entre el seguro de vida de las personas y sus salarios. Para poder establecer dicha relación tiene la siguiente información. Seguro de vida en vigor (miles de dólares) 80 100 130 150 200 300 300 350
Salario anual (miles de dólares) 29 30 31 40 40 29 50 127
a) b) c) d)
¿Qué tipo de relación tienen las variables? ¿Con que fuerza? Justifica Realiza un diagrama de dispersión e interprétalo Obtén la ecuación de la recta de regresión de mejor ajuste e interprétala. Si un asegurado percibe un salario anual de $75000, ¿de cuanto será su seguro de vida? e) Si un asegurado tiene un seguro de vida de $23000, ¿Cuánto de debe de ganar anualmente?
Vázquez, H. 2009
| 2.4. Ejercicios
9
2. En un gran campus universitario se llevó a cabo una encuesta. Se entrevisto a 24 estudiantes. Dos preguntas eran: “ ¿Cuántas horas por semana está usted empleado?” y “ ¿en cuantas horas usted está inscrito actualmente?” Hrs Empleado Hrs Crédito a) b) c) d)
20 6
40 3
35 6
15 9
40 6
20 6
20 3
0 15
20 6
40 9
10 9
20 3
¿Qué tipo de relación tienen las variables? ¿Con que fuerza? Justifica. Obtén la ecuación de la recta de regresión de mejor ajuste e interprétala. Si un empleado tiene 53 hrs. Empleado, ¿Cuántas hrs. crédito debe tener? Si un empleado tiene 13 hrs. crédito ¿Cuántas hrs. empleado debe tener?
3. En el articulo “Fast-Food Fat Counts Full os Surprises” , se compara el contenido de calorías y grasas de algunos d esos alimentos conocidos de comida rápida. Calorías Grasas
270 9
420 20
210 10
450 22
130 6
310 25
290 7
450 20
446 20
640 38
233 11
a) Calcula el coeficiente de correlación e interprételo. b) Obtener la ecuación de la recta de regresión e interprétela.
Vázquez, H. 2009
| 2.4. Ejercicios
10