AREA: Escuela de Ciencias Básicas Tecnología e Ingeniería ESTADÍSTICA CIENCIAS BÁSICAS UNIDAD: Medidas de Dispersión y estadísticas bivariantes CAPÍTULO: IV LECCIÓN: Regresión y Correlación
NUMERO DE LA PRÁCTICA 2 NOMBRE DE LA PRÁCTICA Regresión y correlación NOMBRE DEL SOFTWARE Excel Libre: ______x_____ Licenciado: _____________ (Marque con una X) Aspectos Teóricos: REGRESIÓN Y CORRELACIÓN
En muchos casos se requiere conocer más que el comportamiento de una sola variable, se requiere conocer la relación entre dos o más variables como la relación entre producción y consumo; salarios y horas de trabajo; oferta y demanda; salarios y productividad; la altura de un árbol y el diámetro de su tronco; el nivel socioeconómico de una persona y su grado de depresión; etc. Muchos de estos comportamientos tienen una tendencia lineal, aunque hay muchos otros que lo hacen de forma curva. Para determinar el grado de correlación entre las variables, no basta con calcular la varianza explicada, pues existe el coeficiente de determinación o coeficiente de correlación; sin embargo, frecuentemente se utiliza un coeficiente de correlación rectilíneo, r siendo este un valor entre -1 y 1. Para estas confrontaciones se utiliza el diagrama de dispersión que es plano cartesiano en el que se marcan los puntos los puntos correspondientes a los pares (x,y) de los valores de las variables.
El análisis de Regresión tiene los siguientes usos: el primero es obtener los estimadores de los parámetros, estimar la varianza del error, obtener los errores estándares de los parámetros estimados, probar la hipótesis sobre los parámetros, cálculo de valores estimados basados en la ecuación estimada, estimar el ajuste o la falta de ajuste del modelo. El modelo a utilizar es Y = a + bx, a es el intercepto, b es la pendiente de la función, la que nos indica el cambio marginal de Y respecto a X. Ejemplo Una empresa de mensajería de entrega puerta a puerta, con el fin de mejorar la prestación del servicio desea establecer la relación que puede existir entre el tiempo empleado y la distancia recorrida para la entrega de un determinado producto.
Distancia en Kilómetros 825 (x)
215
1070
550
480
920
1350
325
670
1215
Tiempo de entrega ( y) (días)
1,0
4,0
2,0
1,0
3,0
4,5
1,5
3,0
5,0
3,5
a. Realice un diagrama de dispersión a partir de los datos obtenidos b. Determine la mejor ecuación que se ajusta a los datos. Solución: El diagrama de dispersión se obtiene mediante el asistente de gráficos. Trasladamos los datos a una hoja en Excel, seleccionamos la tabla donde están los datos <<Insertar<<Dispersión. En estilo de diseño puede personalizar su diagrama de barras. Seleccionamos un diseño de grafico de la barra de herramientas y damos nombre a los ejes y al Diagrama.
Para hallar la recta de Regresi贸n y la ecuaci贸n que mejor se ajusta a los datos, en el diagrama de dispersi贸n hacemos click derecho sobre uno de los puntos y seleccionamos Agregar l铆nea de tendencia.
Así obtenemos una ventana, la cual nos permite escoger la línea de tendencia, elegimos opción de línea de tendencia (Lineal) y seleccionamos: Presentar ecuación en el grafico. Presentar el valor R cuadrado en el grafico.
De esta manera obtenemos nuestra recta de regresión, la ecuación que más se ajusta a los datos y el coeficiente de determinación el cual mide la relación entre las dos variables.
Análisis:
Con los resultados obtenidos se puede asegurar que la ecuación de la recta es una muy buena estimación de la relación entre las dos variables. El R2 afirma además que el modelo explica el 90.05% de la información y el valor de r coeficiente de correlación lineal confirma además el grado de relación (94%) entre las variables: Distancia y tiempo de entrega de un determinado producto.
EJERCICIOS: 1. Se quiere estudiar la asociación entre consumo de sal y tensión arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después. X (sal)
Y (Presión)
1,8
100
2,2
98
3,5
105
4,0
110
4,3
112
5,0
120
a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. Es confiable? c. Determine el porcentaje de explicación del modelo y el grado de relación de las dos variables. d. Si a un paciente se le administra una dosis de sal de 6,5. ¿ Cuál es la tensión arterial esperada? 2. En un nuevo proceso artesanal de fabricación de cierto artículo que esta implantado, se ha considerado que era importante ir anotando periódicamente el tiempo medio ( medido en minutos) que se utiliza para realizar una pieza y el número de días desde que empezó dicho proceso de fabricación. Con ello, se pretende analizar como los operarios van adaptándose al nuevo proceso mejorando paulatinamente su proceso de producción. Los siguientes datos representan dicha situación: X Y
10 35
20 28
30 23
40 20
50 18
60 15
70 13
a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. Es confiable? c. Determine el porcentaje de explicación del modelo y el grado de relación de las dos variables. d. Que tiempo deberá tardarse un empleado cuando se lleven 100 días?
3. Una Nutricionista de un hogar infantil desea encontrar un modelo matemático que permita determinar la relación entre el peso y la estatura de sus estudiantes. Para ello selecciona 10 niños y realiza las mediciones respectivas. A continuación se presentan los resultados: Estatura (cm) Peso ( kg)
121
123
108
118
111
109
114
103
110
115
25
22
19
24
19
18
20
15
20
21
a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. Es confiable? c. Determine el grado de relación de las dos variables. d. Cual es el peso que debería tener un estudiante que mida 130 cm?