Estadística Inferencial
Análisis Anova Presentación Suponga que el jefe de personal de una empresa textil, realiza un estudio sobre la habilidad de liderazgo que poseen los administrativos. Realiza el estudio en 4 departamentos, y a cada persona seleccionada les aplica un test, obteniéndose los siguientes puntajes.
Depto. De finanzas
Depto. De producción
Depto de Personal
Depto de Supervisión
80
71
71
88
78
77
73
86
82
80
72
79
¿ Puede el jefe de personal afirmar que el puntaje promedio en los cuatro departamentos difiere? ¿Cuál es el factor de interés? ¿Cuál es la variable de respuesta? ¿Qué diferencias detecta respecto a los temas anteriormente analizados?
Competencia A través de este módulo desarrollarás las siguientes competencias específicas: ● Comprende las características para la aplicación del Análisis de Varianza ANOVA. ● Comprende los procedimientos para el análisis de la información aplicando ANOVA. ● Comprende el uso y la interpretación del software para la aplicación de ANOVA ● Identifica, analiza y resuelve problemas que requieran ANOVA así como dar conclusiones acertadas para la correcta toma de decisiones.
Enrique Israel, 2016
Estadística Inferencial
Propósitos ● Identificar las características, conceptos y variables para el análisis de varianza ANOVA ● Comprensión de la herramienta ANOVA mediante ejemplos. ● Práctica de la herramienta estadística mediante ejercicios y actividades. ● Identificar correctamente el parámetro a comprobar y utilizar la herramienta estadística que mejor se adapta para dar la solución. ● Analizar el resultado que se obtiene para dar conclusiones acertadas a los problemas.
Desarrollo Análisis de Varianza (ANOVA) En temas anteriores se ha tratado la inferencia respecto a parámetros tanto para una población como para dos poblaciones. En esta sección se trata el tema de inferencias respecto a varias medias. Hay procesos donde nos interesa comparar el comportamiento de una característica bajo distintas condiciones, por ejemplo el tiempo de vida de anaquel de un producto particular bajo distintas temperaturas, o el número de reclamaciones al mes en las distintas sucursales de un negocio. A las características las llamamos Factores y a las condiciones Tratamientos. La herramienta estadística que nos ayuda a comparar las medias de más de dos niveles en un solo Factor se conoce como Análisis de Varianza (ANOVA) para un factor y la distribución que se utiliza es la distribución Fisher.
Enrique Israel, 2016
Estadística Inferencial Ejemplo; Extraído de Anderson, Sweeney, Williams. (2012). Estadística para negocios y economía. México D.F: Cengage Learning, pp 523 ej. 9: Para estudiar el efecto de la temperatura en el rendimiento de un proceso químico, se produjeron cinco lotes con cada uno de tres niveles de temperatura. Los resultados se presentan a continuación. Pruebe con un nivel de significancia de α =0.05 si la temperatura afecta el rendimiento medio el proceso. 50°C
60°
70°C
34
30
23
24
31
28
36
34
28
39
23
30
32
27
31
Solución; Definimos que el factor de interés es la temperatura y que contamos con tres tratamientos 50°C , 60°C y 70°C. 1. Objetivo: Probar que la temperatura afecta el rendimiento medio del proceso. Es decir, probar que la media de los rendimientos en los distintos tratamientos no son todas iguales. 2. Hipótesis: La hipótesis nula (H0) SIEMPRE irá en el sentido de que todas las medias entre los tratamientos son iguales y la hipótesis alternativa (H 1) será que no todas las medias son iguales (Que es diferente a decir que todas son distintas). Por lo tanto:
H0 : μ50°C = μ60°C = μ70°C H1: No todos los rendimientos promedio son iguales
Enrique Israel, 2016
Estadística Inferencial 3. Valor crítico: Para determinar el valor crítico utilizaremos la distribución Fisher, la cual depende de grados de libertad en el numerador, grados de libertad en el denominador y el nivel de significancia (α) glnumerador = k-1 ; también llamado grados de libertad entre tratamientos donde k es el número de tratamientos. En este caso son 3. glnumerador = k-1 = 3-1=2 gldenominador =nT – k ; también llamado grados de libertad dentro de los tratamientos donde n T será el total de elementos en el experimentos, es decir la suma de los tamaños de muestra de cada tratamiento. En este caso nT es 15. gldenominador =nT – k = 15 – 3 = 12
Con un alfa α=0.05
Fc= 3.89 Enrique Israel, 2016
Estadística Inferencial 4. Valor estadístico: El valor estadístico se calcula a partir de los datos de la muestra basado en las fórmulas: Fe
Cuadrado Medio
Suma de Cuadrados
El primer paso es obtener los estadísticos de cada tratamiento: 50°C 34 24 36 39 32
60° 30 31 34 23 27
70°C 23 28 28 30 31
33
29
28
Desviacion STD
5.7
4.2
3.1
Varianza
32
18
10
5
5
5
Xj
nj
Para obtener la Suma de Cuadrados entre Tratamientos SCT, primero se obtiene la media total, es decir la media sin importar los tratamientos a los que se pertenezca. En este caso x=30 Tratamiento nj(xj-x)2 SCT= 70
Enrique Israel, 2016
50°C 5*(33-30)2 = 45
60°C 5*(29-30)2 = 5
70°C
Total
5*(28-30)2 = 20
70
Estadística Inferencial Para obtener la Suma de Cuadrados dentro de los Tratamientos o Suma de Cuadrados del Error SCE, haremos uso tanto del tamaño de muestra de cada tratamiento como de su varianza. (Ojo: en este ejercicio los tamaños de muestra de los tratamientos es el mismo, sin embargo no es una regla, podrían tener diferentes valores de n ) Tratamiento (nj-1)sj2
50°C (5-1)* 32 = 128
60°C (5-1)*18 = 72
70°C (5-1)*10 = 40
Total 240
SCE= 240 Para obtener el Cuadrado Medio entre tratamientos CMT se requiere del SCT y de los grados de libertad en el numerador (k-1) CMT =
SCT 70 = =35 k−1 (3−1)
CMT= 35
Para obtener el Cuadrado Medio dentro de los tratamientos o cuadrado medio del error CME se requiere del SCE y de los grados de libertad en el denominador (nT- k) CME=
SCE 240 = =20 nT −k (15−3)
CME= 20 Por último para Fe: Fe=
CMT 35 = =1.75 CME 20
Fe= 1.75
Enrique Israel, 2016
Estadística Inferencial Con esta información que se ha obtenido podemos armar la tabla ANOVA: Suma de Cuadrados
Grados de libertad
Cuadrado Medio
Fe
Tratamientos
70
2
35
1.75
Error
240
12
20
Total
310
14
55
5. Toma de decisión: se comparan los valores de Fe contra FC donde la regla de decisión es: Se rechaza la H0 si el valor de Fe es mayor al valor de FC Siendo
Fe= 1.75 y Fc= 3.89 se observa que
Fe < Fc por lo tanto según la regla no se rechaza la H0 Conclusión: Con un nivel de significancia del 5% no hay evidencia suficiente para comprobar que exista alguna diferencia en el rendimiento promedio debido a la temperatura. Para reforzar el procedimiento del análisis ANOVA revisa el siguiente video. De MsEstadística , Estadística inferencial (ANOVA) recuperado de https://www.youtube.com/watch?v=Pr1c2-mE_M0 Consultado 22/09/2016
Enrique Israel, 2016
Estadística Inferencial Análisis de Post Hoc Una vez que por medio del análisis ANOVA se ha determinado que existen diferencias entre las medias, es importante determinar cuáles de estas son las que difieren. Para esto se compara cada par de medias posible proponiendo como hipótesis nula que ambas medias son iguales y como alternativas que existe diferencia significativa entre ellas:
H0 : μi = μj H1 : μi ≠ μj Tomando el ejemplo anterior de si la temperatura afectaba el proceso químico, en caso de que el análisis ANOVA hubiera arrojado que sí había diferencias, tendríamos que comparar 3 pares de medias:
( μ50°C , μ60°C ) ; ( μ50°C ,μ70°C ) y ( μ60°C ,μ70°C )
Para ello existe una variedad de métodos los cuales puedes conocer en el siguiente video: De Héctor Ochoa Grimaldo , Comparación de pares de medias de tratamientos recuperado de https://www.youtube.com/watch? v=YRSlYB6tV_E Consultado 22/09/2016 En el siguiente documento se muestra cómo realizar el análisis ANOVA en el software SPSS y cómo realizar e interpretar el análisis Post hoc. SPSS: ANOVA de un Factor http://www.uv.es/innomide/spss/SPSS/SPSS_0702b.pdf Consultado 24/09/2016
Enrique Israel, 2016