Diseño en cuadro latino En el diseño en cuadro latino (DCL) se controlan dos factores de bloque y se estudia un factor de tratamientos, por lo que se tienen cuatro fuentes de variabilidad que pueden afectar la respuesta observada, éstas son: los tratamientos, el factor de bloque I (columnas), el factor de bloque II (renglones) y el error aleatorio. Se llama cuadro latino por dos razones: es un cuadro debido a que tiene la restricción adicional de que los tres factores involucrados se prueban en la misma cantidad de niveles, y es latino porque se utilizan letras latinas para denotar a los tratamientos o nive- les del factor de interés. Sean A, B, C, …, K, los k tratamientos a comparar, por lo tanto ambos factores de bloques tienen también k niveles cada uno. El aspecto de los datos se muestra en la tabla 4.4. Ahora se necesitan al menos tres subíndices, por ejemplo, la respuesta Y313 se generó en el tratamiento tres (C), en el primer nivel del factor renglón y en el tercer nivel del factor columna. Análisis deldiseño
El modelo estadístico para describir el comportamiento de las observaciones está dado por
Efecto de interacción Es cuando dos factores interactúan, es decir, cuando el efecto de uno depende del nivel del otro.
Cuadro latino Diseño en el que se controlan dos factores de bloque y uno de tratamientos; los tres factores tienen la misma cantidad de niveles. Los tratamientos se representan por letras latinas y se distribuyen en forma adecuada en un cuadro.
Dos factores interaccionan cuando el efecto de uno de ellos depende del nivel en que se encuentra el otro. Por ejemplo, los métodos y los operadores interactúan si la eficacia de un método depende de cuál operador lo aplique. Esto complicaría la interpretación del resultado de la comparación de los métodos, ya que debido a la interacción puede ocurrir que el mejor método no lo sea con todos los operadores, lo cual implica que para hablar del mejor método se debe decir primero de cuál operador se habla. En el siguiente capítulo se verá con detalle el concepto de interacción. 1
Tabla 4.5 ANOVA para el diseño de cuadro latino. Fuente de variabilidad
Suma de cuadrados
Grados de libertad
Cuadrado medio
Tratamientos
SCTRAT
k–1
CMTRAT
Renglones
SCB1
k–1
CMB1
F0
F0
Valor-p
CM TRAT
CM
P(F > F0)
E
CM
F0 CM B
P(F > F0)
E
Columnas
SCB2
k–1
Error
SCE
(k – 2)(k – 1)
Total
SCT
k2 – 1
CMB2
F0
CM B2
CM
P(F > F0)
E
CME
Yijl i j l ijl donde Yijl es la observación del tratamiento i, en el nivel j del factor renglón y en el nivel l del factor columna; eijl es el error atribuible a dicha observación. De acuerdo con este modelo, la variabilidad total presente en los datos se puede descomponer como SCT SCTRAT SCB1 SCB 2 SCE y los grados de libertad correspondientes son k 2 1 (k 1) (k 1) (k 1) (k 2)(k 1) El ANOVA para el diseño en cuadro latino se muestra en la tabla 4.5. En él se prueba la hipótesis sobre los efectos de tratamiento del factor renglón y del factor columna. Otra vez, la hipótesis fundamental es la de los tratamientos; las otras dos proporcionan un adicional al objetivo inicial y permiten comprobar la relevancia de controlar los factores de bloque.
Ejemplo 4.2 Comparación de cuatro marcas de llantas. Una compañía de mensajería está
interesada en determinar cuál marca de llantas tiene mayor duración en términos del desgaste. Para ello se planea un experimento en cuadro latino, en el que se comparan las cuatro marcas de llantas sometiéndolas a una prueba de 32 000 kilómetros de recorrido, utilizando cuatro diferentes tipos de auto y las cuatro posiciones posibles de las llantas en el auto. Así, el factor de interés es el tipo de llanta o marca, y se controlan dos factores de bloques: el tipo de carro y la posición de la llanta en el carro. Estos factores de bloques se controlan ya que, por experiencia, se sabe que el tipo de carro y la posición de la llanta tienen efecto en el desgaste de la misma. La elección del cuadro latino a utilizar se hace antes de obtener los datos. Para ello, a partir de un cuadro latino inicial se aleatorizan las columnas y los renglones;
Tabla 4.6 DCL en la comparación de llantas. Carro Posición
1
2
3
4
1 2 3 4
C = 12 B = 14 A = 17 D = 13
D = 11 C = 12 B = 14 A = 14
A = 13 D = 11 C = 10 B = 13
B=8 A=3 D=9 C=9
después, las diferentes marcas de llanta se asignan de manera aleatoria a las letras latinas que denotan los niveles del factor de interés (véase la siguiente subsección). Las pruebas se hacen al mismo tiempo con choferes, a quienes se les instruye para que manejen de manera similar sobre el mismo terreno para los cuatro automóviles. Al hacer las pruebas de los cuatro autos al mismo tiempo se evita el efecto del ambiente en el desgaste; asimismo, el conductor y el tipo de terreno podrían influir, pero se considera suficiente mantenerlos lo más homogéneos posible durante el experimento. El diseño y los datos observados se muestran en la tabla 4.6. Se mide la diferencia máxima entre el grosor de la llanta nueva y el grosor de la llanta después de haber recorrido los 32 000 kilómetros. Obviamente, a mayor diferencia en grosor mayor desgaste. Las unidades de medición son milésimas de pulgada. Análisis de varianza. El ANOVA resultante se muestra en la tabla 4.7. Se observa
que existen diferencias entre las marcas de llanta y entre los tipos de carro, a un nivel de significancia de a = 0.05. Además, no hay evidencia suficiente para concluir que la posición tiene un efecto importante, puesto que su correspondiente valor-p es mayor que 0.05. Interpretación. Para investigar cuáles marcas de llantas son diferentes entre sí, se
aplica la prueba LSD y se obtienen los resultados de la siguiente tabla: Marca
Núm.
C D B A
4 4 4 4
Media muestral Grupos homogéneos
10.75 11.00 12.25 14.25
X X X X
Tabla 4.7 ANOVA para el ejemplo 4.2. Fuente de variabilidad
Marca Posición
Suma de cuadrados
Grados de libertad
30.6875
3
Cuadrado medio
10.2292
F0
Valor-p
11.42
0.0068
6.1875
3
2.0625
2.30
0.1769
Carro
38.6875
3
12.8958
14.40
0.0038
Error
5.375
6
Total
80.9375
15
0.895833
Las conclusiones sobre las cuatro marcas se leen en la columna de grupos homogéneos como sigue: marcas con signos “X” en la misma columna son iguales estadísticamente entre sí. Por ejemplo, la marca A no tiene X en la primera columna y es la única con X en la segunda columna, lo cual indica que es distinta al resto de las marcas. Considerando que mientras la diferencia máxima en grosor sea mayor la llanta se desgasta más, se concluye que la marca A sufre mayor desgaste que las otras tres, por lo que es la peor llanta. Entre las tres marcas restantes (C, D y B) no se encontró una diferencia significativa en cuanto al desgaste medio. Se concluye que desde el punto de vista estadístico y a la luz de los resultados experimentales, estas tres marcas de llantas pueden considerarse iguales. Esto no quiere decir que sean idénticas, sino que sus diferencias son menores, por lo que no se alcanzan a detectar en el análisis del experimento. Dicho lo anterior, y si aún se quisiera detectar esas pequeñas diferencias para decidirse por alguna llanta, entonces habría que aumentar el número de llantas probadas, para así incrementar la potencia de la prueba. Sin embargo, quizá la mejor decisión sea no probar más llantas y decidir entre las tres marcas (C, D y B), con base en otros criterios, como el económico por ejemplo. En la figura 4.1a se presenta la gráfica de medias para los tratamientos, donde los intervalos están construidos con el método LSD. Como ya vimos en el capítulo anterior, si los intervalos de confianza se traslapan, las respuestas medias de los tratamientos son iguales estadísticamente. Observe que el intervalo correspondiente a la marca A no se traslapa con ningún otro, luego, su media poblacional es diferente y mayor que las otras. Las marcas C y D son las de menor desgaste muestral y, aunque estadísticamente no difieren en media poblacional de B, sí hay cierta evidencia
Figura 4.1 Gráficas de medias con intervalos LSD para a) las marcas, b) el carro y c) la posición.
(aunque no suficiente con a = 0.05) a favor de estas dos marcas. La gráfica de medias para el factor carro (figura 4.1b), muestra las diferencias entre ellos: el carro 1 es el que tiene el mayor desgaste muestral de llantas, y el carro 4 es el de menor desgaste. Es posible verificar que estadísticamente son diferentes en media, el carro 4 de todos los demás y el carro 3 del carro 1. En la figura 4.1c se muestra la gráfica de medias para las posiciones y todos los intervalos se traslapan, lo cual indica que no existe suficiente evidencia para concluir que las posiciones tienen algún efecto en el desgaste. Esto es congruente con el hecho de detectar en el ANOVA que no hay efecto de la posición de las llantas. Sin embargo, se observa cierta tendencia que tiene la posición 1 a generar un menor desgaste, aunque no llega a ser significativa. Como las pruebas se hicieron en un circuito, las vueltas siempre eran en el mismo sentido, y esto puede generar mayor desgaste en una posición determinada. Comprobación de supuestos. Como se comentó antes, la validez del análisis de
varianza recae en tres supuestos que siempre deben verificarse: normalidad, varianza constante e independencia de los residuos; además de la ausencia de observaciones atípicas o aberrantes. Como se observa en la figura 4.2, el supuesto de normalidad se cumple al caer los residuos o puntos “más o menos en línea recta” (figura 4.2a). También se cumple el supuesto de varianza constante de acuerdo a las figuras 4.2b y
Figura 4.2 Gráficas de residuos para la verificación de supuestos del ejemplo 4.2.
4.2c, en las que los residuos se ubican aleatoriamente dentro de una banda horizontal; su dispersión vertical es la misma a lo largo de los gráficos. No se comprobó el supuesto de independencia porque no se conoce el orden en que se realizaron las mediciones del desgaste. Selección y aleatorización de un cuadro latino
Cuadro latino estándar Cuadro latino que tiene en la primera columna y en el primer renglón las letras en orden alfabético.
No cualquier arreglo de letras latinas en forma de cuadro es un cuadro latino. La regla fundamental es que cada letra debe aparecer sólo una vez en cada renglón y en cada columna. Siempre es fácil construir un cuadro latino estándar: en el que en la primera columna y en el primer renglón aparecen las letras en orden alfabético. Por ejemplo, un cuadro latino estándar de tamaño cuatro está dado por:
A B C D
B C C D D A A B
D A B C
Existen además los siguientes tres cuadros latinos estándar de dimensión cuatro:
A B C D B A D C C D B A D C A B
,
A B C B D A C A D D C B
D C B A
y
A B C D B A D C C D A B D C B A
Para cuatro tratamientos se pueden construir un total de 576 cuadros latinos, de los cuales cuatro son estándar. La selección del diseño debería ser elegir uno al azar de los 576 posibles; no obstante, es prácticamente imposible construir todos para seleccionar uno al azar. Sin embargo, ocurre que dado un cuadro latino, cualquier intercambio de columnas o de renglones también es un cuadro latino. Por eso la estrategia de selección y aleatorización recomendada en la práctica es la siguiente: 1. Se construye el cuadro latino estándar más sencillo. 2. Se aleatoriza el orden de los renglones (o columnas) y después se aleatoriza el orden de las columnas (o renglones). 3. Por último, los tratamientos a comparar se asignan en forma aleatoria a las letras latinas. El cuadro latino tiene dos restricciones a la aleatorización que se deben a los dos factores de bloque, lo cual implica que a la hora de correr el experimento no hay ningún margen de aleatorización. Es decir, se puede correr por columna o por renglón según convenga. Lo que no es correcto es hacer todas las pruebas de un tratamiento, luego todas las de otro, y así sucesivamente, puesto que se puede introducir ruido adicional debido a factores no controlables que cambian con el tiempo.
Diseño en cuadro grecolatino
115
Diseño en cuadro grecolatino Con el diseño en cuadro grecolatino (DCGL) se controlan tres factores de bloque, además del factor de tratamientos. Se llama cuadro grecolatino porque los cuatro factores involucrados se prueban en la misma cantidad de niveles, de aquí que se pueda escribir como un cuadro (véase tabla 4.8); además, se utilizan letras latinas para denotar a los tratamientos y letras griegas para nombrar a los niveles del tercer factor de bloque. Al igual que en el cuadro latino, cada letra (latinas y griegas) debe aparecer sólo una vez en cada renglón y en cada columna. Además, cada par de letras debe aparecer sólo una vez en todo el arreglo. En la tabla 4.8 se presenta el aspec- to de los datos del diseño en cuadro latino de dimensión k = 4. El modelo estadístico que describe a las mediciones en un cuadro grecolatino está dado por Yijlm i j l m ijlm
donde Yijlm es la observación o respuesta que se encuentra en el tratamiento i (i-ésima letra latina), en el renglón j, en la columna l y en la m-ésima letra griega; ti es el efecto del tratamiento i, gj es el efecto del renglón j, dl representa el efecto de la co- lumna l y jm representa el efecto de la m-ésima letra griega, que son los niveles del tercer factor de bloque; el término eijlm representa el error aleatorio atribuible a la medición Yijlm. Es importante no confundir las letras griegas del modelo que representan efectos, con las letras griegas en el diseño que simbolizan a los niveles del tercer factor de bloque. La variabilidad total presente en los datos se puede partir de la manera usual como SCT SCTRAT SCB1 SCB 2 SCB3 SCE donde las sumas SCB1, SCB2 y SCB3 miden la variabilidad debida a los factores de bloque renglón, columna y de letras griegas, respectivamente. Para k tratamientos, los grados de libertad correspondientes a cada suma son k 2 1 (k 1) (k 1) (k 1) (k 3)(k 1) Un bosquejo del análisis de varianza se muestra en la tabla 4.9, en la cual se prueban las hipótesis de igualdad de letras latinas (tratamientos), de renglones, de columnas y de letras griegas.
Tabla 4.8 Diseño en cuadro grecolatino. Columnas
Renglones
1 2 3 4
1
2
3
4
Aa Bd Cb Dg
Bb Ag Da Cd
Cg Db Ad Ba
Dd Ca Bg Ab
Cuadro grecolatino Diseño en el que se controlan tres factores de bloques y un factor de tratamiento; los cuatro factores utilizan la misma cantidad de niveles.
Diseño en cuadro grecolatino
116
Ejemplo 4.3 En el caso de ejemplo 4.1, donde se comparan cuatro métodos de ensamble y se tiene el factor de bloque operador, se podrían tener dos factores de bloque adicionales: orden en el se hace el ensamble y lugar donde se hace. De acuerdo con esto, el diseño en cuadro grecolatino se observa en la tabla 4.10. El análisis de varianza para el ejemplo se muestra en la tabla 4.11, en donde se aprecia que el único efecto significativo son los tratamientos (métodos), y ninguno de los factores de bloque tiene un efecto significativo sobre el tiempo de ensamble. El factor operador tiene un valor-p bajo, lo cual indica que podría tener un efecto significativo; sin embargo, en este experimento fue imposible detectarlo. La comparación de medias para métodos de ensamble se muestra en la siguiente tabla: Prueba LSD para método al 95% de confianza Método
ni
Media
Grupos homogéneos
A
4
7.0
X
B
4
9.25
X
C
4
12.0
X
D
4
12.75
X
donde se aprecia que los métodos A y B no son diferentes, pero sí son distintos de los métodos C y D. Uso de software Casi cualquier software estadístico incluye procedimientos para realizar análisis de varianza con dos criterios de clasificación.
Uso de software
Tabla 4.10 Diseño en cuadro grecolatino para ensamble. Operador
Orden del ensamble
1
2
3
4
1
Cb = 10
B g = 10
Dd = 12
Aa = 7
2
Ba = 8
Cd = 15
Ag = 7
Db = 14
3
Ad = 6
Da = 14
Bb = 11
C g = 13
4
d g = 11
Ab = 8
Ca = 10
Bd=8
Los métodos son las letras latinas A, B, C y D. El lugar de trabajo son las letras griegas a, b, g y d.
Tabla 4.11 ANOVA para diseño en el cuadro grecolatino de la tabla 4.10. Suma de cuadrados
Gl
Método
83.5
3
Operador
18.5
3
Orden
9.5
Lugar Residual
Fuente
Total (corregido)
Cuadrado medio
Razón F
Valor-p
27.8333
23.86
0.0135
6.16667
5.29
0.1024
3
3.16667
2.71
0.2170
2.0
3
0.666667
0.57
0.6714
3.5
3
1.16667
117.0
15
Las combinaciones de prueba, así como la respuesta observada se capturan manualmente en el editor de datos. Se requiere una columna por cada factor contro- lado en el experimento, más la columna de la variable de respuesta. Por ejemplo, en el caso del DBCA se requieren tres columnas: una para el factor de tratamientos, otra para el factor de bloques y la de la respuesta, y así sucesivamente, también se agrega una columna adicional por cada factor de bloque considerado. Se recomienda capturar los datos y combinaciones de prueba en el orden en que se hayan realizado, ya que con ello se podrá comprobar el supuesto de independencia de los residuos. En particular, en Statgraphics, la secuencia para el análisis de los diseños que usan cuando menos un factor de bloques es: Compare Æ Analysis of variance Æ
117
Uso de software
Multifactor anova. Existe otra posibilidad más práctica que ayuda a crear el diseño y las columnas, a la cual se accesa con la siguiente secuencia de opciones: Special Æ Experimental Design Æ Create Design Æ Single Factor Categorical. Después se elige el número de niveles del factor de tratamientos. Luego aparece una pantalla donde se elige el tipo de diseño a ser empleado, se incluye el diseño completamente aleatorizado y los diseños de bloque vistos en este capítulo.
En Minitab se crean columnas y se registran los datos como se indicó antes, y se sigue la secuencia Stat Æ Anova Æ Two-way.
Uso de Excel El ANOVA de un diseño completamente al azar o con un criterio de clasificación se realiza con la secuencia: Herramientas Æ Análisis de datos Æ Análisis de dos facto- res con una sola muestra por grupo. Si no estuviera activada la opción de Análisis de datos, ésta se activa con la opción Complementos dentro del mismo menú de Herramientas. Se declara el rango de los datos, que pueden estar acomodados por colum- nas o por renglones. La salida contiene las estadísticas básicas de cada una de las muestras y el ANOVA correspondiente.
118