Métodos Estadísticos Básicos para Agronomía
Facultad de Ciencias Agroalimentarias
Tabla de Contenidos Introducción El complemento para análisis de datos……………………………………….. 4 El formato columnar de los datos ………………………………………………. 7 La tabla dinámica ………………………………………………………………………8 El uso del filtro: ……………………………………………………………………….17 Algunas figuras importantes …………………………………………………….21 La diferencia entre Desviación estándar y Error estándar ………….. 28 Análisis de datos …………………………………………………………………….29 Estadística descriptiva …………………………………………………………… 30 Pruebas de “t” ……………………………………………………………………….34 El análisis de variancia ……………………………………………………………40 Supuestos básicos del análisis de variancia …………………………….. 43 Procedimiento de análisis de variancia …………………………………….44 La relación entre variables: correlación y regresión …………………. 48 El coeficiente de correlación de Pearson ………………………………….49 El coeficiente de correlación de Spearman ……………………………….54 El índice de dependencia de Cramer ………………………………………..57 La forma de la relación entre variables regresión ……………………. 62 Literatura consultada ……………………………………………………………. 75
2
Introducción: La hoja electrónica es la herramienta más versátil que se ha creado hasta el momento para el usuario común. Actualmente la que se encuentra más en boga es la hoja electrónica EXCEL, sin embargo, es de suponer que en una eventual sustitución en el mercado de este producto no se va a alterar sustancialmente los principios en los que se fundamenta y menos se va a ver alterado el esquema para la manipulación de datos creado para la hoja electrónica. Varios productos han entrado y salido del mercado desde la primera hoja electrónica VISICALC que fue la que combinó todos los aspectos tales como interfase interactiva para el usuario, recalculado automático, copiado de un grupo de celdas con referencias absolutas y relativas, construcción de fórmulas por medio de la selección de celdas de referencia, pero sobre todo el arreglo en hileras y columnas que ya había sugerido en 1961 Richard Mattessich, en el artículo que diera origen a la construcción de la hoja electrónica "Budgeting Models and System Simulation". La moderna alfabetización demanda el conocimiento de la hoja electrónica puesto que, como el alfabeto, lo podemos adaptar a cualesquiera situaciones que topemos en nuestro ambiente laboral, de ahí la importancia de conocer y practicar el uso de esta herramienta. La intensión de este folleto es obviar la necesidad de memorizar procedimientos para obtener un determinado resultado; por medio de la guía gráfica esperamos ahorrarle al usuario tener que recordar cómo se hacen las cosas y ocupe su memoria solo en lo relevante que es el para qué se emplean las operaciones estadísticas en este caso. Una o dos sesiones de instrucción no van a ser suficientes nunca a menos que incorporemos lo aprendido al trabajo cotidiano. Las computadoras se diseñaron para facilitar el trabajo pero su empleo es igual que manejar un vehículo o una bicicleta: debemos aprender a hacerlo y luego ejecutarlo de manera automática. Este folleto pretende ser una memoria que puede ser consultada en cada momento que se deba realizar una operación particular.
3
El complemento para análisis de datos:
De lo primero que nos debemos asegurar es de que el programa esté bien instalado y tenga todas las funciones activas para poderlas emplear. Es muy común que cuando se instala el programa por primera vez en la computadora se le pida que haga una instalación típica que ahorra espacio de disco; el problema con esta opción es que el programa no instala los complementos y cuando se le solicite activarlos va a pedir que introduzcamos de nuevo el CD original del programa. La opción que se debe seleccionar es la de “instalación completa”. Una vez instalado el programa debemos activar los complementos para el análisis de datos:
El menú principal se despliega al pulsar en el icono de la esquina
Para continuar con la activación de funciones se debe pulsar en el icono de “opciones de Excel”
el icono de opciones lleva a una pantalla donde se encuentra una lista extensa de operaciones distintas que se pueden realizar con la hoja electrónica. Primero hay que marcar donde dice “complementos”(1) para que aparezca la lista (2) que
4
está a la derecha en la ilustración siguiente, luego se marca en la lista de complementos donde dice “herramientas para análisis”(3) y por último en “ir”(4)
2
3 1
4
5
Hay que asegurarse en esta nueva pantalla que las casillas junto a “herramientas para análisis” estén marcadas; esto es precisamente lo que habilita los complementos para poder utilizarlos con la hoja electrónica. Por último, solo se pulsa en “Aceptar”; si al hacer esta última operación aparece un rótulo que dice: inserte el disco, eso quiere decir que el programa fue instalado en modo “típico” y no completo. En este caso no queda más que volver a instalar el programa.
Una vez marcadas las casillas de las herramientas para análisis, en la barra de menú de EXCEL va a aparecer el ícono que nos lleva hasta la pantalla donde se selecciona la operación que deseamos:
en el menú de datos, al final de la barra de herramientas aparece “análisis de datos” que al pulsar ahí con el cursor, aparece la pantalla donde están todas las operaciones estadísticas pre programadas que tiene EXCEL.
6
El formato columnar de los datos: Se ha hecho una costumbre a la hora de introducir datos en la hoja electrónica utilizar el formato de cuadro:
el principal problema de este tipo de formato es que por cada una de las variables que se hallan evaluado habrá que construir un nuevo cuadro y repetir, una y otro vez, los rótulos de hileras y los rótulos de columnas; además, es una costumbre también no transcribir los datos como tales sino que lo que se introduce a la hoja electrónica son promedios. Esta costumbre tiene dos problemas significativos: 1) aumenta el trabajo “manual” puesto que hay que calcular los promedios (presumiblemente con una calculadora) antes de introducir el dato a la hoja electrónica; 2) desde el punto de vista estadístico, se pierde la oportunidad de poder calcular alguna medida de variación entre los datos que se eliminan por medio de la operación para calcular el promedio y eso podría haber sido importante desde el punto de vista de la comprensión del problema que se estudia.
7
Variables evaluadas
Criterios de clasificación
Todos los cuadros que se ocupen pueden ser construidos por la misma hoja electrónica y con el mínimo esfuerzo, pero para hacerlo debemos introducir los datos en un formato columnar para el que debemos identificar previamente los “criterios de clasificación” y las variables que se van a evaluar.
La tabla dinámica La tabla dinámica es quizás la herramienta más versátil con que cuenta el programa EXCEL. Desde el punto de vista práctico es de suma ayuda para la confección de cuadros y desde el punto de vista estadístico es la base para varios tipos de procedimientos de análisis. Es muy importante para la tabla dinámica que los datos hayan sido introducido en la hoja electrónica utilizando el formato columnar y que no se haya cometido el error de combinar en una sola columna dos criterios de clasificación; es necesario recordar la regla: un criterio de clasificación, una columna, una variable, una columna.
8
En el menú “insertar” al principio de la barra de herramientas, es que está el icono para introducir una tabla dinámica para trabajar con los datos. Existe la opción de gráficos dinámicos también, pero la figura que se genera por este medio no permite introducir barras de error, por ejemplo, como se verá posteriormente.
Posible destino de la tabla dinámica
La solicitud de introducir una tabla dinámica lleva a una pantalla de diálogo típica de EXCEL donde se pide definir la procedencia de los datos con que se va a trabajar y la posición donde se quiere ubicar el resultado del proceso, en este caso: la tabla dinámica. Existen dos posibles destinos para la tabla dinámica
9
que se construye, uno puede ser en una hoja de cálculo nueva que el programa agregaría en caso de escoger esta opción, o en una hoja que ya existe en cuyo caso se debe marcar un punto que indique el inicio de la posición de la nueva tabla dinámica; tal es el caso de la figura que se muestra anteriormente.
Una forma de construir la tabla dinámica es arrastrando desde el la lista de campos, que aparece a la derecha de la futura tabla dinámica, hasta las casillas de debajo de esa misma lista donde hay una casilla por cada una de las partes de la tabla: columnas, filas, valores y filtros. La segunda manera no es quizás la más sencilla pero si es la que produce el resultado más adecuado.
Con el cursor sobre la futura tabla dinámica se pulsa el botón derecho del “mouse” para que aparezca el menú donde está “opciones de tabla dinámica”, esto con el fin de cambiar el esquema sobre el que se construye la tabla.
10
En la pantalla de diálogo para las opciones de la tabla dinámica se debe buscar la cejilla “Mostrar” en la que se debe marcar la casilla donde dice “Diseño de tabla dinámica clásica”
El diseño clásico permite arrastrar con el “mouse” las variables o los criterios de clasificación que se deseen colocar en el cuadro de doble entrada que genera la tabla dinámica: El diseño clásico muestra la posición de las columnas, hileras y datos y, además, muestra el nombre de la variable o del criterio de clasificación en la tabla resultante.
De la lista de campos que hay a la derecha se pueden arrastrar los criterios de clasificación a la posición de la fila, de la columna o del filtro, y las variables a la posición de datos. Es importante recordar que en la posición de fila, columna o filtro solo pueden ir criterios de clasificación, esta es la razón por la que cada uno debe ir en una columna separada, para que EXCEL lo reconozca como una variable o un criterio individual; si se hubiera confundido dos o más
11
criterios, como se muestra en la figura siguiente, hubiera sido imposible confeccionar una tabla dinámica.
En esta base de datos se han fusionado todos los criterios de clasificación por lo que sería imposible fabricar una tabla dinámica con estos datos y, por lo tanto, se estaría impidiendo el uso de esa herramienta tan útil.
Cursor
Observe que aparece el encabezado con que se identificó la columna de cada uno de los criterios de clasificación; en este caso: “Finca” y “Vigor” y como encabezados de las filas y las columnas de la tabla dinámica aparecen los distintos niveles de cada uno de los criterios seleccionados. Conforme se trasladan los criterios de clasificación y las variables a la tabla dinámica, los encabezados que los identifican en la base de datos aparecen en las casillas correspondientes.
12
Es importante saber que el cursor toma una forma especial cuando se está construyendo una tabla dinámica. En la ilustración se introdujo la figura del cursor con el fin de ver el significado y la utilidad de dicha forma. El cursor en este caso es un esquema de la tabla dinámica que está construyendo y las partes cambian de color si la variable que se arrastra está encima del campo para los rótulos de columna o encima del campo para rótulos de fila o en el campo de filtro o de datos; en casa uno de esos casos la parte correspondiente del cursor se torna azul para indicar dónde se va a descargar la variable que se arrastra. En la ilustración siguiente está en azul (gris oscuro) el cuadro de datos en el cursor ya que la variable “Materia orgánica” se encuentra sobre el cuadro de datos de la tabla dinámica.
Filtro
Rótulos de fila
Rótulos de columna
Datos
Es de suma importancia estar atento al sitio del cursor que se torna azul para saber exactamente donde se está colocando un criterio de clasificación o una variable. El resultado final es la tabla dinámica, pero no necesariamente es lo último que se puede hacer con los criterios de clasificación y la variable incluidos en ella ya que la tabla construida es –como su nombre lo indica – dinámica, y se puede cambiar todo lo que se ha puesto en ella, no solo por nuevos criterios o variables sino que también sus posiciones para llenar las expectativas del trabajo
13
que se esté realizando, el informe que se esté escribiendo, o el artículo que se esté redactando. Por eso es también importante para hacer estos cambios reconocer por el sector que se torna azul en el cursor, el lugar de donde se está tomando el criterio y hacia donde se está llevando en el caso de que se desee un arreglo diferente de la tabla dinámica; de igual forma, si la variable que se introdujo en “Datos” se desea cambiar por otra para fabricar un nuevo cuadro, la variable simplemente se arrastra de vuelta a la lista de campos a la derecha de la tabla dinámica (esta lista siempre aparece cuando se pulsa en cualquier sitio de la tabla dinámica) y se selecciona una nueva variable que abría que colocar en la tabla para tener así de sencillo un nuevo cuadro.
En este caso no se está utilizando ningún filtro, observe que la casilla de filtro se encuentra vacía, mientras que las otras tres muestras la variable que se seleccionó.
Generalmente, la tabla dinámica calcula un total (suma) de la variable seleccionada; en este caso existe un valor de materia orgánica para cada perfil en cada una de las profundidades en que se evaluó, sin embargo, en esta tabla solo se desea la clasificación de “finca” y nivel de “vigor” de las plantas por lo que el programa suma los valores de “materia orgánica” correspondientes a estas clasificaciones y los presenta en el cuadro. También la tabla dinámica presenta de entrada los totales de filas y de columnas, así como un gran total, esto a veces es necesario a veces no. Al igual que la posición de todo, tanto la suma de “materia orgánica” como la presencia de totales de filas y de columnas se pueden cambiar de acuerdo con las necesidades del trabajo.
14
Si se pulsa con el botón izquierdo del “mouse” sobre el nombre de la variable en la casilla de “valores”, en este caso “materia orgánica”, se abre la pantalla de diálogo que permite configurar de otra manera la operación que el programa hace con esta variable en la tabla dinámica. En esta pantalla de diálogo hay que pulsar sobre el comando “configuración del campo de valor”. Esta pantalla de diálogo abierta permite cambiar de lugar los criterios o las variables, sin embargo es mucho más sencilla la operación de arrastrar la variable o el criterio utilizando el “mouse” y sus indicaciones.
La pantalla para reconfigurar la tabla dinámica permite cambiar la suma por un promedio, un valor máximo o mínimo, la cuenta, la desviación estándar, la variancia y además se le puede cambiar la forma en que va a aparecer el nombre a la variable en la tabla dinámica.
15
De nuevo, la pantalla de diálogo cuando se pulsa con el botón derecho del “mouse” sobre la tabla dinámica para que aparezca la pantalla que permite accesar las opciones de la tabla
En la ilustración anterior se muestra la pantalla de “opciones” de tabla dinámica, en la cejilla que dice “totales y filtros” hay dos casillas identificadas como “Mostrar totales generales de las filas” y la otra “Mostrar
16
totales generales de las columnas”, si se desean estos valores se debe colocar una marca en cada una de las casillas, si por el contrario, no se desean estos valores hay que quitar la marca. Junto al encabezado de los rótulos de fila y de columna aparece una flecha que indica que se puede desplegar un menú. En este caso la ilustración muestra la pantalla de diálogo que se muestra al pulsar la flecha junto a “Finca”; observe que se presenta la opción de ordenar los niveles (nombres de las fincas) de este criterio y, además, se tiene la posibilidad de excluir alguna de las fincas con solo eliminar la marca de la casilla junto a cada una de ellas El éxito de la tabla dinámica ahorrando trabajo radica en que se puede copiar el contenido de la tabla y pegar los valores en otro sitio, de esta manera, se tiene un cuadro con una determinada variable y con una determinada combinación de criterios; una vez copiada, la tabla puede ser modificada para crear otro cuadro totalmente distinto y llevarlo a otro sitio por medio de la misma operación de copiar valores. De esa manera una única tabla dinámica puede proveer TODOS los cuadros que se necesite construir con la información de una base de datos.
El uso del filtro: El filtro es un recurso muy importante que permite aumentar las posibilidades para la construcción de cuadros utilizando las tablas dinámicas. Es adecuada esta sección para discutir también la posibilidad de transformar una variable en criterio de clasificación, no porque sea necesario para la utilización del filtro, sino que es un procedimiento que a veces es necesario usar.
17
Con este ejemplo es útil el procedimiento de transformar una variable en categorías ya que a pesar de tener cuatro criterios de clasificación, “Perfil” y “Profundidad” tienen muchos valores como para utilizarlos como un criterio de clasificación directamente ya que no producirían cuadros útiles. Si se transforma, por ejemplo, profundidad a categorías, sería mucho más sencillo emplearla como criterio de clasificación en la construcción de cuadros.
Primero que nada se crearon tres categorías de profundidad: 1) de 0 cm a 20,5 cm, 2) de 20,5 cm a 50,5 cm y 3) de 50,5 cm a 100 cm. Estos límites de clase se seleccionaron arbitrariamente, aunque tomando en cuenta un poco las necesidades de las plantas: la mayor cantidad de raíces de absorción se encuentran en los primeros 20 cm de profundidad del suelo, la mayoría de las raíces se distribuyen en los primeros 50 cm, y generalmente los cultivos anuales no tienen raíces que superen los 100 cm. Segundo, se utiliza una “fórmula condicional” para cambiar el valor de profundidad real por la categoría correspondiente: la lógica de este proceso es que si el valor real está entre 0 cm y 20,5 cm deberá leerse “Poco profundo”, si está entre 20,5 cm y 50,5 cm deberá leerse “Medio” y si está entre 50,5 cm y 100 cm deberá leerse “Profundo”. La sintaxis de la fórmula condicional en este caso es la siguiente:
la prueba lógica es cualquier igualdad que se plantee; en el caso de este ejemplo, la prueba lógica es: SI(valor real de profundidad pertenece a la primera categoría; Poco profundo; ………….”
18
Además de la prueba lógica en la expresión anterior se incluye el [valor SI verdadero], esto es: si la prueba lógica resulta ser verdadera, la respuesta del programa debe ser “Poco profundo”. Sin embargo, en este caso se tiene un problema, y es el hecho de que cada categoría tiene dos criterios que debe superar el valor real: el valor real debe ser mayor que 0 cm y debe ser menor que 20,5 cm al mismo tiempo para poder pertenecer a la categoría “Poco profundo”, por esa razón se debe utilizar otra fórmula condicional “anidada” dentro de la primera, que permite la evaluación simultánea de dos o más pruebas lógicas. Esta otra fórmula es: ó
1 ;
ó
2 ; …
El significado de esta fórmula es que si se cumplen simultáneamente todas las pruebas lógicas que se incluyan en la sintaxis de la fórmula el resultado será la palabra “VERDADERO”, si alguna de las pruebas lógicas no se cumple, el resultado será la palabra “FALSO”. Por lo tanto, en la sintaxis de la primera fórmula condicional, la prueba lógica real es:
20,5
0 ; " #$%&'&$%(; )
;…..
En términos del ejemplo que se utiliza en esta sección, y por medio de las referencias de celda, se tiene: &2
$ $5; &2
$,$5 ; $-$5; … . .
Observe que no se emplea el término “VERDADERO” ya que el programa está diseñado para asumirlo en caso de que no se ponga, y de esa manera se ahorra bastante espacio en la redacción de la fórmula. Los signos de “dólar” antes y después de algunas referencias son simplemente3 para indicar al programa que estas referencias son FIJAS y que no se moverán cuando la fórmula se copie para todos los demás valores de profundidad. Queda un asunto por explicar en esta sintaxis: el valor del SI FALSO, ¿cuál debe ser la respuesta si no se cumple la prueba lógica? Si se tuvieran solo dos categorías, la respuesta sería muy sencilla: si no se cumplen las condiciones de la primera categoría necesariamente el valor tendría que pertenecer a la segunda categoría. Pero en este caso se tienen tres categorías, y en algunos otros casos podría haber más. Si no se cumplen las condiciones de la primera categoría es necesario evaluar si el valor de profundidad pertenece a la segunda
19
categoría, y de nuevo en este caso se tienen dos condiciones que cumplir, por lo que se vuelve al mismo esquema que se explicó para la primera categoría:
si no se cumplen las condiciones de la segunda categoría tampoco, entonces el valor de profundidad tiene que ser de la tercera y última categoría. Una vez concluida la fórmula se copia para todos los valores de profundidad, de esa manera ahora se tiene un criterio de clasificación en tres niveles: Poco Profundo, Medio y Profundo, en vez de la gran cantidad de valores que presentaba la variable Profundidad antes. Con este procedimiento concluido, la base de datos ahora tiene un criterio de clasificación más: FINCA, VIGOR, PROFUNDIDAD que pueden servir para aumentar las posibilidades de estudio de este cultivo; por ejemplo, se podría evaluar si el contenido de materia orgánica varía en el perfil del suelo de distinta manera en las fincas estudiadas y si esta variación diferencial es la que tiene que ver con las diferencias en el vigor aparente de las plantas.
El nuevo criterio de clasificación ahora está en filtro y permite seleccionar si se desea un cuadro con los contenidos de Materia orgánica para el nivel POCO PROF, MEDIO o PROFUNDO. En este caso se tendría tres cuadros de promedios y no solo uno.
20
Algunas figuras importantes: Probablemente las figuras más importantes que se debe aprender a construir son la figura de columnas con barras de error y la figura de líneas también con barras de error; las figuras como pastel y columnas o líneas sin barras de error son bastante sencillas de hacer. Lo primero que hay que recordar para construir una figura de columnas con barras de error es “¿de dónde viene la barra de error y qué significa?”. Se llama intervalo de confianza en estadística a un par de números entre los cuales se estima que estará el valor de la media de la población (parámetro) con una determinada probabilidad de acierto. Es importante recordar que los IC se calculan a partir de muestras, esto es, estimadores ( ) del parámetro media (µ):
µ
la ilustración anterior muestra los IC (rayas verticales) de 50 muestras aleatorias escogidas de una misma población; de esos 50 IC 2 no contienen el valor de µ, esto es un 4% de los IC no contiene el valor del parámetro poblacional. Po resta razón es que se dice que el IC tiene una probabilidad de 95% de contener el valor del parámetro, en este caso, el valor de la media poblacional (µ). El IC se calcula con los valores muestrales que se obtengan:
Donde
es un valor constante de 1,96 que generalmente se
redondea a 2. El valor de Z se utiliza siempre y cuando el valor de “n” (tamaño de
21
la muestra) sea superior a 12, si es inferior se tiene que utilizar un valor de “t” con “n – 1” grados de libertad. De acuerdo con la fórmula, para construir un IC se requiere del valor de la media ( ), el valor de la desviación estándar (S) y el tamaño de la muestra (n) (otra forma de ver el valor de “n” es ¿cuántos valores se sumaron para calcular el promedio con que se está trabajando?). Las tablas dinámicas son capaces de producir los valores necesarios para construir los IC (barras de error). Por ejemplo: Desvest de Materia Orgánica
Promedio de Materia Orgánica Finca C Cart EE LJ PV SP
Vigor Bueno Medio Pobre 3,28 3,32 4,95 2,81 1,65 1,81 4,24 4,33 1,43 1,49 1,56 2,72
Finca 4,23 4,58 4,06 4,74 2,50 1,92
C Cart EE LJ PV SP
Vigor Bueno Medio Pobre 3,3131878 3,37610063 3,28442302 1,79929005 2,89752727 2,18793524 2,34231794 1,74686084 3,43822066 2,60494751 2,20549039 2,53473625 0,91122555 0,44604985 1,86370113 1,87954696 2,78102951 1,88096544
Cuenta de Materia Orgánica Finca C Cart EE LJ PV SP
Vigor Medio
Bueno 18 12 12 12 12 12
Pobre 14 14 12 12 12 12
17 12 12 12 12 12
estos cuadros se obtienen manipulando en la tabla dinámica la configuración del campo del valor, en este caso: “Materia orgánica”. En el primer paso se le solicita el promedio, se selecciona toda la tabla dinámica, se copia con los promedios, y se hace un pegado especial de los valores en algún sitio donde se va a construir la figura. Luego se cambia de nuevo la configuración del campo de valor y se solicita la desviación estándar; se copia y se pegan los valores; y por último, se pide la cuenta en la configuración del valor y se copia el último cuadro.
2
3 1
Al pulsar en la casilla de “valores” (1) aparece la pantalla de diálogo que permite cambiar la configuración del campo (2); este comando a su vez lleva
22
a la pantalla “configuración del campo de valor” (3) donde se puede cambiar a promedio, a desviación estándar, o a cuenta como en el caso de la ilustración.
Una vez seleccionada toda la tabla se le puede pedir “copiar” ya sea utilizando el ícono en el menú de “Inicio” o pulsando el botón derecho del “mouse” con el cursor en cualquier punto sobre la tabla dinámica. Para empezar la figura es necesario tener listo el cuadro donde se calcula el factor que se suma y se resta a la media para calcular el IC.:
23
en la ilustración anterior se presenta el cuarto cuadro con la fórmula que calcula el factor que se suma y se resta al promedio para construir el I.C. Observe que los valores son 12 o superior a 12 por lo que se utiliza el valor de Z = 1,96. C14 en la fórmula es la desviación estándar y C24 es la cuenta específica para el cálculo de esta primera celda; luego la fórmula se copia en ambas direcciones, como lo indican las flechas de la ilustración, para rellenar el cuadro. Una vez que se tenga los cuadros de promedios y los cuadros donde se calcula el factor que se debe sumar y restar para construir el I.C., de todas las variables que se desea trabajar, se puede empezar a construir las figuras. Es importante recordar que para obtener los cuadros necesarios solo hubo que construir UNA tabla dinámica, a la que se le puede cambiar la variable de datos, los criterios de clasificación en filas y en columnas, y también la configuración del campo, ya sea promedio, desviación estándar o cuenta. Para construir una figura de columnas es sumamente sencillo: se selecciona el bloque de datos con sus respectivos encabezados:
2
3
1
4
Se selecciona el bloque de datos (1) con los encabezados, luego, en el menú de “Insertar” (2) se pulsa sobre el tipo de figura “columna” (3) que despliega una serie de opciones (4). En este caso se selecciona la primera opción.
24
Si se pone atención al proceso para hacer esta figura es perfectamente posible derivar de aquí las instrucciones necesarias para desarrollar cualquier otro tipo de figura, puesto que el procedimiento es el mismo; solo se tiene que tener el cuidado de seleccionar la figura indicada en el menú de “Insertar” y de ahí en adelante, la edición de la figura resultante, es similar para todas. Lo único que cambia es la posibilidad de agregar barras de error que tiene la figura de columnas y la de líneas.
1 2
3
Al seleccionar la figura que se construye aparece sobre el menú la cinta “Herramientas de gráficos” (1) que cambia las opciones en la barra de herramientas. Observe que la figura no tiene títulos en los ejes y en la ilustración tiene la finca como criterio de clasificación en el eje X y el vigor es el criterio que define las tres series; esta posición se puede invertir dentro de este menú de “Diseño” (2) en la sección de “Datos”; también se puede escoger el estilo de figura (3), con títulos en los ejes o con algunos otros detalles más, seleccionando la plantilla adecuada en la sección “Diseño de gráfico” del mismo menú. También se puede cambiar la apariencia de las columnas, el tamaño de las letras, la fuente de esas letras, el número de decimales para los niveles en el eje Y, la apariencia del área de trazado del gráfico, o del área del gráfico, etc. Sin embargo, al ser todos estos aspectos de la estética de la figura, y al ser la estética algo personal, es importante que cada persona experimente con los
25
distintos comandos que le ofrece el programa y desarrolle su propio procedimiento para la confección de figuras desde el punto de vista de apariencia. 3
2
4 5
1
6
Se selecciona la columna a la que se va a agregar la barra de error (1), esto hace que aparezca la cinta “Herramientas de gráfico” (2). Dentro del menú de “Presentación” (3) está el comando de “Análisis”(4) y dentro de este comando está “Barras de error”(5); presenta algunas opciones, sin embargo, la opción más adecuada es pulsar en la barra que dice “Más opciones de barras de error”(6).
1
4
3 2
26
El comando de “Más opciones de barras de error” lleva a una pantalla de diálogo donde se selecciona la opción que dice “Ambos” (1) en el recuadro que se llama “MOSTRAR”, luego “Personalizado” (2) en el recuadro “Cuantía de error” y, por último, se pulsa en “Especificar valor” (3) que lleva a la pantalla donde se introducen los valores calculados para el factor que se suma y se resta del promedio (4).
Se está trabajando la columna que representa al vigor “Bueno”, por lo tanto, es el bloque de valores calculados para esta clasificación de vigor la que se introduce en las pantallas que le van a indicar al programa cuánto tiene que sumar al promedio y cuánto tiene que restar. Este procedimiento se repite para cada una de las series; la figura resultante sería:
27
Las figuras de líneas con las barras de error se construyen de la misma manera solo que en vez de seleccionar columnas para agregar las barras de error, se seleccionan líneas.
La diferencia entre Desviación estándar y Error estándar La pregunta que con mayor frecuencia se hacen estudiantes y profesores por igual es ¿cuál es la diferencia entre desviación estándar y error estándar?, ¿cuál es el término que debe acompañar a la media en los cuadros o figuras de un informe o de una publicación? El problema es que con mucha frecuencia se tiende a utilizar ambos valores intercambiablemente, como si su significado y función fueran los mismos: describir la variabilidad de los datos; sin embargo, ambos índices, aunque relacionados, son conceptualmente muy diferentes. La desviación estándar es una medida de la dispersión de los datos, cuanto mayor sea la dispersión mayor es la desviación estándar, si no hubiera ninguna variación en los datos, es decir, si fueran todos iguales, la desviación estándar sería cero. En investigación, como es sabido, casi nunca se trabaja con la población completa, si no que se trabaja con muestras, siempre y cuando estas muestras se seleccionen aleatoriamente de la población y que los distintos componentes de la población se encuentren representados en la muestra más o menos en la misma proporción en que están en la población; obviamente, entre mayor sea la muestra, mayor será la similitud entre esta y la población. El error estándar es el índice que cuantifica cuánto se apartan los valores en la muestra de sus correspondientes valores en la población. Es decir, el error estándar de la media que cuantifica las oscilaciones de la media muestral alrededor de la media poblacional; no es por tanto un índice de variabilidad, aunque depende de ella, sino una medida del error que se comete al tomar la media calculada en una muestra como estimación de la media de la población. Existe el error estándar, no solo de la media, sino de todas las medidas que se obtienen en las muestras (por ejemplo, existe el error estándar de la desviación estándar) y siempre cuantifica la diferencia entre el valor muestral y el valor
28
poblacional. A partir del error estándar se construye el intervalo de confianza de la medida correspondiente. La fórmula para calcular el error estándar es:
S e.e. = n e.e.= error estándar S = desviación estándar n = los datos en la muestra
Conceptos importantes: • La desviación estándar es una medida de la dispersión de los datos, mientras que el error estándar cuantifica la diferencia entre el valor muestral de una medida y el valor poblacional. • Desviación estándar y error estándar son conceptualmente distintos aunque relacionados. • La desviación estándar se utiliza para describir la variabilidad de los datos en una muestra. • El error estándar se utiliza para cuantificar el error cometido al estimar una medida poblacional a partir de una muestra.
Análisis de datos: Una vez habilitado el comando de análisis de datos que se explicó en la primera sección, es muy sencillo realizar todos los procedimientos preprogramados que tiene EXCEL ya que la mayoría de ellos presentan pantallas de diálogo similares: 1) se debe definir con cuáles datos se desea trabajar (ENTRADA), 2) se debe definir dónde se quiere ubicar el resultado (SALIDA), en algunos casos, además, se debe definir qué es lo que se desea hacer con los datos.
29
Estadística descriptiva: En el principio de casi todo problema de análisis de datos es importante familiarizarse con las poblaciones con que se trabaja. En términos estadísticos, las poblaciones son los conjuntos de individuos (vegetales o animales) que intervienen en el trabajo cotidiano del agrónomo, representados por conjuntos de datos (conteos o mediciones), que se toman de una muestra representativa de esos individuos y que son las unidades de trabajo estadístico. Las poblaciones generalmente presentan un comportamiento similar a la ilustración siguiente:
α
α
2
2
X S
S
S
S
Numéricamente, esa misma población se representa por medio de la Media (promedio) y la Desviación estándar (S); de acuerdo con la figura anterior, la media indica el centro de la población, o en otras palabras: el punto alrededor del cual se concentra la mayor cantidad de individuos; y la desviación estándar es una medida de la variabilidad de la población que dice qué tanto se dispersan los datos con respecto a la media o qué tan amplia es la “campana” que representa a la población. La campana puede ser sesgada o simétrica pero siempre se va a tener un acumulamiento alrededor del promedio y una cola a cada lado que indica que la cantidad de datos siempre es escasa conforme se aproxima a los extremos. Todas las mediciones o conteos que se hagan en seres vivos presentan este tipo de comportamiento. Por lo tanto, si se tiene el promedio, la desviación estándar y el sesgo de una población, se puede saber con bastante certeza cómo es la “campana” de dicha población.
30
1
2 3 4
5
En el “rango de entrada” (1) se marca el bloque de datos con que se trabaja; hay que indicar si los datos están dispuestos en columnas o hileras (2) y, se debe indicar que se incluyen los encabezados (3)o no. Es necesario indicar donde se desea el resultado (4) y, en este caso, hay que indicar qué tipo de resultado (5)se espera. Todas las medidas mencionadas son valores que se obtienen dentro de un resumen de estimaciones que EXCEL denomina ESTADÍSTICA DESCRIPTIVA y que es un procedimiento pre-programado.
31
Se puede tomar el caso del Potasio como ejemplo: la media es de 0,90 y la mediana 0,39, por lo tanto el sesgo es: 0,90 – 0,39 = 0,51 positivo, lo que indica que la distribución está sesgada a la izquierda (si el sesgo es negativo, la distribución está sesgada a la derecha). El Coeficiente de Variación (la desviación estándar entre la media por 100) es: (1,17/0,90)*100 = 129,48% que indica que es una distribución muy amplia, o lo que es lo mismo: una variable MUY variable.
X1
X2
Debido a este comportamiento de las poblaciones de seres vivos es que la comparación entre poblaciones se hace un poco más complicada que una simple comparación de medias como se ilustra en la figura anterior; las medias obviamente son numéricamente distintas ( ) pero no se puede decir que las poblaciones a las que pertenecen sean distintas ya que traslapan en un buen grado; el traslape lo que dice es que hay valores que igual pertenecen a una o a otra población. Suponga que cada una de esas poblaciones de la ilustración representan variedades de frijol, se seleccionaron una gran cantidad de plantas de cada variedad y por aparte se cosecharon, las cosechas de cada una de esas plantas es la que viene a construir la distribución que se ilustra; se puede decir entonces que las pantas de más producción de la variedad 1 son comparables a las plantas de menor producción de la variedad 2 y por eso se da el traslape; en realidad no son tan diferentes las variedades como para haber producido distribuciones diferentes sin ningún traslape entre ellas.
32
X1
X2
En la ilustración anterior, las medias son numéricamente distintas pero, además, las poblaciones no muestran traslape por lo que en este caso si se puede decir que las medias son estadísticamente distintas. Puede ser que el traslape sea apenas entre las “colas” de cada una de las distribuciones, como se ilustra en la figura siguiente; en este
X1
X2
caso las medias también son “estadísticamente” diferentes ya que siempre, en toda comparación, las colas no se toman en cuenta, dado que ahí se concentran los valores de menor frecuencia en las poblaciones. Siguiendo el ejemplo de las variedades de frijol, en las colas estarían algunas (muy pocas) plantas que producen mucho o que producen MUY poco, pero por ser tan escasas en la población generalmente no tienen gran impacto en el cálculo del promedio. Observe en la figura que se muestra al inicio de esta sección de estadística descriptiva, se presenta el intervalo de confianza como la reunión de cuatro segmentos del tamaño de la desviación estándar, y este intervalo de confianza no incluye las colas de la distribución; por lo tanto, estadísticamente son distintas dos medias si sus intervalos de confianza NO traslapan, y esta afirmación conduce a la estadística inferencial donde las comparaciones son importantes.
33
Pruebas de “t”: El procedimiento y las ilustraciones que se presentaron anteriormente podrían ser la forma de hacer comparaciones graficamente. Se debe tener en cuenta que para obtener exactamente el 95% de área bajo la campana no es exactamente dos desviaciones las que se suman y dos las que se restan (para encontrar los valores límite del intervalo de confianza), sino que es +1,96 x S y -1,96 x S.
-1,96
-1,96
El sector gris bajo la campana representa el 95% del área total y las colas cuadriculadas son apenas el 5% (2,5% de cada lado)
Un estadístico en el pasado, conocido por el pseudónimo de “Student” se puso a estudiar qué sucedía con las comparaciones cuando las muestras eran pequeñas, como en la mayoría de los ensayos en agricultura, y encontró que la forma de la campana se achata y que por lo tanto el área comprendida entre los valores -1,96 y +1,96 no es el 95% del área total bajo la campana.
-?
34
+?
Student, encontró que entre más pequeña es la muestra más grandes tenían que ser los valores que enmarcan al 95% del área total: n
Lim. Inf
Lim. Sup.
14 13 12 11 10 9 8 7 6 5 4 3
-2,51 -2,53 -2,56 -2,59 -2,63 -2,69 -2,75 -2,84 -2,97 -3,16 -3,50 -4,18
2,51 2,53 2,56 2,59 2,63 2,69 2,75 2,84 2,97 3,16 3,50 4,18
Al procedimiento para comparar dos muestras pequeñas se le denomina Prueba de “t” en honor al estadístico anónimo que realizó el estudio (Student). Otro aspecto que Student observó es que las co comparaciones entre muestras pequeñas se ven altamente influenciadas por las variancias de las muestras: si las variancias de ambas muestras son iguales, no hay problema pero si las variancias son distintas, hay problemas. Observe el siguiente diagrama:
Los intervalos de confianza traslapan pero hay una gran diferencia entre ambos: hay un intervalo que es MUY amplio, producto de una GRAN variancia, mientras que el otro intervalo es estrecho, producto de una variancia pequeña. La pregunta es: ¿los intervalos intervalos traslapan porque las muestras m son iguales estadística estadísticamente mente hablando, o porque las variancias de las muestras son muy diferentes? Con las muestras grandes (n > 30), generalmente las variancias son muy “estables” porque están muy bien estimadas con la gran gran cantidad de datos que se toman en cuenta, pero en las muestras pequeñas la estimación de la
35
variancia a veces no es muy buena, sobre todo si la muestra se toma de poblaciones MUY variables. Para comparar dos muestras pequeñas, entonces, se debe hacer dos pruebas en realidad: la primera es una prueba para determinar si las variancias son iguales o son distintas, y luego la verdadera comparación entre los promedios de cada una de las muestras. Si dos variancias son iguales, al dividir una entre la otra el resultado debe ser 1 (uno); cualquier resultado diferente de esto mostraría a dos variancias distintas. La pregunta es ¿qué tan distintas son las variancias? La figura siguiente muestra la probabilidad que tendrían los distintos resultados de dividir dos variancias, suponiendo que una crece con respecto a la otra y, por lo tanto, el resultado de dividirlas va a crecer igual. 1 0,9
Probabilidad
0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0
2
4
6
8
Valor de F
Al valor resultante de dividir dos variancias se le denomina “F” en honor a otro gran estadístico que estudió este fenómeno, su nombre era Sir Ronald Aylmer Fisher. La probabilidad de obtener un valor de F disminuye conforme el valor de F se hace más grande; esto quiere decir que en la naturaleza es muy poco frecuente tener variancias muy distintas; en otras palabras, obtener al azar un valor de F muy grande es muy poco probable; por eso es que si encontramos un valor elevado de F se le considera significativo.
36
En el ejemplo a continuación se presenta una prueba simple: un hato de 26 vaquillas de la misma raza Holstein, estado sanitario, lactancia y edad similares; se dividió en dos grupos de 13 animales. Todos los animales seleccionados tenían registros muy similares, de modo que se pudiera garantizar que ambos grupos de vacas fueran homogéneos y que no hubiera diferencias entre ellos que luego se pudiera confundir con un efecto del tratammiento con Vitamina A. Un grupo siguió comiendo la misma dieta (control) y el otro grupo comió la misma dieta pero con un aditivo de Vitamina A que el mercado recomienda como un producto que ayuda a la ganancia de peso de los animales y a la mayor producción de leche. Antes de que los animales iniciaran con sus dietas diferenciadas se pesaron; al cabo de un tiempo se volvieron a pesar y se determinó la ganancia de peso para cada animal; esos son los datos que se presentan en el siguiente cuadro: Control Vitamina A
175 149 142 199
132 187 311 236
218 123 337 216
151 248 262 211
200 206 302 176
219 179 195 249
234 206 253 214
La hoja electrónica EXCEL tiene una serie de operaciones cuyo procedimiento ya ha sido establecido como un estándar; dentro de esas operaciones está la comparación de medias cuando las muestras son pequeñas. Esta coparación puede darse de varias maneras: 1) puede ser que ambas muestras sean del mismo tamaño y que las variancias sean iguales, 2) puede ser que las muestras sean de diferente tamaño y las variancias iguales, o 3) puede que las muestras sean iguales o diferentes pero las variancias distintas.
37
La ilustración anterior muestra el procedimiento primero de la comparación de muestras que es la comparación de variancias, mediante lo que se denomina una prueba de F.
Indicación de que los datos de cada una de las muestras se introducen con todo y el encabezado
Como cualquier pantalla de diálogo para una función de EXCELL, esta pantalla tiene una parte en donde se le define la ENTRADA y otra parte donde se define la SALIDA. El resultado que se presenta en el cuadro siguiente dice que la probabilidad de encontrar al azar un valor de F = 2,03 (esto es que una variancia es 2 veces mayor que la otra) es de 11%, valor que se puede considerar bajo y por lo tanto significativo, lo que querría decir que las variancias de las muestras son distintas; o se puede seguir la tradición de que las probabilidades mayores a 5% no se consideran significativas, y por lo tanto estas dos variancias son iguales estadísticamente hablando. En este caso se considerarán las variancias iguales.
38
Una vez comprobado que las variancias son iguales se procede a hacer la comparación entre las medias de las muestras. En el comando de análisis de datos, en la pantalla de diálogo, se selecciona Prueba t para dos muestras suponiendo variancias iguales, si las variancias hubieran resultado estadísticamente distintas, habría que utilizar la otra operación que dice “suponiendo variancias desiguales”.
De nuevo, la pantalla de diálogo de esta operación hay que llenarla con todo cuidado, de modo que los datos de entrada y la ubicación de la salida queden bien identificados. Es importante recordar que si se incluyen los encabezados en el bloque de entrada hay que indicarlo en la casilla correspondiente.
Encabezados
39
El resultado siempre se evalúa en la casilla donde dice “dos colas”; en este caso la probabilidad de que la diferencia entre las medias sea al azar es muy baja (1,14 %) por lo tanto hay que pensar que la adición de Vitamina A en la dieta de los animales produce un aumento significativo en la ganancia de peso.
El análisis de variancia: El análisis de variancia nos permite comparar dos o más medias aritméticas en forma indirecta mediante la evaluación de la variancia. El análisis de variancia es una operación principalmente utilizada para hacer evaluaciones de pruebas planeadas, ensayos o experimentos, para probar lo bueno o lo malo de un producto, una práctica, o en general, un tratamiento. Un ejemplo ficticio, pero realista, aclara este nuevo enfoque para la comparación de medias. Suponga cinco parcelas de frijol, del mismo tamaño,
40
sembradas de la misma variedad, al mismo tiempo y en el mismo lugar, y tratadas de la misma manera a lo largo de todo el ciclo del cultivo.
12,3 11,8 12,0 11,7 11,9 Variancia = 0,053 . . . TOTAL = 59,7
12,0 11,8 12,2 11,7 11,6 0,058 . . . 59,3
12,1 12,0 12,1 11,8 11,8 11,7 12,1 12,1 12,0 11,6 11,7 11,8 11,6 11,5 11,6 0,063 0,057 0,043 . . . . Promedio.de variancias. . . . 59,2 59,1 59,2
0,055
0,055
Variancia de los totales
De cada una de las cinco parcelas se seleccionan cinco plantas al azar y se cosechan; el grano obtenido se pesa y esos son los datos que se encuentran bajo cada una de las “parcelas” en la figura anterior. La similitud de los valores muestra la similitud entre plantas y las diferencias numéricas evidencian la variabilidad propia de todos los seres vivos. Otro aspecto interesante de resaltar es que las variancias de cada una de las parcelas (calculada con los valores de cosecha de cada una de las cinco plantas, para cada parcela) son muy similares entre sí, lo que indica que las parcelas son bastante homogéneas, por esa razón se calcula un promedio de las cinco variancias para representar la variabilidad que existe entre plantas, DENTRO DE LA PARCELA. Los totales de producción de cada parcela son también muy similares y la variancia calculada con esos valores es idéntica al promedio de las variancias de las parcelas, lo que muestra que tanto dentro de las parcelas como ENTRE LAS PARCELAS la única variabilidad que existe es en realidad la variabilidad natural de las plantas de frijol.
41
32,3 31,8 32,0 31,7 31,9 Variancia = 0,053 . . . TOTAL = 159,7
22,0 21,8 22,2 21,7 21,6 0,058 . . . 109,3
12,1 17,0 27,1 11,8 16,8 26,7 12,1 17,1 27,0 11,6 16,7 26,8 11,6 16,5 26,6 0,063 0,057 0,043 . . . . Promedio.de variancias. . . . 59,2 84,1 134,2
0,055
1576,31
Variancia de los totales
Suponga ahora que se agregan fertilizantes distintos a cada una de las parcelas, unos mejores que otros, precisamente ese es el significado del tono diferente de las parcelas en la figura anterior. Observe que los datos de cosecha de cada una de las cinco plantas seleccionadas al azar cambia en cada parcela, sin embargo, las variancias calculadas con los datos de cada parcela no cambian. Esto quiere decir que la variabilidad normal de las plantas no se altera por que se agreguen tratamientos a las parcelas, siempre y cuando todas las plantas dentro de la parcela reciban el mismo tratamiento; esto hace que la producción de todas aumente pero se conserva la variabilidad que existe entre ellas. Por esa razón el promedio de las variancias es el mismo que se tenía cuando a las parcelas no se les había hecho nada. Muy diferente es la situación de los totales de cosecha de cada parcela; estos valores reflejan la producción obtenida bajo el efecto del fertilizante diferente que se agregó a cada parcela, por esa razón los valores son tan diferentes, y al ser diferentes muestran una variancia mayor que ya no refleja solo la variabilidad natural de las plantas, sino que además muestra el efecto causado por la adición de fertilizantes distintos (tratamientos). Al promedio de las variancias se le conoce como la variabilidad DENTRO DE LA PARCELA y a la variancia de los totales se le conoce como la variabilidad ENTRE PARCELAS. Al adicionar tratamientos a las parcelas se altera la
42
variabilidad entre parcelas pero no la variabilidad natural (variabilidad dentro de parcelas) y de esta manera se puede saber si unos tratamientos producen efectos diferentes, esto es, si la variabilidad entre parcelas es significativamente mayor que la variabilidad dentro de parcelas, esto querría decir que los tratamientos son tan diferentes que hacen que los totales de parcelas sean muy distintos y por eso es que la variancia calculada con ellos es significativamente distinta a la variabilidad natural de las plantas; si los tratamientos no tienen ningún efecto sobre las plantas lo más seguro es que obtengamos variancias entre parcelas y dentro de parcelas muy similares.
Supuestos básicos del análisis de variancia La operación de análisis de variancia requiere de condiciones particulares para brindar un óptimo resultado cuando se la utiliza; estas condiciones son tres y se les conoce con el nombre de supuestos básicos del análisis de variancia: 1.
Los datos que se utilicen para hacer el análisis deben ser mediciones, en otras palabras, deben ser variables normales; sin embargo en agricultura se utilizan muchos conteos para hacer las evaluaciones; este tipo de variables discretas violaría el supuesto de normalidad, sin embargo, el procedimiento es robusto al incumplimiento de este supuesto, no obstante, si la muestras son pequeñas, sería conveniente incrementar el tamaño; si el número de repeticiones para cada tratamiento es pequeño, es conveniente evaluar este supuesto.
2.
La variabilidad inducida por los tratamientos debe adicionarse a la variabilidad natural de las plantas, de ninguna manera alterar ese comportamiento natural, por esa razón se dice que la variancia de los totales refleja el efecto de los tratamientos MÁS la variabilidad natural. A este supuesto se le conoce como el supuesto de ADITIVIDAD. El procedimiento de análisis de variancia NO es robusto al incumplimiento de este supuesto que se suele incumplir prácticamente siempre que los datos proceden de diseños donde los tratamientos se evaluaron repetidamente, a lo largo de un tiempo o un ciclo de cultivo. En estos
43
casos lo más indicado es recurrir a otros tipos de evaluación que eliminen el “tiempo” como fuente de variación del análisis.
3.
El tercer supuesto es el de homogeneidad de variancias, lo que significa que cada uno de los tratamientos deben producir una variabilidad similar en las plantas, adicional a la variabilidad natural. El análisis de variancia es robusto al incumplimiento de este supuesto CON IGUAL NÚMERO DE REPETICIONES PARA CADA TRATAMIENTO y no pocas repeticiones, sino que entre más repeticiones menos problemas de este tipo se enfrentan. Es aconsejable hacer la prueba de homogeneidad de variancias de todas formas.
Es de suma importancia vigilar que estos supuestos se cumplan, de modo que el resultado del ensayo analizado por medio de la operación de análisis de variancia sea totalmente válido; para eso debemos tener mucho cuidado a la hora de seleccionar el material con que se va a trabajar, que sea lo más homogéneo que se pueda, también a la hora de seleccionar los tratamientos, es importante que los tratamientos no sean muy diferentes en su naturaleza, y sobre todo, es importante conducir el ensayo, a lo largo de todo el ciclo del cultivo, de la manera más cuidadosa posible.
Procedimiento de análisis de variancia El experimento se realizó con plantas de espárrago de cinco años, cultivadas para consumo verde, según recomendaciones habituales, de los cultivares Atlas, Ciprés, Gijnlim, Jersey Giant, JWC-1, UC-157 y UC-157 F2, establecidas en la Estación Experimental Los Panguiles, perteneciente a la Pontificia Universidad Católica de Chile, ubicada en Curacaví (33º25' lat. Sur; 71º11' long. Oeste). Los cultivares fueron elegidos de entre 15 pertenecientes a un ensayo de variedades, por haber presentado las mejores posibilidades productivas en las condiciones locales. Las plantas de cada cultivar estaban dispuestas aleatoriamente en parcelas dentro de una instalación con ambiente protegido;
44
cada parcela tenía cinco surcos de 4,4 m de largo (12 plantas sembradas a 0,4 m entre plantas) separados 1,5 m entre surcos, para un total de 60 plantas. Se utilizó únicamente los tres surcos del centro de la parcela para realizar las mediciones. Cada uno de los cultivares estuvo repetido cuatro veces en el ensayo. Cuando los turiones tenían aproximadamente 5 cm de tamaño, se seleccionaron aleatoriamente 12 turiones en cada parcela los cuales fueron marcados con elásticos de diferente color; en total se evaluaron 48 turiones de cada cultivar. A los 90 días de que se hizo la marcación de los turiones a cada uno de ellos se le midió su altura (largo desde la superficie del suelo hasta su ápice). No se consideraron las medidas provenientes de turiones que, ya sea por problemas físicos o patológicos, no crecieron normalmente (turiones torcidos, dañados por insectos u hongos, etc.). En el cuadro a continuación se presenta los datos de altura de los turiones: Variedad de espárrago Atlas Ciprés Gijnlim Jersey Giant JWC 1 UC-157 UC-157 F2
I 34,9 31,2 28,9 28,9 30,9 34,7 34,9
II 35,1 30,8 28,1 28,7 31,0 33,9 35,2
III 34,2 31,3 29,1 29,0 30,4 34,2 34,3
IV 34,5 32,0 28,3 28,4 30,5 34,8 34,7
Antes de iniciar el análisis de estos datos es necesario recordar una fórmula de variancia: La estrategia del análisis es muy simple, Variabilidad total se calcula la variación total de los datos y luego la variabilidad inducida por los tratamientos (variancia entre grupos), esa variancia se le resta a la variancia Variabilidad inducida total y la diferencia sería la variancia por tratamientos dentro de grupos, o lo que es lo mismo, (entre grupos) la variabilidad natural. A la variabilidad dentro de grupos se le llama error ya que además de la variabilidad natural, este Variabilidad natural valor también cuantifica todos los errores (dentro de grupos) que nosotros cometamos en la conduc-
45
ción de la prueba; todas las pequeñas diferencias que podemos introducir por hacer las cosas de manera diferente como por ejemplo la deshierba, la fertilización, la aplicación de algún pesticida; por más que tratemos de hacerlo exactamente igual para todas las plantas siempre habrá diferencias que vienen a incrementar la medida de lo que en condiciones ideales seria simplemente la variabilidad natural. Precisamente por eso es que se recomienda conducir el ensayo con sumo cuidado, que todas las cosas las haga siempre una sola persona, para que no haya diferencias por el hecho de que personas distintas hacen las cosas de diferente manera, de modo que el error no crezca más allá de una medida normal. Dentro de los procedimientos pre-programados que tiene EXCEL está el análisis de variancia:
Para definir la forma en que se realizará el análisis se abre otra pantalla de diálogo donde debemos especificar la entrada y la salida de esta operación:
46
1
Se indica el cuadro completo de datos con los encabezados que identifican a los tratamientos
2
Se indica si los datos de cada uno de los tratamientos está en una columna o en una fila
3
Se indica que en la primera columna (o en la primera fila según como se haga el cuadro de datos) van las identificaciones o encabezados de tratamientos.
4
Se indica el sitio donde se desea que aparezca el resultado del análisis de variancia.
Para el caso del análisis de variancia es necesario tener los datos en formato de cuadro, indistintamente de si los datos de cada tratamiento van en la columna o en la hilera. Se debe recordar que la recomendación para almacenar datos es utilizar el formato columnar, esto es, los criterios de clasificación del dato en una columna cada uno y luego los datos de cada variable evaluada en una columna por aparte; sin embargo, la existencia de la tabla dinámica facilita el hecho de almacenar los datos en formato columnar y reordenar un extracto de los datos para ponerlos en el formato de cuadro que requiere algunos procedimientos.
Lo primero que presenta el resultado de EXCEL es un cuadro resumen donde se indica el número de valores que encontró para determinar cada total de tratamiento, el total de cada tratamiento y el promedio y la variancia de cada cultivar en este caso. El cuadro de análisis de variancia es bastante similar al obtenido anteriormente, solo que cambia la posición de los grados de libertad y de las sumas de cuadrados, por otra cosa, los resultados son idénticos.
47
La relación entre variables: correlación y regresión En el estudio de los aspectos que componen el agroecosistema es frecuente que topemos con la necesidad de establecer el grado de relación que existe entre dos variables continuas, esto con el objetivo de determinar la relación entre aspectos distintos del sistema. Debemos recordar que los distintos aspectos del agroecosistema estarán representados por variables distintivas; por ejemplo: la producción depende en algún grado de las enfermedades que atacan al cultivo. Es lógico pensar que un cultivo severamente atacado por enfermedades no va a producir tanto como un cultivo libre de enfermedades, pero cuánto es la relación que existe entre producción y enfermedad, eso es lo que se desea determinarr para dar respuesta a preguntas como: ¿es realmente importante la enfermedad como para invertir en su combate? Si por ejemplo topamos con una enfermedad que no tiene mucha relación con la producción – que es nuestro interés primordial - ¿qué necesidad hayy de gastar dinero en el combate de ese problema? En esta sección determinaremos el grado de asociación entre dos variables cuantitativas estudiando el método conocido como el coeficiente de correlación de Pearson.. El valor de dicho coeficiente varía entr entre –1 1 y +1. Un valor de +1 indica una relación positiva, esto es: a mayor cantidad de nódulos de Rizobium en la raíz, mayor cantidad de nitrógeno absorbido. Un valor de -1 indica una relación negativa entre las variables, esto es: a mayor cantidad de enfermedad, menor cantidad de producción. Una manera gráfica de representar el coeficiente de correlación ón sería ser la siguiente:
48
En la figura A tenemos una relación positiva, en la B la relación es negativa, en la figura C se representa un grado de relación pobre entre las variables X y Y y en la figura D se presenta una relación importante entre las variables X y Y pero de forma curva, para la que no nos sirve el coeficiente de correlación. Observe que entre más marcado sea el orden de los datos, con una tendencia definida, más alto será el grado de relación entre las variables.
El coeficiente de correlación de Pearson: El coeficiente de correlación de Pearson es para variables continuas y posee las siguientes características: 1)
El valor del coeficiente de correlación es independiente de las unidades utilizadas para medir las variables.
2)
El valor del coeficiente de correlación se ve fuertemente afectado por la presencia de valores extremos; en estos casos es importante revisar si estos valores pertenecen realmente a la medición que se esté realizando o si por el contrario son errores.
3)
El coeficiente de correlación mide el grado de relación entre dos variables, siempre y cuando la tendencia de la relación sea una línea recta (como se presenta en las figuras A y B). Dos variables pueden tener una relación importante pero curva, a pesar de que su correlación sea pequeña. Por lo tanto, cuando se analice la relación entre dos variables, es importante graficarlas para tener una idea del tipo de relación que existe entre ellas.
4)
El coeficiente de correlación es válido únicamente para los ámbitos entre los que se encuentran las variables, fuera de estos límites la relación entre las variables puede cambiar radicalmente.
5)
El coeficiente de correlación no implica una relación de causa y efecto. Establecer una relación de este tipo requiere de mucha más información que el simple cálculo del coeficiente de correlación.
6)
Los datos para el cálculo del coeficiente de correlación deben provenir de muestras aleatorias.
49
7)
Al menos una de las dos variables debe tener una distribución normal, preferiblemente ambas.
La manera de calcular el valor de “r” (coeficiente de correlación de Pearson) es por medio de la fórmula:
r= donde:
S XY SX ∗ SY
(
) (
S XY = ∑ X − X ∗ Y − Y SX =
∑ (X − X )
SY =
∑ (Y − Y )
)
2
2
Sustituyendo los valores tenemos:
r=
∑ (X − X ) ∗ (Y − Y ) 2 2 ∑ (X − X ) ∗ ∑ (Y − Y )
Ejemplo: En la zona de Los Chiles, provincia de Alajuela, zona principalmente dedica-da a la producción de naranja, se estableció un sitio de observación para determinar relaciones entre distintos aspectos que componen el agroecosistema de este cultivo. En un terreno de aproximadamente 1,2 km2 se seleccionaron al azar 47 puntos de muestreo. En cada uno de estos puntos se midieron varias cosas: la cantidad de hojarasca descompuesta, la compactación del terreno, la incidencia y severidad de enfermedades como “postbloom” (causada por el hongo Colletotrichum acutatun) o mancha grasienta y la cosecha de los cuatro árboles que rodeaban el punto de muestreo. De todos los datos recogidos en el campo se realizó una selección intencionada de 20 datos con el fin didáctico de mostrar el cálculo del coeficiente de correlación; los resultados que se muestran en este capítulo no reflejan la realidad obtenida en el campo.
50
En el cuadro siguiente se presenta los datos de cosecha y de severidad de “postbloom”, así como las operaciones parciales para la obtención del coeficiente de correlación. Postbloom (X)
X
17,3 41,2 37,6 34,6 25,1 43,0 41,2 39,2 35,1 29,1 29,9 43,5 25,1 16,2 39,8 33,3 33,9 12,9 41,6 25,9 50,2 33,5 = 33,15
Cosecha (Y)
Y
657 411 453 477 586 348 409 448 459 583 577 334 628 665 447 566 541 689 401 585 288 551 = 504,68
X−X -15,845 8,055 4,455 1,455 -8,045 9,855 8,055 6,055 1,955 -4,045 -3,245 10,355 -8,045 -16,945 6,655 0,155 0,755 -20,245 8,455 -7,245 17,055 0,355
Y−Y 152,318 -93,682 -51,682 -27,682 81,318 -156,682 -95,682 -56,682 -45,682 78,318 72,318 -170,682 123,318 160,318 -57,682 61,318 36,318 184,318 -103,682 80,318 -216,682 46,318
Suma →
(X − X )2 251,078 64,876 19,843 2,116 64,729 97,112 64,876 36,658 3,820 16,366 10,533 107,217 64,729 287,148 44,283 0,024 0,569 409,878 71,479 52,497 290,858 0,126 1960,815
(Y − Y )2 23200,829 8776,283 2671,010 766,283 6612,647 24549,192 9155,010 3212,829 2086,829 6133,738 5229,919 29132,283 15207,374 25701,919 3327,192 3759,919 1319,010 33973,192 10749,919 6451,010 46951,010 2145,374 271112,773
(X − X ) ∗ (Y − Y ) -2413,551 -754,564 -230,219 -40,264 -654,242 -1544,028 -770,674 -343,183 -89,287 -316,833 -234,705 -1767,333 -992,151 -2716,664 -383,846 9,476 27,404 -3731,605 -876,583 -581,942 -3695,410 16,422 -22083,782
51
El “postbloom”, como se ve en la ilustración anterior, es una enfermedad que afecta las flores de naranja al punto de que las bota, por lo que un ataque de este hongo significa que no habrá cosecha de frutos. r=
− 22101 ,11
(271112 ,77 )(1963 ,66 )
= −0 ,957867
Como se puede ver en el resultado, el coeficiente de correlación en este caso es negativo lo que significa que entre mayor cantidad de enfermedad menor cantidad de cosecha se va a obtener, lo que es un resultado bastante lógico. En este caso la variable cosecha es una variable DEPENDIENTE, esto es, que depende de la cantidad de enfermedad que tenga el árbol; la variable severidad de “postbloom” es la variable INDEPENDIENTE, esto es, que determina en alguna medida la cosecha. Sin embargo, se debe recordar que el valor del coeficiente de correlación –aunque alto como en este caso – no quiere decir que exista una relación de causa y efecto entre la cantidad de enfermedad y la cosecha obtenida. La producción depende de gran cantidad de factores; el agroecosistema que llamamos cultivo de la naranja es muy complejo; este coeficiente de correlación muestra una pequeña parte de esa gran maraña de relaciones que componen el sistema y que es la responsable de la cosecha que se obtiene. La hoja electrónica de EXCEL ofrece la posibilidad de calcular el coeficiente de correlación por medio de una función predefinida. Dentro de la lista de operaciones del comando “análisis de datos” encontramos el coeficiente de correlación: En la pantalla de diálogo que nos abre la operación “coeficiente de correlación” vamos a encontrar un sector donde debemos definir la entrada, esto es, debemos describir los datos con los que vamos a trabajar, y también hay un sector donde se define la salida que es donde se especifica donde se quiere el resultado.
52
En la definición de la entrada se debe tener el cuidado de especificar si los datos van ordenados en columnas (como en el caso de este ejemplo) o en filas; también hay que indicar si las variables que se van a correlacionar van con el encabezado o no. La indicación de donde colocar el resultado es simplemente una celda en algún espacio en blanco de la hoja.
La presentación del resultado es medio cuadro, ya que por encima de la diagonal de unos los valores serían los mismos. En este caso, las variables que están en la columna de la izquierda son las variables independientes y las variables que están en la fila de arriba son las variables dependientes; por ejemplo, se lee: “la correlación entre mancha grasienta (X) y cosecha (Y) es de 0,85 y es negativo puesto que a mayor cantidad de enfermedad menos cantidad de cosecha. Lo mismo ocurre entre la hojarasca y la enfermedad “mancha grasienta”, ya que el inóculo del hongo que causa la enfermedad habita en la
53
hojarasca y cuando esta se descompone libera los propágalos de la enfermedad; por la enfermedad actúa como dependiente de la hojarasca.
El coeficiente de correlación de Spearman En la introducción de la sección sobre el coeficiente de correlación se mencionaron una serie de requisitos que se deben cumplir para dar por bueno el coeficiente de correlación de Pearson que se calcule; de todos ellos el que determina que se pueda utilizar esta operación es el de que las variables sean continuas. Sin embargo, es de todos conocido el hecho de que en agronomía se utilizan gran cantidad de variables discretas que eventualmente sería deseable correlacionar. Si se va a correlacionar con una variable continua no hay problema, pero si se van a correlacionar dos variables discretas hay problemas. En estos casos es necesario utilizar el coeficiente de correlación de Spearman. Observemos el siguiente ejemplo tomado de las parcelas del bloque integrado V de la carrera de Agronomía:
Cortadores Chupadores 30,77 23,08 46,16 53,85 50,00 18,75 44,45 33,34 45,46 50,00 7,70 23,08 23,08 61,54 25,00 33,34 30,00 40,00 69,24 15,39 69,24 61,54 7,70 15,39
54
Se tenían 12 parcelas en total y en cada una de las parcelas se hizo un muestreo de insectos que luego se identificaron a nivel de grandes grupos funcionales. En cada parcela se hicieron cinco pases de red y los datos que se presentan en el cuadro anterior son los promedios de los cinco conteos de especímenes de cada tipo. Como cualquier otro conteo estas variables son discretas y no cumplirían con el requisito de normalidad para el cálculo del coeficiente de correlación de Pearson.
El coeficiente de correlación de Spearman trabaja con los rangos y no con los datos tal cual son; en el siguiente cuadro se presentan los datos acompañados de sus rangos.
Cortadores 30,77 6 46,16 9 50,00 10 44,45 7 45,46 8 7,70 1,5 23,08 3 25,00 4 30,00 5 69,24 11,5 69,24 11,5 7,70 1,5
Chupadores 23,08 4,5 53,85 10 18,75 3 33,34 6,5 50,00 9 23,08 4,5 61,54 11,5 33,34 6,5 40,00 8 15,39 1,5 61,54 11,5 15,39 1,5
La asignación de los rangos se hace ordenando los datos por orden de tamaño, para cada una de las variables por aparte; observe que en el caso de los cortadores hay dos promedios iguales de 7,70 que al ordenarlos quedarían en la posición 1 y 2. En estos casos se toman los rangos de cada uno de los valores iguales y se calcula un promedio que es lo que va a funcionar como rango de cada uno de ellos, en el caso del ejemplo, el rango de cada valor sería 1,5; lo mismo sucede en el caso de los chupadores, hay dos valores de 61,54 que ordenados corresponden a las posiciones 11 y 12, por eso el rango de los valores es 11,5.
55
La fórmula para calcular el coeficiente de correlación de Spearman es:
donde di es la diferencia entre rangos de la variable independiente X (cortadores) y los rangos de la variable dependiente Y (chupadores), y n es el número de pares (X,Y) que se emplean en el cálculo de la correlación.
Cortadores Valor rango 30,77 6 46,16 9 50 10 44,45 7 45,46 8 7,7 1,5 23,08 3 25 4 30 5 69,24 11,5 69,24 11,5 7,7 1,5
rs = 1 −
[
Chupadores Valor rango 23,08 4,5 53,85 10 18,75 3 33,34 6,5 50 9 23,08 4,5 61,54 11,5 33,34 6,5 40 8 15,39 1,5 61,54 11,5 15,39 1,5
2,25 1 49 0,25 1 9 72,25 6,25 9 100 0 0 250
6 × (6 − 4 ,5 ) + (9 − 10 ) + ... + (1,5 − 1,5)
rs = 1 −
2
2
(
2
12 12 − 1
2
)
]
6 × [250 ] 1500 ⇒1− ⇒ 0,1258741 12(143) 1716
En este caso el coeficiente de correlación es muy bajo, se puede decir con propiedad que la presencia de insectos cortadores en las parcelas no determinó que hubiera más o menos insectos chupadores. Las conclusiones sobre el coeficiente de correlación de Spearman son las mismas que para el de Pearson en cuanto a relación de causalidad y significado de la relación.
56
El índice de dependencia de Cramer:
A veces tenemos variables que pueden ser continuas o discretas pero no tenemos igual cantidad de datos para ambas variables que deseamos relacionar; en estos casos es necesario recurrir a un procedimiento quizás un poco más tedioso, puesto que implica la transformación de las variables a categorías y posteriormente el establecimiento de una “tabla de contingencia” que nos ayuda a estimar el grado de dependencia o independencia que hay entre ent dos variables. Nótese que en estos casos se habla de “dependencia o independencia” y no de correlación. El grado de dependencia se estima por medio dio del índice de Cramer. Lo que se pretende hacer en estos casos es ubicar los datos de las variables - según su tamaño - en clases; esto implica que dividamos el ámbito (diferencia entre el valor máximo y el valor mínimo) de la variable en clases. Paraa el ejemplo específicamente, especí el ámbito se divide en tres partes iguales, esto es, en tres clases y las tres clases son del mismo tamaño en cuanto al ancho.
57
Mínimo
Máximo ámbito
Mínimo
Máximo 1ra clase
2da clase
3ra clase
=MAX(J2:J11) =MIN(J2:J11) =(J12 - J13) =(J14/3)+ 0.0015 =(J13 - 0.005) =(J16 + $J$15) =J17 =(J17 + $J$15)
=SI(Hoja1!J11=””,””,(SI((Y(Hoja1!J11>Hoja1!$J$16,Hoja1!J11<Hoja1!$J$17))=VERDADERO,”Poco”...
A
58
B
A
Esta partícula de la fórmula se utiliza exclusivamente para indicar que los espacios que están en blanco, por falta de dato, permanezcan en blanco a la hora de la conversión.
B
Al índice de Cramer se le conoce también como el coeficiente de contingencia; se utiliza siempre asociado a una tabla de contingencia y no depende de toda la operación que se realiza en este ejemplo para poderlo calcular o utilizar; puede ser que las variables hayan sido colectadas en categoría en ves de valores, por lo que se facilitaría el cálculo de este índice.
La función “Y” contiene los dos requisitos que debe cumplir un valor para considerársele parte de la primera clase, si el valor cumple con los dos requisitos (mayor que el limite inferior de la clase y menor que el límite superior de la clase) el resultado será verdadero y por lo tanto el valor será substituido por la categoría “Poco”
59
Luego por medio del asistente para tablas dinámicas se obtiene una tabla que relaciona dos de las variables en las que estemos interesados. En el cuerpo de la tabla dinámica se introduce alguna variable de código con el fin exclusivo de que sirva de base para que EXCEL “CUENTE” cuantos individuos pertenecen a cada una de las clasificaciones. Es preferible en este caso contar con una variable que sea simple-mente la numeración de las parcelas para utilizarla de relleno para que EXCEL saque la cuenta. frecuencia Chupadores Medio Mucho Poco Total general
Voladores Medio 2 (0,9) 0 (0,9) 1 (1,2)
Mucho 1 (1,5) 3 (1,5) 1 (2,0) 3
Poco 0 (0,6) 0 (0,6) 2 (0,8) 5
Total general 3 3 4 2 10
La tabla dinámica nos da las frecuencias de cada una de las clasificaciones en que se divide la tabla; esto quiere decir que nos dice en cuantas parcelas tanto los insectos voladores como los chupadores recibieron una calificación de,. Por ejemplo, “Poco”. Estas frecuencias se denominan “observadas”. Si existiera un patrón de distribución de los insectos, este se vería en que la presencia de insectos voladores en mucha cantidad favorece la presencia de insectos chupadores en mucha cantidad, esto es: ambos recibirían la calificación de “Mucho” en todas las parcelas donde se les encuentre. Para determinar si verdadera-mente existe un patrón como el menciona-do, se crean frecuencias que denomina-remos “esperadas”; estas son frecuencias creadas expresamente sin patrón alguno de distribución, en otras palabras, son frecuencias de distribución totalmente al azar, de modo que si las frecuencias observadas terminan siendo iguales a las esperadas, podemos decir entonces que no existe un patrón de distribución de los insectos y que por lo tanto la presencia de uno no favorece la presencia; en términos estadísticos esto querría decir que ambas variables son independientes. Los valores entre paréntesis dentro de la tabla son los valores esperados, que se calculan por medio de la siguiente fórmula: Frec. esperada (total Hil.) × (total Col.) = de la celda n
60
Por ejemplo, para la celda donde coinciden pocos chupadores y pocos voladores, el total de la hilera es 4 y el total de la columna es 2, n = 10 Frec. esperada (4 ) × (2 ) = = 0 ,8 de la celda 10
De esta manera se calculan todas las frecuencias esperadas.
La decisión de si las frecuencias observadas son iguales o no a las frecuencias esperadas se hace por medio de probabilidad, en este caso de un valor que se llama Chi-cuadrado ( χ2 ): las diferencia entre frecuencias observadas y esperadas se transforma en un valor de Chi-cuadrado y luego se averigua la probabilidad de obtener ese valor, si la probabilidad dice que el Chi-cuadrado es significativo, las frecuencias observadas NO se parecen a las frecuencias esperadas y, por lo tanto, existe un patrón de distribución de los insectos de un tipo, dependiendo de la presencia de los insectos del otro tipo, esto es, existe una dependencia entre clases de insectos. χ2 = ∑
(Obs. − Esp.)2 Esp.
Para nuestro ejemplo, el valor de Chi-cuadrado sería: (2 − 0 , 9 )2 + χ2 = 0 ,9
(0 − 0 ,9 )2 + ... + 0 ,9
(2 − 0 ,8 )2 0 ,8
χ 2 = 7 , 44 La probabilidad de este valor se determina por medio de una función prediseñada de EXCEL denominada DISTRI.CHI. El concep-to de significativo que se a utilizado a lo largo de todos los capítulos de este folleto, son válidos en este caso también.
61
En este caso particular vemos que la probabilidad del valor Chicuadrado es muy alta, por lo que no es significativo; sobre esta base concluimos que tanto la distribución observada como la esperada son iguales estadísticamente hablando, eso quiere decir que no hay un patrón definido de distribución de los insectos voladores causado por la presencia de los insectos chupadores en las parcelas muestreadas.
La forma de la relación entre variables: regresión En el estudio de la relación entre las variables, la correlación nos da el grado en que dos variables están relacionadas, la forma en que se relacionan se averigua por medio de un procedimiento llamado regresión. La regresión nos provee de una ecuación matemática que explica la forma en que se relacionan dos variables y que nos sirve principalmente para predecir el valor de una variable dependiente por medio de la medición de una variable independiente.
62
Sería de gran ayuda poder predecir por ejemplo, la cantidad de mangos que se van a cosechar, contando el número de inflorescencias que hay al inicio del ciclo reproductivo de los árboles, este datos nos ayudaría a planificar la cantidad de mano de obra requerida para cosechar, el transporte necesario para llevar toda la fruta hasta el mercado, la cantidad de empaque que se ocupa para la cantidad de fruta que se va a cosechar, etc. Sería también de suma importancia poder predecir la cantidad de enfermedad que vamos a tener en un melonar tan solo midiendo las condiciones climáticas, esto nos ayudaría a prevenir pérdidas debidas al ataque de enfermedades y a realizar combates preventivos mucho más eficaces, mucho más amigables con el ambiente y por supuesto, mucho más económicos. Dentro de los ejemplos sobre predicción de pérdidas causadas por una enfermedad encontramos el trabajo de P.F.J. Wolf, H. Klink and J.A. Verreet, en el que determinaron el comportamiento de la pérdida en rendimiento con respecto a la cantidad de síntomas (manchas bronceadas) causadas por el hongo Drechslera tritici-repentis en las hojas de trigo: Incidencia (Sumatoria de lesiones en tres hojas) 11 12 18 19 20 21 24 27 31 34 35 35 36 38 38 38 38 48 50 51 51 51 54 54 59 65 65 66 73 94 105 108 116
Disminución de la producción (%) 3.7 6.4 4.7 4.9 5.0 5.2 3.5 5.3 5.2 6.0 4.6 9.9 5.7 7.6 8.6 8.9 7.2 9.8 4.1 8.9 10.3 9.5 7.6 11.1 8.2 15.7 8.3 14.1 10.2 12.6 18.1 16.6 16.0
63
La lógica de este estudio dice que entre más manchas hay en las hojas de la planta de trigo más impedida va a estar la planta para realizar la fotosíntesis y como consecuencia habrá menos grano. La enfermedad se cuantificó como la suma de lesiones en tres hojas de la planta, luego se cosecharon plantas con cero lesiones y esa producción se consideró 100% luego se cosecharon las plantas con distinta cantidad de lesiones y su producción se comparó con la de las plantas sanas y de esta manera se estableció el porcentaje de pérdida o la disminución en la producción. En la figura que sigue se presenta lo que se denomina DISPERSIÓN que es necesaria para observar el tipo de relación que existe entre dos variables:
Pérdida en producción (%)
20 18 16 14 12 10 8 6 4 2 0 0
20
40
60
80
100
Incidencia (suma de lesiones)
64
120
Se nota perfectamente en esta figura que conforme aumenta la incidencia aumenta la pérdida, esto es, una relación positiva entre la variable independiente (incidencia X) y la variable dependiente (pérdida en el rendimiento Y)
Pérdida en producción (%)
20 18 16 14 12 10 8 6 4 2 0 0
20
40
60
80
100
120
Incidencia (suma de lesiones)
La línea negra marca la tendencia general de los datos y se ve que los datos (puntos rojos) se encuentran bastante ordenados y cercanos a la línea, por lo que se puede decir que la correlación entre estas dos variables es elevada. Siempre que se va a realizar un estudio de regresión es deseable partir primero de un análisis de correlación en donde se determine si las variables que se quieren incluir en el estudio de regresión correlacionan bien o no. En este caso el
65
grado de relación entre las variables es de 0,872869, o bien 87,3%; esto es: la pérdida de rendimiento depende en un 87,3% de la enfermedad causada por el hongo Drechslera tritici-repentis.
fuente: http://www.bspp.org.uk/ndr/jan2006/2005-69.asp
El problema que subyace a la metodología de la regresión lineal simple es el de encontrar una recta que marque la verdadera tendencia de la dispersión de datos, y que pueda ser utilizada para predecir los valores de Y a partir de los de X. 20 18
Pérdida en producción (%)
16 14 12 10 8 6 4 2 0 0
20
40
60
80
100
Incidencia (sumatoria de lesiones en tres hojas)
66
120
Tradicionalmente se ha recurrido para ello al método de mínimos cuadrados, que elige como recta de regresión a aquella que minimiza las distancias verticales de las observaciones a la recta. Observe que hay tanto distancias sobre la línea de tendencia como por debajo, esto quiere decir diferencias positivas y negativas que deben anularse entre si para que la línea de tendencia pueda ser considerada adecuada.
La ecuación general de la recta de regresión será entonces de la forma: Y = a + bX donde a es el punto donde la línea de regresión intercepta el eje de las Y y b es la pendiente, cuyo significado es: el aumento en Y por cada aumento de una unidad en X. Sin embargo, en estadística la línea de
20 18
Pérdida en producción (%)
16 14 12
b
10 8 6 4
a
2 0 0
20
40
60
80
100
120
Incidencia (sumatoria de lesiones en tres hojas)
67
regresión toma una forma ligeramente distinta; en vez de utilizar la fórmula general de líneas rectas se utiliza la siguiente expresión:
ˆ = β 0 + β1 X Y
sin embargo, el significado de β0 es el mismo que de a anteriormente expuesto y el de β1 es el mismo que el de b.
β1 =
S XY S XX
S XY = S XX =
y
∑ XY − ∑X
2
β 0 = Y − β1 X
(∑ X )(∑ Y ) n
(∑ X )2 − −
n
Para el ejemplo de disminución en el rendimiento de grano de trigo debido a la cantidad de enfermedad causada por el hongo Drechslera triticirepentis tenemos que: n = 33
68
X
= 47,5067921
∑X 2 ∑X
= 1567,72414
Y
= 8,59892024
∑Y ∑ XY
= 283,764368
= 98044 ,0713
= 16495,4697
Con esta información podemos sustituir los valores en las fórmulas para β0 y β1:
S XY = 16495,4697 −
(1567,72414 )(283,764368) 33
S XY = 3014 ,73486 S XX = 98044,0713 −
(1567,72414 )2 33
S XX = 23566,5267 3014 ,73486 = 0,12792445 23566,5267 β 0 = 8,59892024 − [0,12792445(47,5067921)]
β1 =
β 0 = 2,5216402
por lo que la ecuación de la línea de tendencia que mejor se ajusta a la dispersión de datos es:
ˆ = 2,5216 + 0,1279 X Y
Con esta ecuación podemos predecir la disminución en la cosecha conociendo sola-mente la incidencia de Drechslera tritici-repentis presente en tres hojas de las plantas de trigo. Es obvio que el dato de incidencia de la enfermedad hay que tomarlo de toda la plantación o de partes de la plantación, siguiendo algún patrón que nos garantice la representatividad del dato, pero eso es tema de la última sección de este capítulo. Por el momento debemos demostrar que la línea representada por la ecuación es la que mejor se ajusta a la dispersión de los datos y, además, debemos calcular un coeficiente muy importante que nos dice que tan bueno es el ajuste de la línea de tendencia a la dispersión de datos.
69
Con la ecuación podemos calcular un valor de Y para cada valor de X que tenemos en la lista:
ˆ Y
Disminución de la Incidencia (X) producción (Y)
10,690 11,724 17,103 18,759 19,310 20,345 23,448 26,207 30,966 33,103 34,138 34,828 35,862 37,586 37,931 37,586 37,931 47,379 50,000 50,069 50,690 50,759 53,034 53,103 58,276 64,138 64,483 65,172 72,069 93,448 104,483 107,931 115,172
3,736 6,437 4,713 4,885 5,029 5,172 3,506 5,287 5,172 6,006 4,598 9,914 5,747 7,615 8,621 8,908 7,241 9,770 4,138 8,879 10,345 9,540 7,586 11,063 8,247 15,661 8,333 14,080 10,201 12,615 18,103 16,580 16,034
ˆ Y−Y 3,889 4,021 4,710 4,921 4,992 5,124 5,521 5,874 6,483 6,756 6,889 6,977 7,109 7,330 7,374 7,330 7,374 8,583 8,918 8,927 9,006 9,015 9,306 9,315 9,977 10,726 10,771 10,859 11,741 14,476 15,888 16,329 17,255 Suma =
-0,153 2,415 0,003 -0,036 0,037 0,048 -2,016 -0,587 -1,310 -0,751 -2,291 2,937 -1,362 0,285 1,247 1,578 -0,133 1,188 -4,780 -0,047 1,339 0,525 -1,720 1,748 -1,729 4,934 -2,437 3,222 -1,540 -1,861 2,216 0,252 -1,221 0,000
simplemente sustituimos el valor de cada uno de los X en la ecuación ˆ . Observe que la suma de las diferencias entre Y y y obtenemos los valores de Y ˆ es cero, lo que quiere decir que la línea de tendencia pasa por el puro centro Y
de la dispersión dejando igual cantidad de diferencias positivas sobre la línea como diferencias negativas debajo de la línea, por esa razón se anulan las
70
diferencias positivas y negativas y la suma da cero. También podemos calcular la ˆ: variancia de los valores Y y de los valores Y
Variancia Y = 15,82441694 ˆ = 12,0518214 Variancia Y R2 =
12,0518214 = 0,761596555 15,82441694
La variancia de los valores Y representa toda la variabilidad de la ˆ representa los valores dispersión, mientras que la variancia de los valores Y
ordenados que quedan sobre la línea de tendencia (recuerde que los valores ˆY se calculan partiendo de la ecuación de regresión). Podemos decir entonces que la variancia de los valores Y es el 100% de la variabilidad de la dispersión y que la ˆ es la porción de variabilidad que logramos representar variancia de los valores Y con la línea de regresión; si hacemos una regla de tres con estas dos variancias tenemos el coeficiente de determinación que para el ejemplo es de 76,16%, esto es, el ajuste de la línea de regresión es de un 76,16%.
La operación se puede realizar en EXCEL ya que el programa tiene una operación prediseñada que se llama regresión:
71
Es importante seguir con atención las reglas de la mayoría de las pantallas de diálogo de EXCEL; en este caso debemos atender a la casilla de “rótulos” si introducimos las variables con sus encabezados, y no olvidar marcar en la parte de “opciones de salida” el lugar donde se requiere el resultado de la operación. Este resultado tiene tres partes: un resumen de estadísticas, un
72
análisis de variancia para el modelo de regresión y la parte donde específicamente se presentan los coeficientes de la ecuación de regresión.
En el cuadro de estadísticas de la regresión es importante el valor del coeficiente de determinación; con respecto al análisis de variancia sobre el modelo más adelante, en cursos más avanzados de estadística se podrá apreciar su significado e importancia, por el momento baste decir que es una análisis en donde se comparan la variabalidad total (variancia de los Y) la variabilidad de la ˆ ) la variabilidad residual que es la diferencia entre regresión (variancia de los Y las dos variancias anteriores.
Por último esta el cuadro donde se presen-tan los coeficientes que forman la ecuación de regresión y – muy importante – un intervalo de confianza para la pendiente. Observe que en este caso los límites inferior y superior del intervalo de confianza de la pendiente son positivos, esto quiere decir que no se incluye el valor cero en este intervalo, lo que nos dice que la pendiente de esta
73
regresión siempre será positiva estadísticamente hablando. pendiente de una ecuación de regresión es cero:
Suponga que la
10 9 8
Y
7 6 5 4 3 2 1 0
10
20
30
40
X
La línea de regresión sería totalmente paralela al eje de las X si la pendiente fuera cero; no habría efecto – ni positivo ni negativo - de la variable X sobre la Y.
74
Literatura consultada
Acosta, Velázquez, F.R. Apuntes de estadística.
http://es.geocities.com/fracosta11/contenidostat.html
Domínguez, H. 2007. Práctica 3:¿Cómo sacas runa muestras para análisis de nematodos? En.: Guía Salud de suelos, cap. 8. Internacional Integrated Pest Management. Cornell University.
http://ppathw3.cals.cornell.edu/iipmweb/soil_health_guide_spanish.ht m
Floiran Martínez, G. 2006. Estadística descriptiva e inferencial II. Introducción a la inferencia estadística y aplicación en el control estadístico. Colegio de Bachilleres. Consejo nacional de educación para la vida y el trabajo http://www.conevyt.org.mx/bachilleres/material_bachilleres/cb6/6sem pdf/edin2pdf/edin2_f04.pdf
González Sánchez, E. 2007. Estimación, Tema 6. Universidad de Las Palmas de Gran Canaria, España. http://serdis.dis.ulpgc.es/~ii-pest/Estimacion.pdf
75
González Sánchez, E. 2007. Muestras aleatorias y distribuciones en el muestreo, Tema 5. Universidad de Las Palmas de Gran Canaria, España. http://serdis.dis.ulpgc.es/~ii-pest/DistribucionesMuestreo.pdf
González Sánchez, E. 2007. Prueba de hipótesis estadísticas, Tema 7. Universidad de Las Palmas de Gran Canaria, España http://serdis.dis.ulpgc.es/~ii-pest/Contrastes.pdf
González Sánchez, E. 2007. Regresión y correlación, Tema 8. Universidad de Las Palmas de Gran Canaria, España. http://serdis.dis.ulpgc.es/~ii-pest/Regresion.pdf
Huntsberger, D.V., Billingsley, P. 1981. Elements of statistics, 5th ed. Iowa State University, Ames Iowa. 505 pp.
Jensen, Castañeda, R. 2002. La costrucción de hipótesis. Instituto de Investigaciones y Estudios Superiores de las Ciencias Administrativas, Universidad Veracruzana, México. http://www.uv.mx/iiesca/revista2003-2/hipotesis.pdf
Lopategui Corsino, E. 2007. Principios de investigación científica y estadísticas. http://www.saludmed.com/FisiolEj/Requisitos/Investigacion_Cientifica. pdf
76
Mendenhall, W., Ott, L. 1976. Understanding statistics 2nd ed. Duxbury Press. Massachusetts. 387 pp.
Molinero, L.M. 2002. Cálculo del tamaño de muestra, métodos secuenciales. Asoc de la Sociedad española de hipertensión. http://www.seh-lelha.org/tamuestra.htm
Navarro. C. 2001. Algunas aplicaciones de la geoestadìsitica a la investigación de los patrones de distribución de agentes fitopatógenos en el cultivo del arroz, en Cañas, Guanacaste. Tesis Lic. Agronomía, Universidad de Costa Rica.
Pértegas Díaz, S., Pita Fernández, S. 2003. Cálculo del poder estadístico de un estudio. Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña (España)
.http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_esta distico.htm
Pita, Fernández, S., Pértigas, Díaz, S. 2001. Estadística descriptiva de los datos. Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario Juan Canalejo, Coruña.
http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva2.p df
77
Pita Fernández, S., Pértega Díaz, S. 2004. Asociación de variables cualitativas: test de Chi-cuadrado. Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario Juan Canalejo, Coruña. http://www.fisterra.com/mbe/investiga/chi/chi.asp
Rubio, A. 2007. Estadísitica descriptiva. Universidad Nacional Agraria La Molina, La Molina, Lima. http://tarwi.lamolina.edu.pe/~arrubio/Parte%202.pdf
Wolf, P.F.J., Klink, H., Verreet, J.-A.. 2005. A concept in integrated pest management (IPM) of fungal leaf diseases of cereals and sugar beets. Christian-Albrechts-Universität, Institute of Phytopathology. http://www.ipszuckerruebe.de/literatur/IPMLartey.pdf
78