MUESTREO FORESTAL ELEMENTAL Frank Freese
Este libro fue distribuido en México por la Agencia para el Desarrollo Internacional de Estados Unidos en la década de 1970 Por su practicidad fue ampliamente aceptado
1
CONTENIDO
CONCEPTOS BASICOS .................................................................................................................. 3 ¿Por qué se muestrea? .......................................................................................................................3 POBLACIONES, PARÁMETROS Y ESTIMADORES. ................................................................4 SESGO, EXACTITUD Y PRECISION ............................................................................................5 Variables, continuas y discretas. .......................................................................................................6 Funciones de Distribución.................................................................................................................7 HERRAMIENTAS DE TRABAJO .................................................................................................. 8 Índices, sumatorias y paréntesis ........................................................................................................8 Variancia .........................................................................................................................................12 Errores estándar y límites de confianza .........................................................................................13 Expansión de variancias y errores estándar.....................................................................................15 Coeficiente de variación ..................................................................................................................16 Covarancia.......................................................................................................................................17 Coeficiente de correlación...............................................................................................................18 Independencia .................................................................................................................................18 Variancias de productos, cocientes y sumas ...................................................................................20 Transformación de variables ...........................................................................................................23 METODOS DE MUESTREO PARA VARIABLES CONTINUAS............................................ 24 Muestreo al azar simple ..................................................................................................................24 Muestreo al azar estratificado .........................................................................................................33 Estimadores de regresión ................................................................................................................42 Muestreo doble ................................................................................................................................50 El muestreo cuando las unidades son de diferente magnitud (incluyendo el muestreo de PPT) ....53 Muestreo bietápico ..........................................................................................................................57 Muestreo bietápico con unidades primarias de tamaños desiguales ...............................................64 Muestreo sistemático .......................................................................................................................68 METODOS DE MUESTREO PARA VARIABLES DIRECTAS ............................................... 69 Muestreo al azar simple-Datos de clasificación ..............................................................................69 Muestreos de atributos por conglomerados.....................................................................................72 Muestreo de atributos por conglomerados —Conglomerados de tamaños diferentes ....................75 Muestreo de variables enumerables ................................................................................................77 ALGUNOS OTROS ASPECTOS DEL MUESTREO .................................................................. 78 Forma y tamaño de las unidades de muestreo .................................................................................78 Estimación de cambios ....................................................................................................................81 Diseño de muestreos .......................................................................................................................84 PROBLEMAS DE PRÁCTICA REFERENTES AL EMPLEO DE ÍNDICES Y DE SUMATORIAS ................................................................................................................................. 85 TABLAS ............................................................................................................................................ 89 Tabla 1. Diez mil dígitos ordenados en forma completamente aleatoria ........................................89 Tabla 2. La distribución de t ...........................................................................................................93 Tabla 3. Intervalos de confianza para la distribución binomial .....................................................94 Tabla 4. Transformación Arcoseno .................................................................................................96
2
MUESTREO FORESTAL ELEMENTAL
Este es un “manual estadístico de recetas” para forestales. Presenta algunos métodos de muestro que se han encontrado de utilidad de la Dasonomía. No se ha hecho ningún intento por entrar a la teoría en que se fundan estos métodos. Esto implica algunos peligros, pero la experiencia ha demostrado que son muy pocos los forestales que se aventuran dentro de la complejidad de la teoría estadística, sin estar familiarizados con algunos de los cálculos y diseños comunes de muestreo. El propósito aquí es el de proporcionar esta familiaridad- los lectores que la alcancen, podrán manejar muchos de los problemas cotidianos de muestreo. También encontraran que se han dejado muchos problemas sin respuesta y que se han pasado por alto muchas ramificaciones del muestreo. Se espera que cuando alcancen esta etapa profundizaran hacia trabajos mas elaborados de muestreo. Varios de estos se han enumerado en la pagina 96. CONCEPTOS BASICOS ¿Por qué se muestrea? La mayor parte de las decisiones humanas se hacen con conocimientos incompletos. En la vida diaria, un medico puede hacer un diagnostico a partir de una simple gota de sangre o de una sección microscópica de tejido; una ama de casa juzga la calidad de una sandia una vez que la cala o por el sonido que emite cuando se le golpea; e influidos por un arreglo perplejo de alternativas y de propagandas, escogemos la crema dental, el seguro, los sitios de veraneo, al consorte y a las profesiones, con solo un fragmento de la información total que se requiere, o que es deseable, para un entendimiento completo. Todo esto lo hacemos con la esperanza vehemente de que la gota de sangre, la pieza del melón, y la propaganda de un producto den una imagen confiable de la población que representan. En las fábricas y en los negocios, en la ciencia, en no menor cuantía, en la Dasonomía, el conocimiento parcial es un estado normal. El censo total es raro la muestra es lo común. Un forestal debe anunciar sus ventas de madera sobre la base de un volumen estimado, producción estimada por calidad y valor de los productos, costo y de riesgo estimados. El viverista siembra semilla cuya germinación la estima a partir de una fracción diminuta del lote total, para el trasplante, calcula la producción global de plantas mediante conteos que efectúa en muestras de los semilleros. Las empresas progresistas, dedicadas ala industria de la pulpa, y que están en la necesidad de encontrar una fuente de materia prima en los residuos de los aserraderos, pueden estimar el tonelaje potencian del material astillable, multiplicando la producción que se ha reportado, por un conjunto de factores de conversión obtenidos en cuantos aserraderos representativos. No importa que tan conveniente pueda parecer una medición total, existen varias razones de peso para preferir el muestreo. En primer lugar, la medición o en numeración completa pueda ser imposible. El viverista bien pudiera estar un poco mejor informado si supiera la capacidad germinativa de todas las semillas que se ha de sembrar, pero la naturaleza destructiva de la prueba de germinación impide evaluar cada semilla. Por razones idénticas, es imposible medir la resistencia a la tensión de todas las maderas por usarse en un puente, la resistencia al rompimiento de todo el papel que se va a emplear en un libro o el grado de calidad de todos lo tablones que se vana producir en la venta de madera en rollo. Si se permitiesen las pruebas, no se producirían plántulas, no se contrarían 3
puentes, no se imprimirían libros y no se venderían trosas. Claramente donde la evaluación es destructiva, es inevitable efectuar clase de muestreo. En otros casos, la medición o conteo total no es factible. Considérese a impresionante tarea de evaluar la calidad de toda el agua contenida en un reserva, el pesar de todo el pescado de una corriente fluvial, el contar todas las plántulas en un semillero de 500 camas, el enumerar todos los huevecillos en una infestación de escarabajo de la resina, el medir el diámetro y la altura de todos los árboles comerciales de un bosque 5000 hectáreas. Obviamente, la enormidad de la tarea demandaría alguna forma de procedimiento de muestreo. Es bien sabido que el muestreo proporciona, frecuentemente, la información esencial a un costo bastante menor que una enumeración total. Se debe también que esta información puede ser, en ocasiones, más confiable que la que se obtiene por medio de un inventario del ciento por ciento. Hay varias razones en cuanto las causas por la que esto puede ser cierto. Con un menor número de observaciones por hacerse y más tiempo disponible, las mediciones de las unidades en la muestra pueden hacerse, y de hecho esto es lo más probable, con mayor cuidado. Además, una porción del ahorro que resultaría por hacer muestreo, podría emplearse para la compra de mejores instrumentos, así como el empleo o para el adiestramiento de personal mas especializado. No es difícil observar que buenas mediciones sobre el cinco por ciento de las unidades en una población podrían proporcionar una información más fidedigna que mediciones de dudosa confianza efectuadas sobre el ciento por ciento de las unidades. Finalmente, puesto que los datos de la muestra pueden ser reunidos y procesados en una fracción del tiempo requerido para un inventario completo, la formación obtenida puede ser más oportuna. Investigar el ciento por ciento del mercado de maderas no proporcionara información muy útil a un vendedor, si eso le lleva diez meses para completar el trabajo. POBLACIONES, PARÁMETROS Y ESTIMADORES. El concepto central en cualquier problema de muestreo es la existencia de una población. Es útil pensar en una población como en un agregado de calores unitarios, donde la “unidad” es aquella cosa sobre la cual se hace la observación, y el “valor” es la propiedad observada sobre esa cosa. Por ejemplo, podemos imaginarnos una superficie cuadrada de 40 acres (16 ha) con arbolado, en la cual la unidad bajo observación es el árbol y el valor en observación es la altura del árbol. La población es el agregado de todas las alturas de árboles en la superficie especificada. Los diámetros de estos mismos árboles constituirían otra población. Los volúmenes en metros cúbicos, en alguna porción particular de los troncos, harían aun otra población. Alternativamente, las unidades podrían definirse como cada uno de 400 lotes cuadrados en los cuales podría dividirse en área total. Los volúmenes en metros cúbicos de loas árboles de estos lotes podrían formar una población. Los volúmenes en pies-tabla de los mismos árboles serian otra población. El número de lombrices de la tierra en los 15 centímetros superiores del suelo de estos lotes, podría ser todavía una tercera población. Mientras sea posible, puede lograrse una simplificación si las unidades en las cuales se define a la población son las mismas que aquellas por seleccionarse en la muestra. Si deseamos calcular el peso total de lombrices de tierra en los 15 centímetros superficiales de suelo de alguna área, seria mejor pensar en una población constituida de bloques de suelo de alguna dimensión especificada con el peso de las lombrices contenidas en el bloque como valor unitario. Tales unidades son escogidas fácilmente para su inclusión en la muestra, y la proyección de los datos de la muestra a 4
la población entera es relativamente simple. Si pensamos en lombrices individuales como las unidades, la selección de la muestra y la expansión de la muestra a la población pueden ser ambos muy difíciles. Para caracterizar a la población global, frecuentemente usamos ciertas constantes que se le llaman parámetros. El valor medio por lote en una población de lotes de un cuadro de acre (1,001 m2) es una parámetro. La proporción de plántulas en una plantación de pino es un parámetro. El número total de unidades en la población es un parámetro, y también lo es la variabilidad entre los valores unitarios. El objetivo de los muestreos es usualmente el estimar algún parámetro o una función de algún parámetro o parámetros. A menudo, pero no siempre, deseamos estimar la medida o el total de la población. Al valor del parámetro, según se estima a partir de una muestra, se le llamara, en lo sucesivo, el estimador de la muestra o simplemente el estimador. SESGO, EXACTITUD Y PRECISION Al buscar un estimador de alguna característica de determinada población, el deseo mas ferviente del estadístico, es que, a un costo razonable obtenga una estimación que sea exacta (esto es, próxima al valor real). Sin ningún conocimiento sobre teoría de muestro, el sabe que si aparece algún sesgo, la exactitud desaparecerá de inmediato, y tiene la sospecha de que, no obstante que se elimine al sesgo, la estimación a partir de su muestra puede no ser aun, enteramente precisa. Cuando solamente se mide una parte de la población, algunos estimadores pueden ser grandes, algunos pequeños, algunos muy cercanos al valor verdadero; y desafortunadamente, algunos distantes a este valor. Aunque la mayor parte de la gente tiene una noción general respecto al valor de “sesgo”, “exactitud” y “precisión”, es conveniente, en esta etapa, especificar la interpretación estadística de estos términos. Sesgo.- Sesgo es una deformación sistemática. Puede deberse a una falla en la medición, al método de escoger la muestra o a la técnica usada en la estimación del parámetro. Si, por ejemplo, se miden alturas de plántulas con una regla en la cual no existe el primer medio centímetro, todas las mediciones serán medio centímetro más grandes, y la estimación de la altura media de las plántulas será sesgada. En estudios que involucran conteos de plantas, algunos observadores casi siempre incluyen alguna planta que esta en el límite del lote; otros, consistentemente, la excluyen. Ambas rutinas son fuentes de sesgo en la medición. En el aprovechamiento de manera de pie, la tabla de volumen seleccionada o la manera en que se usa, pueden conducir a un sesgo. Una tabla elaborada a partir de arbolado grande, dará resultados sesgados cuando se use, sin ajuste, a árboles pequeños. Similarmente, si el maderero consistentemente estima altura comercial arriba o debajo de las especificaciones de la tabla, el volumen estimado de esta manera será sesgado. La única forma práctica de minimizar el sesgo en las mediciones es mediante verificación continua de los instrumentos y por medio de entrenamiento y cuidado meticulosos en el uso de la instrumentación. El sesgo debido al método de muestreo puede originarse cuando a ciertas unidades se les da mayor o menor representación en la muestra que la que les corresponde en la población. Como un ejemplo elemental, supóngase que estamos estimando la supervivencia de 10,000 árboles plantados en 100 hileras de 100 árboles cada una. Si se escogiera la muestra solamente del cuadro interior, de 98 x 98 árboles, en un deseo de obtener una imagen “mas representativa” de la 5
supervivencia, podría ocurrir un sesgo, simplemente porque los árboles limítrofes no tuvieran la oportunidad de aparecer en la muestra. La técnica de estimar el parámetro después que se ha tomado la muestra, es también una fuente factible de sesgos. Si, por ejemplo, la supervivencia en una labor de plantación se estima tomando simplemente una media aritmética de los estimadores de supervivencia de dos áreas, la media resultante puede estar seriamente sesgada si un área tiene 250 hectáreas y las otras 5 hectáreas de superficie. Se obtendría una mejor estimación del total mediante una ponderación de los estimadores de los dos campos en proporción a sus dimensiones. Otro ejemplo de este tipo de sesgo se presenta en la práctica forestal muy común de estimar el diámetro medio a partir del diámetro del árbol que se obtiene por el área basal media. Este procedimiento da de hecho, la raíz cuadrada del diámetro cuadrado medio, el que no coincide con la media aritmética del diámetro, a menos que todos los árboles sean exactamente de la misma dimensión. El sesgo casi nunca es deseable, pero no debe ser causa de pánico. Es algo con lo que el estadístico tiene que convivir. Su eliminación completa puede ser muy costosa en dólares, en precisión, o en ambos. Lo que interesa es reconocer las fuentes posibles de sesgo y balancear loas efectos contra el costo de reducirlo o eliminarlos sabe que algunos de los procedimientos que se discuten en este boletín son ligeramente sesgados. Se usan porque el sesgo es frecuentemente trival y porque aquellos pueden ser mas precisos que los procedimientos insesgados. Precisión y exactitud.- Un estimador malamente sesgado puede ser preciso, pero nunca exacto. Aquellos que encuentran esto difícil de digerir, seguramente estarán pensando en que la precisión es sinónimo de exactitud. Al estadístico, como tal, no le conmueve que le señalen que varios expertos en léxico tengan el mismo punto de vista. Entre los estadísticos, la “exactitud” se refiere al éxito obtenido al estimar el valor verdadero de una cantidad; la “presión” se refiere al agrupamiento de valores muéstrales alrededor de su propia medida, la cual, si es sesgada, no puede ser el valor real. La exactitud, o cercanía al valor verdadero puede estar ausente debido al sesgo, a la falta de preescisión, o a ambos. A una persona que tira al blanco y coloca todos sus tiros en el círculo de 6 milímetros, en el blanco de 10 anillos, puede considerarse exacta; a quien coloca sus tiros en el circulo de 6 milímetros a las 12 de la noche se le considera igualmente preciso pero ni con mucho tan exacto. Un ejemplo para forestales podría ser una serie de mediciones cuidadosas hechas en u árbol individual con una forcípula, (calibrador vernier) un brazo de la cual, no esta en Angulo recto con la regla graduada. Debido a que las mediciones se han hecho cuidadosamente, no deberían variar mucho, sino que deberían agruparse aproximadamente al valor de su media, ellas son precisas. Sin embargo, como la forcípula no esta ajustada debidamente, los valores medidos estarán distantes del valor verdadero (sesgo) y la estimación del diámetro será inexacta. Si la forcípula se ajusta debidamente, pero se emplea con descuido, las mediciones pueden ser insesgadas, pero no podrán ser ni exactas ni precisas. Variables, continuas y discretas. La variación es uno de los hechos de la vida. Es difícil si esto es bueno o es malo, pero si podemos decir que sin aquella, no había problemas de muestro (o estadístico). El objeto de este boletín es el de enseñar como hacer frente a varios de los problemas de muestreo creados por la variación natural. 6
Para entender a los estadísticos es útil conocer su lenguaje, y en este lenguaje juega una parte activa el término variable. Una característica que puede variar de unidad a unidad, se conoce como variable. En una población de árboles, el numero de conos, el volumen en metros cúbicos, y la categoría de forma. Como algunos árboles pueden ser de pino “loblolly”, (pino teda o de incienso) otros de pino “slash” (pino de hoja corta) y aun otros pinos gigantescos (secoyas), la especie es también una variable. La presencia o la ausencia de insectos, el color del follaje, y el hecho de que el árbol este vivo o muerto, son variables también. Una variable que se caracteriza por estar relacionada con alguna escala numérica de medición, cualquier intervalo de la cual puede, si se desea, subdividirse en un conjunto infinito de valores, se dice que es continuo. La longitud, la altura, el peso, la temperatura y el volumen, son ejemplos de variables que pueden considerarse, con frecuencia, como continuas. A las variables cualitativas y a aquellas que se representan por valores enteros o por cocientes de valores enteros, se les llama discretas. Se pueden reconocer dos formas de datos discretos: los atributos y los conteos. En el primero de estos, se clasifica al individuo por la proporción o porcentaje de ellos que tenga un atributo particular. Algunos ejemplos familiares son la proporción de plántulas de “pino slash” que están infectadas por un hongo, la proporción de cuadros de milésimo de hectárea con un arbolado, y el porcentaje de supervivencia de brinzales plantados. En la segunda forma, se describe al individuo por medio de un conteo que no se puede expresar como una proporción. El número de plántulas en una superficie de milésimo de hectárea, el número de insectos en un cono, el número de brotes en un tocón, y el número de flores femeninas en un árbol, son ejemplos comunes. Es necesario establecer una separación de variables continuas y discretas porque los dos tipos de datos pueden requerir de procedimientos estadísticos diferentes. La mayor parte de métodos de muestreo y de los procedimientos de cómputo que se describe en este manual fueron elaborados, mas que nada, para emplearlos en variables continuas. Los procedimientos que han sido ideados para varíales discontinuas son, generalmente, más complejos. Sin embargo, mediante el aumento del número de valores que una variable discreta puede adoptar, se hace factible con frecuencia, el manejar esos datos por medio de los métodos de variables continuas. Así, los porcentajes de germinación basados en 200 o mas semillas por caja, pueden ser tratados, generalmente, por los mismos procedimientos que se usan para datos de medición. La sección que empieza en la pagina 66, describe el muestreo aleatorio simple con datos de clasificación y da algunas e ilustraciones de cómo pueden usarse para valores de clasificación y conteo, los procedimientos de muestreo para datos continuos. Funciones de Distribución Una función de distribución nos muestra para la población, la frecuencia relativa con la cual ocurren los valores diferentes de una variable. Conociendo la función de distribución podemos decir qué proporción de los individuos se encuentran dentro de ciertos límites de valores o tamaño. Cada población tiene su propia función particular de distribución. Existen, sin embargo, ciertos tipos generales de función que son los que representan con mayor frecuencia. Las mas comunes son “la normal”, “la binomial”, “la de Poisson”. La distribución normal, tiene forma de campana y es familiar para la mayor parte de los forestales; se encuentra, con frecuencia cuando se trabaja con variables continuas. La binomial esta asociada con valores donde se observa un número fijo de individuos en cada unidad, y la unidad esta caracterizada por el número de individuos que tienen alguna atributo particular. La distribución de Poisson puede 7
presentarse en el caso en que las unidades individuales se caractericen por un conteo que no tenga un límite superior fijo, particularmente si tienden a predominar conteos de cero o de magnitud muy baja. La forma de función de distribución impone al tratamiento estadístico apropiado para un conjunto de datos. Rara vez se conocerá la forma exacta de la distribución, pero pueden obtener algunas indicaciones por medio de los valores de la muestra o a través de una familiaridad general con la población. Los métodos que se emplean para trabajar con una población distribuida normalmente, son más simples que la mayoría de los métodos que se han desarrollado para otras distribuciones. Afortunadamente, se ha demostrado que, independientemente de la distribución que siga una variable, las medidas de muestras grandes tienden a seguir una distribución que se aproxima a la normal, y puede tratarse con forme a los métodos de la distribución normal. HERRAMIENTAS DE TRABAJO Índices, sumatorias y paréntesis Al describir los varios métodos de muestreo, se hará uso frecuente de índices, paréntesis y símbolos de sumatorias. A algunos técnicos que por primera vez se relaciona con muestreo, esto les producirá cierto descontento; a otros los hará enojarse de lleno. Sin embargo, el propósito no es impresionar o confundir al lector. Este simbolismo es como los signos de +,- e =; solamente una forma concisa de expresar ideas que serían muy molestas si se expresaran en lenguaje convencional. Y en la misma forma que los símbolos comunes de Algebra, el usarlos y entenderlos es sólo cuestión de práctica. Índices.- La existencia de un Xi, Zjk o Yilmn produce un gesto de desagrado y de confusión en la cara de muchos forestales. Sin embargo, la interpretación de esta notación es muy simple. En Xi, el índice i quiere decir que la x puede adoptar formas o valores diferentes. El valor particular de i dice con qué forma o valor de x estamos tratando. La i puede hacer referencia a una característica particular de un individuo. El término X1 podría ser la altura del individuo, X2 podría ser su peso, X3 su edad y así sucesivamente. En el texto debe indicarse el significado que se pretenda dar. Con frecuencia se indicará a una variable (digamos X) por más de un procedimiento. Así, bien podríamos desear hacer referencia a la edad del segundo individuo o a la altura del primero. Esta clasificación doble se logró dos índices. En el caso de Xik, la i podría identificar la característica (para altura, i=1; para peso, i=2; y para edad, i=3). La k podría usarse para designar con que individuo estamos tratando. Consecuentemente, X2,7 nos diría que estamos refiriéndonos al peso (i=2) del séptimo individuo k=7). Este procedimiento puede extenderse hasta donde se desee. Si los individuos del ejemplo anterior fuesen de grupos diferentes, podría usarse otro índice (digamos j) para identificar al grupo. El símbolo Xijk indicaría la característica número i del individuo número k del grupo número j. Sumatorias.- Para indicar que van a sumarse varios valores (digamos 6) da una variable (Xi) podríamos escribir (X1+ X2+ X3+ X4+X5+X6) Una forma más breve de decir lo mismo es 8
(X1+ X2+ …+X6) Los tres puntos (…) indican que continuamos haciendo la misma cosa para todos los valores de X3 a X5 como ya se hizo para X1 y X2. Se puede expresar en forma más compacta la expresión anterior mediante n
∑x . i
i =1
En palabras, esto nos dice que se deben sumar todos aquellos valores de Xi, permitiendo que i varié de 1 hasta 6. El símbolo ∑ , que corresponde a la letra griega sigma, indica que se debe llevar a cabo una suma. La X indica que es lo que debe sumarse y las letras colocadas arriba y debajo de ∑ señalan los límites sobre los cuales se permitirá que varié el índice i. Si se van a sumar todos los valores de una serie, frecuentemente se omiten los valores extremos de la suma en el signo de sumatoria, dando
∑ x , ∑ x , o a veces ∑ x i
i
i
Todo esto implica una suma de todos los valores de Xi. Los mismos principios se hacen extensivos a las variables que se identifican con dos o más índices. Se puede emplear un signo separado de sumatorias para cada índice. Así, podríamos tener 3
4
∑∑ x i =1 j =1
ij
Esta expresión indica que debemos sumar todos los valores de Xij que tengan “j”de 1 a 4 c “i” de 1 a 3. Si se escribe conforme al procedimiento largo, esto significa (X1,1, X1,2, X1,3, X1,4, X2,1, X2,2, X2,3, X2,4, X3,1, X3,2, X3,3, X3,4) Como en el caso de un solo índice, cuando se va a sumar todos los valores de una serie, los valores extremos de la sumatoria pueden omitirse, y a veces es suficiente un solo símbolo de sumatorias, este tipo de suma puede simbolizarse por
∑∑ x , ∑ x , ∑∑ x , ∑ x , o quizá aún por ∑ x ij
i
j
ij
ij
ij
i, j
Si se sustituye un valor numérico por una de las letras del índice, se puede desarrollar la sumatoria haciendo que varié la letra del índice, pero conservando al otro índice en el valor especificado. Por ejemplo,
9
∑ x = (x 4
j =1
3j
3,1
+ x 3, 2 + x 3 , 3 + x 3, 4
)
Y,
∑ x = (x 5
i =1
i2
1, 2
+ x2, 2 + x3, 2 + x4, 2 + x5, 2
)
Empleo de paréntesis. — Cuando deben efectuarse otras operaciones junto con la adición, pueden emplearse paréntesis en alguna forma para indicar el orden de las operaciones, por ejemplo,
∑x
2 i
i
Nos dice que elevemos al cuadrado cada valor de x, y que después sumemos estos valores. Pero 2
⎜⎛ ∑ xi ⎞⎟ ⎝i ⎠
Nos indica que sumemos todos los valores de Xi y después elevar esa suma al cuadrado. La expresión
∑∑ x i
2 ij
j
Indica que se eleve al cuadrado cada Xij y después sumar los cuadrados. Pero 2
⎛ ⎞ ∑ ⎜ ∑ x ij ⎟ ⎝j ⎠ i
Expresa que para cada valor de i debemos, primero, sumar los Xij por sobre todos los valores del j. A continuación, este ⎛ ⎞ ⎜ ∑ xij ⎟ ⎜ ⎟ ⎝ j ⎠
Se eleva al cuadro y estas sumas al cuadrado se suman por sobre todos los valores de i. Si el rango de j varia de 1 a 4 y el rango de i es de 1 a 3, entonces esto quiere decir
10
2
⎛4 ⎞ ∑ ⎜ ∑ x ij ⎟ = (x + x + x + x ⎝ j=1 ⎠ + (x + x + x + x + (x + x + x + x 3
i =1
1,1
1,2
2,1
2,2
3,1
1,3
2,3
3,2
3,3
)
2
1,4
) )
2
2,4
2
3,4
La expresión 2
⎛∑ ∑ ⎞ ⎜ xij ⎟ ⎝i j ⎠
De a entender que hay que sumar los valores Xij por sobre todas las combinaciones de i y de j posteriormente elevar el total al cuadro. Consecuentemente,
⎛x + x + x + x ⎜ 3 4 ⎛∑ ∑ ⎞= xij ⎟ ⎜ + x + x + x + x ⎜ ⎝ i =1 j =1 ⎠ ⎜ ⎝+ x + x + x + x 1,1
2
1, 2
1, 3
2
⎞ ⎟ ⎟ ⎟ ⎠
1, 4
2 ,1
2, 2
2,3
2, 4
3,1
3, 2
3, 3
3, 4
Donde se van a efectuar operaciones que se refieran a dos o más variables diferentes, se aplican los mismos principios 3
∑x y =x y + x y + x y i =1
i
i
1
1
2
3
2
3
Pero,
⎛ 3 ⎞⎛ 3 ⎞ ⎜ ∑ xi ⎟ ⎜ ∑ y ⎟ = (x1 + x2 + x3 ) ⎝ i =1 ⎠ ⎝ i =1 i ⎠
(y + y + y ) 1
2
3
11
Nota: aunque se advierte fácilmente, con frecuencia se olvida que
∑x
2
i
Generalmente es
i
2
⎛ ∑ x ⎞⎟ diferente a ⎜ ⎝ i i⎠
Y en la misma forma,
∑x y i
i
i
⎛ ⎞⎛ ⎞ Usualmente difiere de ⎜ ∑ xi ⎟⎜ ∑ y ⎟ i ⎝ i ⎠⎝ i ⎠
Para practicar. — Sin aun considera que este simbolismo no es del todo accesible para usted, practique los ejemplos ya resueltos que se presentan en la pagina 83 Variancia En un rodal de árboles, los diámetros casi siempre muestran algo de variación. Algunos son mayores del diámetro medio, mientras que otros son menores, y aun otros se acercan aceptablemente al valor medio. Desde luego que seria valioso contar con alguna información respecto de esta variación. No es difícil darse cuenta que, para obtener una buena estimación del diámetro medio de un sitio donde los diámetros varían de 5.0 cm. a 75.0 cm., se requeriría de un mayor numero de observaciones que en el caso en el que el rango fluctué de 25.0 cm. a 30.0 cm. La medida de variación de empleo más común por los estadísticos es la variancia. La variancia de los individuos es una población, es una medida de la dispersión de valores unitarios individuales con referencia a su medida. Una variancia grande indica una amplia dispersión, una variancia pequeña señala poca dispersión. La variancia de los individuos es una característica de una población (un parámetro). Rara vez llegaremos a conocer la variancia de la población, casi siempre debe estimarse de datos muéstrales. Para la mayor parte de los datos obtenidos por medición forestal, la estimación de la variancia a partir de una muestra aleatoria simple esta dada por 2
_⎞
⎛ ∑ ⎜⎜ y i − y ⎟⎟ ⎠ ⎝ = n
i =1
s
2
n −1
Donde: S2 = Estimación muestral de la variancia de la población. yi = El valor de la unidad número “i” en la muestra.
12
_
y
= la media aritmética de la muestra, esto es, n
_
y=
∑y i =1
i
n
n = al numero de unidades observadas en la muestra. Aunque no lo parezca así, el cálculo de la variancia muestral se simplifica reescribiendo la ecuación anterior en la forma siguiente: 2
s
2
=
⎛⎜ ∑n y ⎞⎟ i i =1 ⎠ ⎝ ∑y − n n
2
i =1
i
(n − 1)
Supongamos que se tienen observaciones sobre tres unidades con los valores 7, 8 y 12. Para esta muestra, nuestra estimación de la variancia es
s2 =
( 7 2 + 8 2 + 12 2 −
(
)
2
27 ) 3
2 =
257 − 243 =7 2
La desviación estándar, un término familiar para todos aquellos que llevaron algún curso de gasometría, es solamente la raíz cuadrada de la variancia. Se simboliza, y en el ejemplo anterior se estimaría como
s = 7 = 2.6458 Errores estándar y límites de confianza Al igual que las unidades individuales en una población, las estimaciones muestrales están sujetas a variación. El diámetro medio de un sitio, según se estime de una muestra de tres árboles. Una estimación podría estar próxima a la media, siendo ligeramente mayor. Otra podría ser mucho mayora un, y la próxima podría localizarse debajo de la media. Las estimaciones varían porque se observan diferentes unidades individuales en las diversas muestras. Obviamente, seria deseable contar con alguna indicación de cuanta variación podría esperarse entre estimaciones de muestras. Un estimador del diámetro medio de árboles que ordinariamente varia entre 25.5 cm. y 30.0 cm. inspiraría mas confianza que uno cuya fluctuación fuese de 15.0 a 45.0 centímetros.
13
En la sección previa se hablo de la variancia y de la desviación estándar (desviación estándar = variancia ) como medidas de la variación entre individuos en una población. Para indicar como podría variar una serie de estimaciones, se usan medidas de la misma forma. Se les llama la variancia y el error estándar del estimador (error estándar del estimador = variancia del estimador ). El termino “error estándar del estimador”, usualmente se abrevia error estándar, cuando al estimador referido es obvio. El error estándar es solamente una desviación estándar, pero entre estimadores, mas bien que entre unidades individuales. De hecho, si se obtuvieran varias estimaciones por medio de un muestreo repetidote una población, la variancia y el error estándar de estas estimaciones podrían ser calculadas por medio de las ecuaciones que se dieron en la sección anterior para la variancia y para la desviación estándar de individuos. Por el muestreo repetido es innecesario; se pueden obtener la variancia y el error estándar de un solo conjunto de unidades individuales en la población, y estas son los piezas de información necesarias para calcular la variancia y el error estándar. Para cada uno de los métodos de muestreo descritos en este boletín, se da el procedimiento para el cálculo del error estándar como un proceso innecesario. Sin embargo, es evidente que estimación de una muestra carece casi siempre de valor, si no se cuenta con alguna indicación de su confiabilidad. Conocido como el error estándar, es posible establecer límites que sugieran que tan próximos podríamos estar al parámetro que se estima. Estos se conocen como límites de confianza. En el caso de muestras grandes, se puede tomar como una aproximación burda el que, a menos que una posibilidad de 1 en 3 haya ocurrido en el muestreo, el para metro estará dentro de un error estándar del valor estimado. Así, para el diámetro medio de árboles de una muestra cuyo valor sea de 16 pulgadas (40 cm.) Con un error estándar de 1.50 pulgadas (3.75 cm.), podemos deci8r que la media verdadera se localiza en algún valor dentro de los límites de 14.5 pulgadas (36.25 cm.) a 17.5 pulgadas (43.75 centímetros). Al hacer estas aseveraciones estamos en lo correcto, a la larga, en un promedio de dos ocasiones de cada tres. Una vez de tres nos equivocamos debido a la variación natural del muestreo. Los valores dados por la estimación de la muestra mas o menos un error estándar, se conocen como los límites del 67 por ciento de confianza. Por medio de una ampliación de los límites podremos tener más confianza de que se incluirá al parámetro. En esta forma, el estimador más o menos dará dos errores estándar límites que incluirán al parámetro, a menos que ocurrirá una posibilidad de 1 en 20. Estos se identificaran como los límites de 95 por ciento de confianza. Los límites de 99 por ciento de confianza de definen como la media mas o menos 2.6 errores estándar. Los límites del 99 por ciento de confianza incluirán al parámetro, ano ser que llegue a presentarse una probabilidad de 1 en 100. Debe subrayarse que este método de calcular intervalos de confianza dará aproximadamente validas solamente en muestras grandes. La definición de una muestra grande depende de la población en si, pero en general cualquier muestra con menos de 30 observaciones no reúne los requisitos para ser considerada como tal. Se discutirán algunas técnicas para el cálculo de límites de confianza para muestras pequeñas, en algunos de los métodos de muestreo.
14
Expansión de variancias y errores estándar A menudo, hay necesidad de multiplicar un estimulador por una constante, con el objeto de darle una forma de mas significaron. Por ejemplo, si se hace un inventario empleando sitios de un quinto de acre (ocho centésimos de hectárea), y se calcula el volumen medio por sitio, esta estimación tendría que ser multiplicada por 5, en tal forma de expresar la media estimada en acres (por cien octavos para expresarla en ha). O, en el caso de 800 acres (324 ha), el volumen medio obtenido para sitios de un quinto de acre tendría que multiplicarse por 4,000 (el numero de quintos de acre de la superficie) con el objeto de estimar el volumen total. Puesto que el expansionar de este modo a una variable hace que expansione también su variabilidad, será necesario calcular aun variancia y un error estándar para los valores aumentados, esto es fácil. Si la variable x tiene como variancia s2 y se multiplica esta variable por una constante (digamos k), el producto (k x) tendrá una variancia de k2 s2. Supongamos que el volumen medio estimado en sitios de un quinto de acre (ocho centésimos de ha) es de 1,400 pies-tabla, con una variancia de 2,500 pies-tabla (dando un error de 2,500 = 50 pies-tabla). El volumen medio por acre es: Volumen medio acre = 5 (1,400) = 7,000 pies-tabla y la variancia de esta estimación es Variancia del volumen medio por acre = (52 )(2,500) = 62,500 . El error estándar del volumen medio por acre seria variancia del volumen medio por acre = 250 pies-tabla. Advierta que si la desviación estándar (o error estándar) de X es s, entonces la desviación estándar (o error estándar) de kx es simplemente ks. Así en el caso anterior, al ser error estándar del volumen medio estimado en los sitios de un quinto de acre equivalente a 50, el error estándar del volumen medio por acre es igual a (5) (50) = 250. Esta es una regla simple pero muy importante y cualquiera que este en contacto con estimaciones de muestras debe dominarla por completo. Se puede ser una expansión de las variables mediante la adición de una constante. Una expansión de este tipo no afecta la variabilidad y no requiere de ajuste de la variancia o de errores estándar. Así, si
z=x+k Donde x es una variable y k una constante, entonces
zs 2 = sz 2 Esta situación se representa donde, para propósitos de calculo, se codifican los datos por medio de sustracción de una constante. La variancia y el error estándar de los valores codificados. Dadas las tres observaciones 127, 104 y 114, podríamos, para fines de cómputo, codificar estos valores restando 100 de cada uno, para obtener 27, 4 y 14. La variancia de los valores codificados es
15
s
2
=
( 27
2
+ 4 + 14 2
2
)
( 45) −
2
3
2
= 133
Que es igual a la variancia de los valores originales
s =
(127
2
+ 104 + 114 ) − 2
2
2
( 345) 3
2
2
=133
Coeficiente de variación El coeficiente de variación (C) es el cociente de la desviación estándar sobre media. Para una muestra con una media1 de coeficiente de variación como
_
x =10 y una desviación estándar de s = 4 estimaríamos el
C=
3 _
x
=
4 = 0.4 o 40 por ciento 10
La variancia, nuestra medida de variabilidad entre unidades, esta relacionada frecuentemente a la magnitud de la medida de las unidades; características grandes tiene a tener una variancia mayor que características pequeñas. Por ejemplo, la variancia de una población de forestales. El coeficiente de variación de confiere a la expresión de variabilidad una base relativa. La población de alturas de árboles bien pudiera tener una desviación estándar de 4.4 pies (.34 metros), mientras que la población de forestales podría tener una desviación estándar de 0.649 pies (0.198 metros). En unidades absolutas, los árboles son más variables que los forestales. Pero, si la altura media de árboles es de 40 pies (12.2 metros), y la altura media de los forestales es de 5.9 pies (1.80 metros), las dos poblaciones tendrían la misma variabilidad relativa. Ambos tendrían un coeficiente de variación C= 0.11. La variancia depende también de las unidades de medición usadas. La desviación estándar de las alturas de forestales fue de 0.649 pies (0.198 metros). En el caso en que las alturas se hubiesen medido en pulgadas, la desviación estándar habría sido 12 veces mayor ( siz = 12 xs2 = 12sz ) o 7.788pulgadas. Pero el coeficiente de variación seria igual, independientemente de la unidad de medición, en cualquier caso, tendríamos
C=
s _
x
=
0.649 foot 7.788 inches = = 0.11 u 11 por ciento 5.9 feet 70.8 inches
Además de colocar las variabilidades en una base comparativa, el coeficiente de variación simplifica el trabajo de estimar y recordar el grado de variabilidad de poblaciones diferentes. En muchas de las poblaciones con las cuales tiene que ver el forestal, el coeficiente de variación 1
la media muestral de una variable x se simboliza frecuentemente por x
16
es de aproximadamente 100%. Debido a que muchas veces es posible suponer el tamaño de la media de la población, se puede estimar rápidamente la desviación estándar. Tal información es útil para planear un muestreo. Covarancia En algunos métodos de muestro, se toman mediciones sobre dos o mas características para cada unidad de muestro. Al medir producción de forraje, por ejemplo, podríamos obtenerle peso verde de una gramínea cortada a una altura de 1 pulgada (2.54 centímetros) en un sitio circular de un pie (30 centímetros) de diámetro. Después, podríamos desear obtener el peso seco en estufa de la misma muestra. La convarancia es una medida de cómo varían dos variables una en relación de la otra (covariabilidad). Supongamos que dos variables se identifican como y y x. Si los valores mas grandes de y tienden a asociarse con los valores mayores de x, la convariancia será positiva. Si los valores mas grandes de y están asociados con los valores mas pequeños de x, la convariancia será negativa. Cuando no existe asociación particular de los valores de y y de x, la convariancia se aproxima a cero. Como la variancia, la covarancia es una característica de poblaciones un perímetro. En el caso de muestras aleatorias simples, la formula para la convariancia estimada (Szy) de x y de y es n
s
xy
=
⎛
_
⎞⎛
_
⎞
∑ ⎜⎝ x − x ⎟⎠⎜⎝ y − y ⎟⎠ i =1
i
i
(n − 1)
Se logra una simplificación de la covariancia de la muestra al re-escribir la formula
⎛ n ⎞⎛ n ⎞ ⎜ ⎟⎜ ∑ y ⎟ ∑ x i n ⎝ i =1 ⎠⎝ i =1 i ⎠ − y ∑ x i i n s xy = i =1 n −1 Supóngase que una muestra de n = 6 unidades ha producido los valores siguiente de x y de y i
y x
i
i
1
2
3
4
5
6
totales
2
12
7
14
11
8
54
12
4
10
3
6
7
42
Entonces,
(2)(12) + (12)(4) + ... + (8)(7 ) − ⎛⎜ (54)(42) ⎞⎟
s
xy
=
⎝
6 −1
6
⎠ = 306 − 378 = −14.4 5
17
El valor negativo indica que los mayores valores de y tienden a estar asociados con los valores menores de x. Coeficiente de correlación La magnitud de la convariancia, como la de la variancia, esta frecuentemente relacionada al tamaño de los valores unitario. Unidades con valores grandes de x y de y tienden a tener valores mayores de la convariancia que unidades con valores menores de x y de y. una medida del grado de asociación lineal entre dos variables, que no esta afectada por el tamaño de los valores unitarios, es el coeficiente de correlación. Una estimación (r) del coeficiente de correlación basado en la muestra es r=
Covariancia de x y y = (Variancia de x )(Variancia de y )
s (s )(s ) xy
2
2
x
y
El coeficiente de correlación puede variar entre – 1 y + 1. Como en la covariancia, un valor positivo indica que los valores mas grandes de y tienden a estar asociados con los valores mayores de x. Un valor negativo indica una asociación de los valores mayores de y con los valores menores de x. Un valor próximo a +1 o a –1 indica una asociación linear considerable entre las dos variables. Correlaciones cercanas a cero sugieren que hay asociación linear escasa o nula. Para los datos que se presentaron en la discusión de covariancia encontramos que Sxy = -14.4. Para los mismos datos, la variancia de la muestra de x es Sx2 = 12.0 y la variancia de la muestra de y es Sy2 = 18.4 Entonces el estimador de la correlación entre y y x es
r
xy
=
− 14.4
(12.0)(18.4)
=
− 14.4 = −0.969 14.86
El valor negativo indica que, conforme x aumenta, y disminuye, mientras que la cercanía de r a –1 indica que la asociación linear es muy próxima. Un aspecto importante que debe recordarse, en relación con el coeficiente de correlación, es que se trata de una media de asociación linear entre dos variables. Un valor de r próximo a cero no necesariamente significa que no hay relación entre dos variables. Simplemente significa que no hay una buena relación linear (linear recta). Podría haber, de hecho, una relación no linear considerable. Debe de recordarse también que el coeficiente de correlación calculado, a partir de un conjunto de datos de muestra, es un estimador la misma forma que la media de la muestra es un estimador. Al igual que la muestra, la confiabilidad de un coeficiente de correlación aumenta con el tamaño de aquella. La mayoría de los libros de estadística cuentan con tablas que ayudan a juzgar el grado de confianza que pueda acreditársele a un coeficiente de correlación muestral. Independencia Cuando no existe relación entre dos variables, se dice que son independientes; el valor de una variable no dice absolutamente nada respecto al valor de la otra. Las mediciones comunes de
18
independencia (o ausencia de ella) son la convariancia y el coeficiente de correlación. Como se hizo notar con anterioridad, cuando existe poca asociación, o ausencia de ella, entre los valores de dos variables, su convariancia y correlación se aproxima a cero (pero llévese en mente que lo contrario no es necesariamente cierto; una correlación de cero no prueba que se carezca de asociación, sino solamente indica que no hay fuerte relación linear). En poblaciones biológicas, las variables completamente independientes son raras, pero muchas variables están relacionadas muy débilmente y pueden ser consideradas como independientes, como ejemplo, el crecimiento anual en altura de pinos “loblolly” dominantes, cuyo tamaño sea comprable al de postes, rara vez es independiente del área basal del sitio dentro de límites relativamente amplios (digamos de 50 a120 pies cuadrados por acre – 11.5 a 27.5 m2/ha). Hay también evidencia considerable en el sentido de que el crecimiento periódico en volumen expresado en metros cúbicos, esta pobremente asociado con (o sea que es casi independiente) el área basal del sitio dentro de un rango aceptablemente grande. El concepto de independencia también se aplica a estimaciones muéstrales, sin embargo en este caso, la independencia (o ausencia de ella) puede deberse al método de muestreo así como a la relación entre las variables básicas. Para propósitos de discusión, pueden reconocerse dos situaciones: Dos estimaciones que se han hecho del mis parámetro. Estimaciones que se ha hecho de dos parámetros diferentes. En la primera situación, el grado de independencia depende enteramente del método de muestreo. Supongamos que se hacen dos muestreos completamente separados, con el objeto de estimar el volumen medio por hectárea de una área forestal. Debido a que se involucran diferentes sitios muestra, las estimaciones del volumen medio que se obtendrían de estos muestreos serían considerados como estadísticamente independientes. Pero ahora supóngase que se ha hecho una estimación de un muestreo y después se escogen sitios adicionales de muestreo y se hace una segunda estimación empleando datos de ambos muestreos, el primero y el segundo. Puesto que algunas de las mismas observaciones entran en ambas no son independientes. En general, dos estimaciones de un mismo parámetro no son independientes si algunas de las mismas observaciones se usan en ambos. El grado de asociación dependerá de las proporciones de observaciones comunes a los dos estimadores. En la segunda situación (estimaciones de dos diferentes parámetros) el grado de independencia puede depender de ambos el método de muestreo y el grado de asociación entre las variables básicas. Si se hiciera una estimación de la altura y del diámetro medio de una población de árboles por medio de una selección aleatoria sobre un número de árboles individuales, midiendo, tanto la altura como el diámetro de cada árbol, las dos estimaciones no serían independientes. La relación entre las dos estimaciones (generalmente medidas por su covariancia o correlación) dependería en este caso, del grado de asociación entre la altura y el diámetro del árbol individuales. Por otro lado, si se utilizara un conjunto de árboles, para estimar la altura media, se escogería otro conjunto para la estimación del diámetro medio, las dos estimaciones serían estadísticamente independientes, aun cuando la altura y el diámetro no son independientes cuando se miden en el mismo árbol. Es esencial contar con una medida del grado de asociación (covariancia) entre dos estimaciones muéstrales para la evaluación del error en varios tipos de muestreo. En este manual, se presenta el procedimiento de cómputo con la covariancia de dos estimaciones con
19
respecto a los métodos de muestreo descritos en los casos en que se ha considerado necesario. Variancias de productos, cocientes y sumas En una sección previa aprendimos que si se estima a una cantidad como el producto de una constante por variable (digamos Q = kz, donde k es una constante y z es una variable), la 2 2 2 variancia de Q será sQ = k s z . Así, si deseamos estimar el volumen total de un sitio, _
multiplicaríamos la media estimada por unidad ( y , una variable) por el número total de unidades (N, una constante) en la población. La variancia del total estimado será
2
Ns
2 _
. Su
y
desviación estándar (o error estándar) seria la raíz cuadrada de su variancia o N s _y . La variancia de un producto.- En algunos casos, la cantidad que nos interesa multiplicando dos variables y una constante. Así,
Q
1
Donde: k = una constante y z y w = variables que tienen variancias
se estima
= kzw
s
2 z
y
s
2 w
y covariancia
s
zw
.
Para muestras grandes, la variancia de Q1 se obtiene mediante
⎛ s 2z s 2w 2s wz ⎞ s Q1 = Q ⎜⎝ z 2 + w 2 + zw ⎟⎠ 2
2 1
Como un ejemplo de tales estimaciones, considérese un proyecto para el muestreo de una extensa superficie forestal, el cual utiliza el sistema de conteos por puntos en fotografías áreas para estimar la proporción de un área que se encuentra arbolada (p) y empleando, además, verificación directa, en el bosque, para la estimación del volumen medio por hectárea (v) del área arbolada. Para estimar la superficie arbolada, se multiplica la superficie total en el área por la proporción arbolada que se ha estimado. Esta, a su vez, se multiplica por le volumen medio por hectárea arbolada para dar el volumen total. Si lo anterior se expresa por medio de una fórmula, se tendrá
⎛ _ ⎞⎛ _ ⎞ Volumen total = N⎜ p ⎟⎜ v ⎟ ⎝ ⎠⎝ ⎠ Donde: N = Superficie total de la zona en hectáreas (una constante conocida) _
p = proporción calculada del área arbolada. _
v = el volumen medio calculado por hectárea arbolada. La variancia del volumen estimado total sería
20
2
⎛
⎛ ⎛ _ ⎞⎛ _ ⎞ ⎞ ⎜⎜ s s s = ⎜ N ⎜ p ⎟⎜ v ⎟ ⎟ ⎜ _ + _ ⎝ ⎝ ⎠⎝ ⎠ ⎠ ⎜ p v 2 _
2
p 2
⎝
⎞ 2s p v ⎟ v + _ ⎟ 2 _ ⎟ pv ⎟ ⎠ 2
_
_
Si las dos estimaciones se obtienen de muestreo separados, se consideran independientes y la covariancia se acepta como igual a cero. La fórmula de la variancia sería
⎛ ⎛ s ⎜ ⎜ ⎝ ⎝ 2
= ⎜ N⎜
⎞ 2⎛ 2⎟ ⎜ 2 _ ⎞⎛ ⎞ ⎞ ⎜ s _ s _ ⎟ p ⎟⎟⎜⎜ v ⎟⎟ ⎟⎟ ⎜ _ p2 + _ v2 ⎟ ⎠⎝ ⎠ ⎠ ⎜⎜ p v ⎟⎟ ⎠ ⎝
_
Variancia de un cociente.- En otras situaciones, la cantidad que nos interesa se calcula como un cociente de dos estimadores multiplicado por una constante. De esta manera, podemos tener
Q
2
=k
z w
Cuando se trata de muestras grandes, la variancia de Q2 puede obtenerse en forma aproximada aplicando la fórmula 2 2 s w 2s zw ⎤ 2 ⎡ sz = + Q s Q2 2 ⎢⎣ z 2 w2 − zw ⎥⎦ 2
Esta fórmula entra en uso con el estimador de razón de madias que se describe en la sección de estimadores de regresión. Variancia de una suma.-En ocasiones deseamos usar la suma de dos o más variables como una estimación de alguna cantidad. Con dos variables tendríamos
Q 3 = k 1x 1 + k 2 x 2 Donde: k1 y k2 = constantes x1 y x2 = variables que tienen como variancias
2
2
1
2
s ys
y como covariancias
s
12
La variancia de esta estimación es
s
2 Q3
= k12s12 + k 22s 22 + 2k1k 2s12
21
Si medimos el volumen de madera aserrada (x) y el volumen de madera para postes (y) en los mismos sitios (empleando las mismas unidades de medición) y encontramos que los _
_
volúmenes medios son x y y , con variancias
s
2 _
x
y
s
2 _
y covariancia
y
s
__
xy
, entonces la media
del volumen total de árboles para postes y de mayores dimensiones, sería _
_
Volumen total medio = x y y La variancia de esta estimación es
s =s +s 2
2
2
_
_
x
y
+ 2 s x_ _y
Por supuesto que se obtendría el mismo resultado si se totalizaran los valores de x y de y para cada sitio, y después se calculara la variancia de los totales. Esta fórmula también se utiliza en el cálculo de medias ponderadas. Por ejemplo, suponiendo que se hayan llevado a cabo muestreos de dos rodales arbolados Rodal 1 Superficie = 3,200 acres (1,296 ha) Volumen medio estimado por acre = 4,800 pies-tabla Variancia de la media= 112,500 pies-tabla Rodal 2 Superficie = 1,200 acres (486 ha) Volumen medio estimado por acre = 7,400 pies-tabla Variancia de la media = 124,000 pies-tabla Al combinar estas dos medias, para estimar el volumen medio global por acre, sería deseable ponderar cada media por la superficie, antes de la suma y después dividir la suma de las medias ponderadas entre la suma de los factores de ponderación (esto es igual a estimar el volumen total de ambos rodales, dividiendo a continuación por área total, para obtener el volumen medio por acre). Por tanto, _
x=
3200 (4800) + 1200 (7400 ) (3200 + 1200)
⎛ 1200 ⎞ ⎛ 3200 ⎞ =⎜ ⎟ (7400) = 5509 ⎟ (4800 ) + ⎜ ⎝ 4400 ⎠ ⎝ 4400 ⎠ Dado que las dos medias de ambos rodales se obtuvieron de muestras independientes, la covariancia entre las dos estimaciones es cero, y la variancia de la estimación combinada sería
22
2 s_ =
( )
( )
2 3200 2 (112,500) + 1200 (124,000) 4400 4400
x
=
2 2 ( 3200) (112,500) + (1200) (124,000)
( 4400)
2
= 68,727 La regla general para la variancia de una suma es
Q = k1 x1 + k 2 x 2 + ... + k n x n Donde: ki = constantes xi = variables con variancias
s
2 Q
s
2 i
y covariancias
s
ij
por tanto
= k1 s1 + k 2 s2 + ... + k n sn + 2 k1 k 2 s12 2
2
2
2
2
2
+ 2 k1 k 3 s13 + ... + 2 k n −1 k n s(n −1)n
Transformación de variables Muchos de los procedimientos que se han descrito en este manual implican ciertas suposiciones, en cuanto a la naturaleza de la variable bajo estudio. Cuando una variable no se ajusta a las suposiciones de un procedimiento particular, debe emplearse algún otro método, o la variable debe ser modificada. Una de las suposiciones comunes nos dice que la variabilidad es independiente de la media. Algunas variables (por ejemplo, aquellas que siguen una distribución binomial o de Poisson) muestran tendencia a poseer una variancia que en alguna forma, esta relacionada con la media- poblaciones con medias grandes tienen a menudo variancia grande. Frecuentemente se hace una transformación de estas variables, con objeto de emplear procedimientos basados en la ausencia de relación entre variancia y la media. Si la elección del tipo de transformación es buena, los datos originales adoptan una escala en la cual su variabilidad es independiente de la media. Algunas transformaciones comunes son la raíz cuadrada, el arcoseno y los logaritmos. La transformación del arcoseno se ilustra en la página 74. Si un método parte de la suposición de que no existe relación linear entre dos variables, se hace necesario transformar a una o a ambas variables de modo que satisfagan esta suposición. Se puede transformar también a una variable para convertir su distribución en normal sobre la cual se basan muchos de los métodos estadísticos más simples. La persona con poca experiencia en muestreos debe acercarse a un experto, en el caso en que considere la posibilidad de hacer transformaciones. Finalmente, es conveniente hacer notar que la transformación no es sinónimo de codificación, que tiene por objeto simplificar el proceso de cálculo. Ni tampoco es una forma de expresión
23
matemática que tenga por objeto obtener respuestas que estén en concordancia con nociones preconcebidas. METODOS DE MUESTREO PARA VARIABLES CONTINUAS Muestreo al azar simple Todos los métodos de muestreo que se describen en este manual han partido del muestreo al azar simple. Por ser básico, el método se discutirá con mayor detalle que cualquiera de los demás procedimientos. La idea fundamental en el muestreo al azar simple es que, al escoger una muestra de “n” unidades, cada combinación posible de las “n” unidades debe tener igual oportunidad de ser escogida. Esto no equivale al requerimiento de que cada unidad en la población tenga igual oportunidad de ser escogida. Este último requerimiento puede satisfacerse por medio de varias formas de alcatorización restringida, y aun por métodos de selección sistemáticos. Es probable que el dar a cada combinación de “n” unidades la misma oportunidad de aparecer en una muestra de tamaño “n” unidades la misma oportunidad de aparecer en una muestra de tamaño “n”, sea una cosa difícil de visualizar, pero se logra fácilmente. Solamente es necesario asegurarse de que, en cualquier etapa del muestreo, la elección de una unidad particular no e vea influida por las otras unidades que han sido escogidas. Esta idea, expresada de otra manera, diría que la elección de cualquier unidad dada debe ser totalmente independiente de la elección del resto de unidades. Una manera de lograr esto consiste en asignarle a cada unidad en la población, un numero y después extraer “n” números de una tabla de números aleatorios (tabla1, página 88). También pueden escribirse los números sobre discos o tires de papel, los que se colocan en un recipiente, y después de agitarlos suficientemente, se extraen uno por uno. En el caso de unidades tales como semillas de árboles individuales, se pueden extraer al azar las unidades por si mismas. La selección de las unidades puede hacerse con o sin reemplazo. Si la selección se hace con reemplazo, a cada unidad se le da la oportunidad de aparecer en la muestra tan frecuentemente como resulte escogida. En el muestreo sin reemplazo se permite que cada unidad particular aparezca en al muestra solamente una vez. La mayor parte del muestreo forestal se hace sin reemplazo. Como se demostrara después, el procedimiento para el cómputo de los errores estándar depende de que el muestreo se haya hecho o no con reemplazo. Selección de muestra.- Mediante el muestreo de una plantación de 250 acres (101 ha) se ilustrara el método de selección, así como los cálculos involucrados. El objeto del inventario fue estimar el volumen medio por hectárea, de cuerdas de madera, de aquellos árboles cuyo D.A.P. supere el valor de 5 pulgadas (12.70 cm.) incluyendo la corteza. Se definieron a la población y a las unidades de muestreo como sitios cuadrados de un cuarto de acre de superficie (1,011 m2) considerando como vector unitario al volumen por sitio. La muestra consistió de 25 unidades escogidas al azar y sin reemplazo. Las unidades de un cuarto de acre fueron dibujadas sobre un mapa de plantación y se les asigno números del 1 al 1,000. De una tabla de dígitos aleatorios, se seleccionaros 25 números de tres dígitos para identificar a las unidades que habrían de incluirse en la muestra (se asocio al numero 000 con el sitio numero 1,000). Ninguna unidad de la muestra se contó más de una vez. Aquellas unidades que se obtuvieron por segunda ocasión se rechazaron, y se escogió al
24
azar a una unidad alternativa. Los volúmenes en cuerdas de madrea que se midieron en las 25 unidades, fueron los siguientes: 7 8 2 6 7
10 8 6 7 3 Total =
7 8 9 11 8
4 7 7 8 7
7 5 8 8 7 175
Estimaciones—si el volumen en cuerdas de la unidad i-ésima de muestreo, se designa como Yi, _
el volumen medio estimando ( y ) por unidad de muestreo es n
_
y=
∑y i =1
n
i
=
7 + 8 + 2 + ... + 7 175 = =7 25 25
7 cuerdas por sitio de un cuarto de acre El volumen medio por acre seria, por supuesto, cuatro veces el volumen medio por el sitio de un cuarto de acre, o 28 cuerdas. Como hay un total de N= 1000 unidades de un cuarto de acre en la plantación de 250 acres, ^
volumen total estimado ( y ) en la plantación seria _
y = N y = (1,000)(7 ) = 7,000 cuerdas ^
Alternativamente,
y = (28 cuerdas por acre)(250 acres) = 7,000 cuerdas ^
Errores estándar. Un primer paso en el computo del error estándar del estimador consiste en 2 hacer una estimación ( s ) de la variancia de los valores individuales de y y
2
⎛⎜ ∑n y ⎞⎟ i n 2 i =1 ⎠ ⎝ − yi ∑ 2 n i =1 = sy (n − 1) En este ejemplo,
25
s 2y = =
(7 2 + 82 + ... + 12 2)−
(175)
(25 − 1)
2
25
1,317 − 1,225 = 3.8333 cuerdas 24
Cuando el muestreo es un reemplazo, el error estándar de la media ( s
2 y
) para una muestra
aleatoria simple es 2 _ sy ⎛ n⎞ ⎜1 − ⎟ sy = n ⎝ N⎠
Donde: N = número total unidades de muestreo en toda la población. n = numero de unidades en la muestra. Para el inventario de la plantación
s
_
y
=
3.8333 ⎛ 25 ⎞ ⎜1 − ⎟= 25 ⎝ 1,000 ⎠
(0.1533)(0.975) = 0.3387 cuerdas
Este es el error estándar para media de sitios de un cuarto de acre. Recordando la reglas para la expansión de variancias y de errores estándar, el error estándar del volumen medio por acre es (4) (0.387) = 1.548 cuerdas. En la misma forma, el error estándar para el volumen total estimado
s
^
y
(s ) será ^
y
= N s = (1,000 )(0.387 ) = 387 cuerdas
n ) N se conoce como “corrección o población finita” o “cpf”. Se emplea cuando se hace una selección sin reemplazo de unidades. Se escogen a las unidades con reemplazo y se omite la “cpf” y la formula para el error estándar de la media se transforma en Muestreo con reemplazo.- En la fórmula para el error estándar de la media, el termino (1 −
s
^
y
=
s
2 y
n
Aun cuando el muestreo se hace sin reemplazo, la fracción de muestreo (n/N) puede ser extremadamente pequeña, haciendo que “cpf” adquiera un valor muy cercano a la unidad. Si
26
n/N es menor a 0.005, la “cpf” generalmente se ignora y se calcula al error estándar haciendo el uso de la formula mas corta. Límites de confianza para muestras grandes.- la media estimada de 28 cuerdas por acre, en si, no es muy explicita. De haber consistido la muestra de solamente dos observaciones, existe la posibilidad de que hiciésemos obtenido valores de dos y tres cuerdas en los sitios de un cuarto de acre, y el volumen medio estimado seria de 10 cuerdas por acre; o, si la elección hubiese recaído sobre 2 lotes de 10 y 11 cuerdas, la media seria de 42 cuerdas por acre. Para ser una estimación tenga un valor significado real es necesario calcular los límites de confianza, los que indican el rango, dentro del cual se espera (con un grado especifico de confianza) entrar al parámetro. Como se ya se discutió en el capitulo de errores estándar, los límites de confianza del 95 %, en el caso de muestras grandes, se da por la formula a continuación: Estimador ±2 (error estándar del estimador). Por lo tanto, el volumen medio por acre (28 cuerdas) que tuvo un error estándar de 1.548 cuerdas, tendría como límites de confianza 28 ± 2 (1.548) = 24.90 a 31.10 cuerdas por acre. (61.50 a 76.82 cuerdas por hectárea ) Y el volumen total de 7,000 cuerdas que tuvo un error estándar de 387 cuerdas tendría, como límites del 95% de confianza, 7,000 ± 2 (387) = 6,226 a 7,774 cuerdas A menos que ocurriese una posibilidad de 1 en 20, al muestrear al volumen medio por acre de la población se encuentra entre 24.9 y 31.1 cuerdas y el volumen total medio esta ubicado entre 6,226 y 7,774 juegos. Debido ala variación de muestreo, los límites del 95 % de confianza, erraran en su intento de incluir al parámetro, en caso de cada 20 como valore medio. Sin embargo, debe subrayarse que, estos límites y la aseveración de confianza que se haga, solamente consideran la variación por concepto de muestreo. Se parte de la base de que los valores de los sitios se obtuvieron sin error en las mediciones y de que los procedimientos de muestreo y de estimación son insesgados y están libres de errores de cómputo. Si estas suposiciones básicas no son validas, los estimadores y las aseveraciones de confianza no pueden ser más que un engaño estadístico. Límites de confianza para muestras pequeñas.- Ordinariamente, los límites de confianza basados en muestras grandes no son apropiados para muestras insistentes en menos de 30 observaciones. Cuando se trata de muestras más pequeñas, el procedimiento adecuado depende de la distribución de los valores unitarios en la población paterna, aspecto que este fuera de alcance de este manual. Afortunadamente, muchas mediciones forestales se ajustan a la distribución normal en forma de campana, o a una distribución que puede hacerse aproximadamente normal por medio de una transformación de la variable. Para muestras de cualquier tamaño de poblaciones normalmente distribuidas, se pueden utilizar el valor de “t” de student (estudiante) para el cómputo de límites de confianza. La formula general es
27
Estimador ± (t) (error estándar del estimador). Se han tabulado los valores de “t” (tabla 2, página 92). El valor particular de t que debe de utilizarse depende del grado de confianza que se desee y del tamaño de la muestra. Para límites de 95 % de confianza se toman los valores de t de la columna que corresponde a la probabilidad de .05. Para los límites de 99% de confianza, el valor de t provendría de la columna que corresponde al .01. Dentro de las columnas que se especifican la t apropiada para una muestra aleatoria simple de n observaciones, se encuentra en la hilera para (n – 1) gl (grados de libertad2). Para una muestra aleatoria simple de 25 observaciones, el valor de t párale calculo de los límites de 95 % de confianza se encuentra en la columna de 0.05 y en la hilera referente a 24 gl. Este valor es 2.064. Por lo tanto, en el ejemplo del inventario de la plantación, en el que se obtuvo un volumen medio por acre de 28 cuerdas y un error estándar de la media de 1.548 cuerdas, los límites de confianza de 95% para muestra pequeña seria 28 ± (2.064) (1.548) = 24.80 a 31.20 cuerdas El mismo valor de t se usa para el cómputo de los límites de 95% de confianza, con respecto del volumen total. Como el total estimado fue de 7,000 cuerdas con un error estándar de 387 cuerdas, los límites de 95% de confianza son 7,000 ± (2.064) (387) = 6,201 a 7,799 cuerdas Tamaño de la muestra.-en el ejemplo que ilustra el muestreo aleatorio simple, se emplearon 25 unidades. Pero ¿por qué 25? ¿por qué no 100? ¿o 10? Con mucha frecuencia el número depende del punto de vista de quién efectúa el muestreo. Pero existe una solución un poco más efectiva. Consiste en tomar solamente el número de observaciones necesarias para dar la precisión deseada. Al planear el inventario de la plantación, podríamos haber mencionado que, de no ser que ocurra una probabilidad de 1 en 20, desearíamos que nuestra estimación de la media de la muestra estuviese dentro de ± E cuerdas de la media de la población. Puesto que los límites de _
confianza en base a una muestra pequeña, se calculan como y ± t queremos
t
(s ), esto equivale a decir que _
y
(s ) = E _
y
Para una muestra aleatoria simple.
Sustituyendo el valor de
s
_
y
en la primera ecuación nos da
2
En este manual la expresión “grados de libertad” se refiere a un parámetro en la distribución de la t de student. Cuando se requiere un valor tabular, debe especificarse el número de grados de libertad (gl). La expresión no se puede explicar fácilmente en lenguaje no estadístico. Una definición señala que los grados de libertad son iguales al número de observaciones en una muestra, menos el número de parámetros estimados en manera independiente que se usan en el cálculo de la variancia muestral. Por lo tanto, en una muestra aleatoria simple de n observaciones, el único parámetro estimado que se necesita para el cálculo de la variancia muestral es la media (x), por lo que los grados de libertad serían (n-1).
28
s
s
n⎞ ⎛ ⎜1 − ⎟ n ⎝ N⎠
=
_
y
2
y
Reescribiendo lo anterior en términos del tamaño de muestra (n) esto se transforma en
(t ) s
2
n⎞ ⎛ ⎜1 − ⎟ = E n ⎝ N⎠ y
Para resolver esta relación de n debemos tener algún estimador
s
2 y
de la variancia de la
población. A veces, la información se encuentra disponible de n=
1 2
E + 1 2 2 t sy N
muestreos previos. En la ilustración encontramos
s
2 y
= 3.83, un valor que podría tomarse como
representativo de la variación entre sitios de un cuarto de acre en ésta o en poblaciones similares. En la ausencia de esta información, se podría efectuar un muestreo pequeño, con carácter de preliminar con objeto de obtener una estimación de la variancia. Cuando, como sucede con frecuencia, ninguna de estas soluciones es factible, se puede hacer una estimación muy burda de la relación
()
R s = 4 2 y
2
donde: R= rango estimado de la unidad más pequeña a la más grande, que represente un valor factible de encontrarse en el muestreo. Volviendo al inventario de la plantación, podríamos estimar que el valor más pequeño de “y” en los sitios de un cuarto de acre, puede ser de 1 cuerda, y el más grande de 10 cuerdas. Al ser el rango igual a 9, la variancia estimada sería
()
9 s = 4 2 y
2
= 5.06
Este procedimiento de aproximación debe emplearse solamente cunado no existe disponible ninguna otra estimación de la variancia. Una vez que se tenga un valor de E y contando con una estimación de la variancia, la última pieza de información necesaria es el valor de t. con esto tropezamos con un ligero obstáculo. Para usar t debemos conocer el número de los grados de libertad. Pero el número de grados de
29
libertad debe ser (n-1) y n se desconoce y no puede determinarse sino se cuenta con el valor de t. Una solución iterativa nos da lo que necesitamos y no es tan difícil como parece. El procedimiento consiste en suponer un valor de n, emplear éste para obtener los grados de libertad para t y después sustituir el valor de t en la fórmula del tamaño de muestra, para obtener una primera aproximación de n. Al escoger un nuevo valor de n que se encuentre entre el valor supuesto y la primera aproximación, pero más próximo al último calculamos una segunda aproximación. El proceso se repite hasta que los valores sucesivos de n sean iguales o sólo ligeramente diferentes. Generalmente bastan tres ensayos. Para ilustrar el proceso, supóngase que al planear el muestreo de la plantación, hubiésemos especificado que, excepto por una por una posibilidad de 1 en 100, nos gustaría que el estimador estuviese dentro de 3.0 cuerdas del verdadero volumen medio por acre (0.4047 ha). Esto es equivalente a E=0.75 cuerdas por cuatro de acre (1.011 m2). De experiencias previas, 2 se estima que la variancia de la población entre sitios de un cuarto de acre es de s y = 4 , y sabemos que existe un total de N=1,000 unidades en la población. Para encontrar el valor de n, se sustituye esta información en la fórmula del tamaño de la muestra dada en la página 28.
n=
1
( 0.75) + 1 ( t ) ( 4) 1,000 2
2
Tendremos que usar el valor de t para el nivel de probabilidad de 0.01, pero no sabemos cuántos grados de libertad tendrá t sin conocer n. como una primera suposición, podemos probar n=61; entonces el valor de t, con 60 grados de libertad al nivel de probabilidad de 0.01 es de t = 2.66. De está forma, la primera aproximación será
n=
1
( 0.75) + 1 ( 2.66 ) ( 4) 1,000 2
2
=
1 = 47.9 0.5625 1 + ( 7.0756 )( 4 ) 1,000
Una segunda aproximación para el valor de n estaría entre 61 y 48, pero más próximo al valor calculado. Podríamos probar n = 51, para el cual el valor de t (50 grados de libertad) al nivel 0.01 es alrededor de 2.68, por lo tanto
n
2
=
1 = 48.6 0.5625 1 + (7.1824)(4) 1,000
El valor deseado se localiza entre 51 y 48.6, pero más próximo al último. Debido a que el tamaño estimado de la muestra es, en el mejor de los casos, solamente una buena
30
aproximación, resulta inútil el esforzarse en obtener una gran aproximación en el cálculo de n. en este caso, optaríamos por aceptar un valor de n = 50, el que pudo haberse puesto fácilmente después de haberse hecho la primera aproximación.
n se pequeña, (digamos, menor que 0.05), se N n⎞ ⎛ puede ignorar a la corrección por población finita ⎜1 − ⎟ en el cálculo del tamaño de la ⎝ N⎠ muestra y la fórmula se simplifica a
Si es probable que la fracción de muestreo
2
ts n= E
2 y
2
Esta fórmula es apropiada también en el muestreo con reemplazo. En el ejemplo anterior, la fórmula simplificada de un tamaño estimado de la muestra de n = 51. La fórmula abreviada se usa, frecuentemente para obtener una primera aproximación de n. por lo tanto, si el tamaño de muestra que indicó la fórmula abreviada es una proporción considerable, (digamos arriba del 10%), del número de unidades en la población y el muestreo se hará sin reemplazo, el tamaño estimado de la muestra se vuelve a calcular con la fórmula larga. Efecto del tamaño del sitio sobre la variancia.-al estimar el tamaño de la muestra, deben tenerse en mente los efectos que producen, tanto el tamaño del sitio como la escala de los valores unitarios sobre la variancia. En el inventario de la plantación, se escogió un tamaño de sitio de un cuarto de acre, y la variancia entre los volúmenes por sitio fue estimada con un valor 2 de s = 4 . Esta es la variancia entre volúmenes por cuarto de acre. Debido a que la precisión buscada se expresó sobre la base de acres, fue necesario modificar, ya sea la especificación 2 de la precisión o el valor de s con objeto de colocar a ambos en la misma escala. En el ejemplo se usó
s
2
sin modificación y se dividió la precisión deseada por 4 para ponerla sobre
la base de cuarto de acre. Se pudo haber obtenido el mismo resultado si se hubiese dejado la precisión especificada sin alteración y se hubiese puesto la variancia sobre la base de acre. Dado que los volúmenes de cuartos de acre se multiplicarían por 4 para expresarlos en acres, sería necesario multiplicar la variancia de cuartos de acre por 16 (Recuerde: si x es una 2 variable con variancia s , entonces la variancia de una variable z=kx es k 2 s 2 ). La magnitud del sitio tiene un efecto adicional sobre la variancia. A la misma escala de medición, los sitios pequeños casi siempre son más variables que los grandes. La variancia del volumen por acre, basada en sitios de un cuarto de acre, basada en sitios de un cuarto de acre, (1.011 m2) sería ligeramente mayor que la variancia del volumen por acre basada en sitios de medio acre (2.022 m2), pero poco menor que la variancia del volumen obtenida de sitios de un quinto de acre (806 m2). Desafortunadamente, la relación que existe entre las dimensiones del sitio y la variancia cambia de una población a otra. Los sitios grandes tienden a mostrar menor variancia porque
31
promedian los efectos de grupos de árboles y de espacios vacíos. En poblaciones muy uniformes, los cambios en las dimensiones del sitio tienen poco efecto en la variancia. En poblaciones no uniformes, la relación del tamaño del sitio con la variancia dependerá de las dimensiones de los grupos de árboles y de los espacios vacíos con respecto al tamaño de los sitios. La experiencia es la mejor guía en cuanto al efecto del cambio de magnitud del sitio sobre la variancia. Cuando no se tiene experiencia ni se dispone de asesoramiento, se puede obtener una aproximación burda aplicando la regla: Si sitios de tamaño P1 tienen una variancia
s
2 1
, entonces, con la misma escala de medición,
sitios de tamaño P2 tendrán una variancia próxima a s 22 = s12 P1 / P 2
Por lo tanto, si la variancia en volumen por acre expresada en cuerdas, basada en sitios de un 2 cuarto de acre, es de s 1 = 61 , la variancia del volumen por acre en cuerdas basado en sitios de un décimo de acre será, estimado a groso modo,
61 0.25 / 0.10 = 96 Se obtienen los mismos resultados, sin problemas de escala en las mediciones, si se usan los coeficientes de variación elevados al cuadrado (C2) en lugar de las variancias. La fórmula es, en este caso,
c =c P /P 2
2
2
1
1
2
Problema de práctica.- Se va a efectuar el muestreo para estimar el volumen medio por acre, expresado en pies-tablas, de una extensión de 200 acres (81 ha). Considerando una posibilidad de equivocación en el resultado de 1 en 20, deseamos que la estimación se ubique dentro de 500 pies-tablas de la media de la población. Los sitios de muestreo serán de un quinto de acre (806 m2). Un inventario efectuado en una extensión similar dio, como valor de la desviación estándar entre los volúmenes de sitios de un cuarto de acre (1,011 m2), 520 pies-tablas. ¿Cuál debe ser el tamaño de la muestra necesaria? Solución del problema. La variancia entre volúmenes de sitios de un cuarto de acre es 5202 = 270,400. La variancia de volúmenes de cuartos de acre expresada en acres sería
s = ( 4 ) ( 270, 400 ) = 4,326, 400 2
2
1
La variancia que se ha estimado para los volúmenes de sitios de un quinto de acre (806 m2), expresada sobre la base de acres, sería entonces
32
s =s 2
2
2
1
P 2 = 4,326, 400 0.25 = 4,326, 400 1.118 = 4,836,915 ( )( ) 0.20 P1
El tamaño de la población es N = 1,000 sitios de un quinto de acre (806 m2). Si como una primera aproximación se hace n = 61, el valor de t al nivel del 0.05 con 60 grados de libertad es 2.00. La primera aproximación calculada de n es n1 =
( 500 )
1 2
= 71.8
1 + ( 4 )( 4,836,915) 1, 000
La solución correcta se localiza entre 61 y 71.8, pero mas próximo al valor calculado. Si se llevan a cabo ensayos sucesivos se obtendrán valores entre 71.0 y 71.8. El tamaño de la muestra (n) debe ser un valor entero, y como 71 resulta ser pequeño, se requiere una muestra de n = 72 observaciones para la precisión deseada. Muestreo al azar estratificado Con frecuencia se obtiene un conocimiento de una población que puede emplearse para aumentar la preedición o utilidad de la muestra. El muestreo al azar estratificado es método que aprovecha ciertos tipos de información de la población. En el muestreo al azar estratificado, las unidades de la población se agrupan de acuerdo a semejanza en alguna característica. Después se muestrea cada grupo o estrato que se combinan los estimadores de grupo, para obtener la estimación de la población. Al muestrear un bosque, podríamos agrupar los estratos correspondientes a los tipos mas importantes de árboles, hacer estimaciones muéstrales separadas para cada tipo y después, combinar estos datos parciales para dar un estimador aplicable a toda la población. Si la variación entre unidades, dentro de los diferentes tipos, es menor que la variación entre unidades que no pertenecen al mismo tipo, el estimador de la población será mas preciso que si el muestreo hubiese sido al azar sobre toda la población. Se pueden ilustrar, tanto como el muestreo como los procedimientos de computo con los datos obtenidos del muestreo elaborado para la estimación del volumen medio por acre, expresado en pies cúbicos de un bosque de 800 acres (324 ha). Por medio de fotografías aéreas, la superficie se dividió en 3 estratos que corresponden a los tres principales de bosque; pino, latí foliadas de las partes bajas y itaifoliadas de las partes altas Se conocían los límites y la extensión total de cada tipo se seleccionaron al azar y sin reemplazo cada estrato, 10 sitios de un acre cada uno
33
Estrato
Observaciones 570 510 600 640 590 780 480 670 700 560 520 630 810 710 760 580 770 890 860 840 420 540 320 210 180 270 290 260 200 350
I. Pino
II. Latifoliadas de las partes bajas
III. Latifoliadas de las partes altas
Total = 6,100
Total = 7,370
Total= 3,040
Estimadores.- el primer paso para estimar la media de la población por unidad consiste en ⎛ _ ⎞ calcular la medida muestral ⎜⎜ y ⎟⎟ de cada estrato. El procedimiento es igual al que se emplea h ⎝ ⎠ para la madia de una muestra aleatoria _
y
I
= 6,100 / 10 = 610 pies cúbicos por acre de pino
_
y
II
= 7,370 / 10 = 737 pies cúbicos por acre de latifoliadas (maderas duras) de zonas bajas.
_
y
III
= 3,040 / 10 = 304 pies cúbicos por acre de latifoliadas (maderas duras) de zonas altas.
_
La media de una muestra estratificada y est se calcula por _
L
_
y est =
∑N y h
h =1
h
N
Donde: L = Numero de estratos. Nh = Tamaño total (numero de unidades) del estrato b (b=1,…,L). N = Número total de unidades en todos los estratos. L ⎛ ⎞ = N Nh ⎟ ∑ ⎜ h =1 ⎝ ⎠
34
Si los tamaños de los estratos son I Pino II Hojosas de zonas bajas III Hojosas de zonas altas Total =
= 320 acres (130 ha) = 140 acres ( 57 ha) = 340 acres (138 ha) = 800 acres (325 ha)
= NI = NII = NIII =N
Por lo tanto el estimador de la media de la población es _
y est =
(320)(610) + (140)(737 ) + (340)(304) 800
= 502.175 pies cúbicos por acre (35.5 metros cúbicos por ha) ^
Para la estimación total de la población ( Y st ), simplemente omita el divisor N. _
L
Y st = ∑ N h y = 320(610) + 140(737 ) + 340(304) = 401,740 ^
h
h =1
Alternativamente ^
_
Y st = N
y
h
= 800(502.175) = 401,740
Errores estándar.- para determinar los errores estándar es necesario primero obtener la variancia estimada entre individuos dentro de cada estrato (Sh2). Estas variancias se calculan de la misma manera que la variancia de una muestra aleatoria simple. Consecuentemente, la variancia dentro del estrato I
s12 = =
(570 2 + 640 2 + ... + 700 2)− (10 − 1)
( 6100)
2
10
3,794,000 − 3,721,000 = 8111.1111 9
Similarmente,
s s
2 II
2 III
= 15,556.6667 = 12,204.4444
35
De estos valores, el error estándar de la media de una muestra al azar estratificada ⎛⎜ s _ ⎞⎟ se ⎝ y st ⎠ encuentran por medio de la fórmula
sy
__
Donde:
n
h
=
st
⎡N 2 2 ⎛ ⎢ h s h ⎜1 − 2∑ N h=1 ⎢⎣ nh ⎜⎝ L
1
n N
⎞⎤ ⎟⎥ ⎟ h ⎠⎥ ⎦
h
= numero de unidades observadas en el estrato h
Esta formula tiene una apariencia un tanto impresionante, y para ser ciertas, involucra una cierta cantidad de trabajo, pero las cosas se simplifican si se toman paso a paso. En el ejemplo del inventario forestal anterior tendríamos 2 ⎡ ⎤ ⎢ ( 320 ) (8111.1111) ⎛⎜1 − 10 ⎞⎟ + ... + ⎥ ⎥ __ 10 1 ⎢ ⎝ 320 ⎠ ⎢ ⎥ sy = st ⎥ 800 2 ⎢ ( 340 ) 2 (12,204.4444 ) 10 ⎞ ⎛ ⎢ ⎥ ⎜1 − ⎟ ⎢⎣ ⎥⎦ 10 340 ⎝ ⎠ = 383.920659 = 19.594
Podemos decir, a manera de regla burda, que, de no haber ocurrido un evento cuya probabilidad sea de 1 en 20 la media de la población esta incluida en el rango _
y ± 2⎛⎜⎝ sy ⎞⎟⎠ = 502.175 ± 2(19.594) _
st
st
= 463 a 541 Si el muestreo con reemplazo o si la fracción de muestreo dentro de un estrato particular n ( nh / N h ) es pequeño, se puede despreciar “corrección por finitud” (1 − h ) para ese estrato Nh particular cuando se calcula el error estándar. ^
El total de la población se estima por
sy
^ st
y
^ st
=Ns
=N ^
y st
y
st
, y el error estándar
y
st
es simplemente
= 800(19.594 ) = 15,675
Discusión.- el muestro al azar estratificado ofrece dos ventajas básicas con respecto al muestro al azar simple. Primero, proporciona estimaciones separadas de la media y de la variancia de lacada estrato. Segundo, para una intensidad dada de muestreo, frecuentemente
36
da estimadores mas precisos de los parámetros de la población, que una muestra aleatoria simple de mismo tamaño. Sin embargo, para hacer cierta esta segunda ventaja, es necesario que los estratos agrupen en tal forma que la variabilidad entres valores unitarios dentro de los estratos sea menor que la variabilidad entre unidades que no pertenecen al mismo estrato. Algunos inconvenientes consisten en que cada unidad de la población debe ser asignada a un estrato, a uno solamente, que el tamaño de cada estrato debe ser conocido, y que, de cada estrato, debe tomarse una muestra. Es obstáculo mas común para el uso del muestro a la azar estratificado es la falta de conocimiento de las dimensiones de los estratos. Si las fracciones de muestreo son pequeñas en cada estrato, no es necesario conocer las extensiones exactas de ellos; se puede calcular ala media de la población y a su error estándar a partir de los tamaños relativos. Si rh = tamaño relativo del estrato h, la media estimada es _
L
^
y
st
=
∑r y h
h =1
h
L
∑r h =1
h
El valor estimado del error estándar de la medida es
∑ (r s ) L
sy
=
_ st
h =1
2
2
h
h
2
⎛⎜ ∑L r ⎞⎟ h ⎝ h =1 ⎠
Vale la pena repetir que deben conocerse, antes del muestro, los tamaños absolutos o relativos de los estratos; las formulas del error que ya se dieron no son aplicables si las observaciones con las cuales se hacen las estimaciones de las medias se emplean también para estimar los tamaños de los estratos. Asignación de la muestra en el muestreo al azar estratificado Suponiendo que hemos llegado a una decisión en cuanto al tamaño de la muestra, ¿Cómo sabremos cuantas observaciones de estas deben hacerse en cada estrato? Dos soluciones comunes a este problema se conocen con los nombres de asignación proporcional y asignación optima. Asignación proporcional.- En este procedimiento, la proporción de la muestra que se escoge en el estrato número h se hace igual a la proporción de todas la unidades de la poblaron que caen en este estrato. Si un estrato contiene la mitad de las unidades de la población, la mitad de las observaciones de la población se hacen en este estrato. En forma de ecuación, si el número total de unidades de muestreo va ser n, de acuerdo con la asignación proporcional, el número que ha de observarse en el estrato b es
37
nh = (
Nh )n N
En el ejemplo anterior, las 30 observaciones de la muestra se dividieron igualmente entre los estratos. Para una asignación proporcional habríamos usado
N 320 nI = ( I )n = ( )30=12 N 800 140 ) 30 = 5 . 25 800 340 = ( ) 30 = 12 . 75 800
n II = ( n III
Asignación optima.- En la asignación óptima, las observaciones se distribuyen en los estratos, de tal manera que proporcionen el error estándar mínimo de un total de n observaciones. Para un tamaño de muestra n, el número de observaciones (nh) que deben hacerse en el estrato b, según la asignación optima, es ⎞ ⎛ ⎟ ⎜ N h sh ⎟ ⎜ nh = L n ⎟ ⎜ ⎜ ∑ N h sh ⎟ ⎠ ⎝ h =1
En términos del ejemplo previo, el valor de
N I sI
N hs h
para cada estrato es
= 320 8111.1111 = 320(90.06) = 28819.20
N II s II = 140 15556.6667 = 140(124.73) = 17462.20 N III s III = 340 12204.4444 = 340(110.47) = 37559.80 III Total = 83841.20 = ∑ N h s h h=I
Aplicando la formula estos valores en la fórmula, obtendríamos
38
⎛ 28819.20 ⎞ nI = ⎜ ⎟30 = 10.3 ⎝ 83841.20 ⎠ ⎛ 17462.20 ⎞ nII = ⎜ ⎟30 = 6.2 ⎝ 83841.20 ⎠ ⎛ 37559.80 ⎞ nIII = ⎜ ⎟30 = 13.4 ⎝ 83841.20 ⎠
Aquí la asignación óptima no es muy diferente de la asignación proporcional. En ocasiones la diferencia es marcada. Asignación optima con costos variables en el muestreo La asignación optima, según se describió, supone que el costo de muestreo por unidad es igual en todos los estratos. Cuan do los costos del muestreo varían de un estrato a otro, la distribución que da la máxima información por dólar es
⎛ N s ⎞ h h ⎜ ⎟ ⎜ ⎟ ch nh = ⎜ ⎟n ⎜ L ⎛⎜ N h sh ⎞⎟ ⎟ ⎜ ∑⎜ c ⎟ ⎟ ⎝ h =1 ⎝ h ⎠ ⎠ Donde:
ch = Costo por unidad de muestreo en el estrato b.
La mejor forma de distribuir una muestra entre los varios estratos depende de los objetivos fundamentales del inventario y de la información que se tenga sobre la población. Se prefiere alguna de las dos formas de asignación óptima cuando el objetivo es obtener la estimación mas precisa de la media de la población para un costo dado. Si deseamos separar estimadores para cada estrato y se considera al estimador global como de importancia secundaria, podemos pensar entonces en una muestra intensa de los estratos que tienen material de alto valor. Entonces haríamos caso omiso, tanto de la asignación optima como de la proporcional y tomaríamos nuestras observaciones de modo que obtuviésemos el grado de precisión deseado para los estratos particulares. No se puede, por supuesto, usar asignación óptima si no se tiene una idea sobre la variabilidad dentro de los varios estratos. La medida apropiada de variabilidad dentro del estro es la desviación estándar exacta ( Sh ) de cada estrato. En vez de los valores reales de Sh podemos usar valores relativos. Si en nuestro ejemplo hubiésemos sabido que las desviaciones estándar de los estratos estaban aproximadamente en las proporciones SI:SII:SIII = 9: 12: 11, podríamos haber usado estos valores para obtener aproximadamente la misma distribución. Donde la asignación optima parece ser conveniente, pero se desconocen totalmente las desviaciones estándar de los estratos, la asignación proporcional resulta, frecuentemente, muy satisfactoria.
39
¡Precaución! En algunas situaciones, la formula de la asignación optima indicara que el numero de unidades (nh ) por escogerse en el estrato es mayor que el estrato en si ( N h ) . En este caso, el procedimiento común consiste en muestrear todas las unidades del estrato y recalcular el tamaño de la muestra (n) que se necesita para alcanzar la preescisión deseada. En la siguiente sección se discute el método para estimar n. Tamaño de la muestra en el muestreo al azar estratificado Para estimar el tamaño total de la muestra (n) que se necesita en una muestra al azar estratificada, se requiere contar con las siguientes piezas de información: El conocimiento del tamaño deseado del error estándar de la media. Este se simbolizara por D. Una estimación razonable buena de la variancia ( Sh2 ) o de la desviación estándar
( Sh ) entre individuos dentro de cada estrato. El método de muestreo por asignación. Si la sección es asignación óptima con costos variables en el muestreo, también debe conocerse el costo de muestreo por unidad para cada estrato. Dada esta información, un tanto difícil de obtener, podemos estimar el tamaño de la muestra (n) con estas formulas: Para muestras iguales en cada uno de los L estratos, L
n=
L∑ N 2 h s 2 h h =1
L
N D2 + ∑ Nh s2h 2
h =1
Para asignación proporcional, L
n=
N ∑ Nh s2h h =1
L
N D + ∑ Nh s2h 2
2
h =1
Para asignación optima con costos variables en el muestreo entre estratos,
n=
⎞ ⎛ L ⎜ ∑ N h sh ⎟ ⎠ ⎝ h =1
2
L
N D + ∑ Nh s 2h 2
2
h =1
40
Para asignación optima con costos variables en el muestreo entre estratos,
⎛ L ⎞⎛ L N s ⎞ ⎜ ∑ N hs h ch ⎟⎜ ∑ h h ⎟ ⎝ h =1 ⎠⎜⎝ h =1 ch ⎟⎠ n= L
N 2 D2 + ∑ N h s 2h h =1
nh ) sean muy pequeñas en Nh todos los estratos, o cuando el muestreo se haga con reemplazo, se puede despreciar al Cuando exista la probabilidad de que las fracciones de muestreo (
dejando solamente segundo termino de los denominadores de la formula anterior 2 2 N D . Si la formula de la asignación optima indica que debe tomarse una muestra (nh ) mayor que el numero total de unidades ( N h ) en un estrato particular, entonces generalmente se iguala nh con N h ; esto es, se observan todas las unidades en ese estrato particular. El tamaño de muestra previamente estimada (n) debe eliminarse y volverse a calcular el tamaño total de la muestra (n), asi como la distribución de los estratos restantes, omitiendo los valores de N h y sh del estrato, pero dejando N y D sin alteración. Para ilustrar, supóngase una población de 4 estratos cuyas dimensiones ( N h ) y variancias estimadas ( sh 2 ) son: Estrato: 1….. 2….. 3….. 4….. N=
Nh 200 100 400 20 ___ 720
sh2 sh 400 20 900 30 400 20 19600 140
Nhsh Nhsh2 4000 80000 3000 90000 8000 160000 2800 392000 ____ _______ 17800 722000
Con asignación optima (el mismo costo de muestreo por unidad en todos los estratos), el numero de observaciones para estimar la media de la población cuyo error estándar sea de D = es n=
(17800) 2 = 255.4 (7202 )(12 ) + 722000
La distribución de estas observaciones de acuerdo con la formula optima seria
41
⎛ 4000 ⎞ n1 = ⎜ ⎟256 = 57.5 ⎝ 17800 ⎠ ⎛ 3000 ⎞ n2 = ⎜ ⎟256 = 43.1 ⎝ 17800 ⎠ ⎛ 8000 ⎞ n3 = ⎜ ⎟256 = 115.1 ⎝ 17800 ⎠ ⎛ 2800 ⎞ n4 = ⎜ ⎟256 = 40.3 ⎝ 17800 ⎠
El número de unidades asignadas para el cuarto estrato es mayor que el tamaño total del estrato. Por lo tanto se escogerían todas las unidades de este estrato (n4 = N 4 = 20) y se recalcularía el tamaño de la muestra de los primeros tres estratos. Para estos tres estratos.
∑N s
h h
∑N s
= 15000
2 h h
= 330000
Por lo tanto, n' =
(15000) 2 = 256 (720 2 )(12 ) + 330000
Y la distribución de estas observaciones entre los tres estratos seria ⎛ 4000 ⎞ n1 = ⎜ ⎟265 = 70.7 ⎝ 15000 ⎠ ⎛ 3000 ⎞ n2 = ⎜ ⎟265 = 53 ⎝ 15000 ⎠ ⎛ 8000 ⎞ n3 = ⎜ ⎟265 = 141.3 ⎝ 15000 ⎠
Estimadores de regresión Los estimadores de regresión, como la estatificación, se desarrollaran para aumentar la precisión o la eficiencia de una muestra, haciendo uso de información suplementaria sobre la población en estudio. Si tenemos el conocimiento exacto del área basal nos puede ser de utilidad para mejorar nuestra estimación del volumen de rodal. Los datos muéstrales proporcionan información de la relación volumen-área basal, la que después se aplica al área basal conocida, para obtener unas estimación del volumen, que puede ser mejor o mas económica que la que se obtendría muestreando el volumen por si solo. Supongamos que un inventario del ciento por ciento, efectuado en un bosquete de pino de 200 acres (81 ha) señala que existe una área basal de 84 pies cuadrados por acre (19.32 m2 por
42
ha) de arbolado de pino de 3.6 pulgadas de D.A.P. (9.18 cm.) como diámetro mínimo. Supongamos además que, en 20 sitios escogidos totalmente al azar, cada uno de un quinto de acre de extensión (0.806 m2), se tomaron mediciones del área basal (x) y del volumen (y) por acre. Área basal por acre (pies cuadrados) 88 72 80 96 64 48 76 85 93 110 88 80
volumen por Área basal acre(pies por acre (pies cuadrados) cuadrados) 1680 82 1460 76 1590 86 1880 73 1240 79 1060 79 1500 84 1620 84 1880 75 2140 _______ 1840 Total… 1620 1630 Media… 81
volumen por acre (pies cuadrados) 1560 1560 1610 1370 1490 1490 1600 1600 1440 _____ 31860 1593
Algunos valores que se necesitan después son n = 20
∑ y = 31860 y = 1593
∑ y = 51822600 ∑ xy = 2635500 ∑ x = 1620 2
x = 81
∑x
2
SS y = sy
2
= 134210
∑
(∑ y )
2
2
y −
= 51822600 −
n SS y 1069620 = = = 56295 . 79 ( n − 1) 19
SS x = SPxy
∑x
(∑ x ) = 134210 2
2
−
n
( x )( = ∑ xy − ∑ ∑ n
( 31860 ) 2 = 1069620 20
(1620 ) 2 = 2990 20 y) (1620 )(31860 ) = 54840 = 2635500 − 20 −
N= Numero total de sitios de un quinto de acre en la población (1,000) La relación entre y y x puede adoptar alguna de varias formas, pero aquí supongamos que es la de una línea recta. La ecuación para la línea se puede estimar de yR = y + b( X − x )
Donde:
43
−
y R = El valor medio de y según se estima de X (un valor especifico de la variable X) −
y = La media de la muestra de y (=1,593) −
x = La medida de la muestra de x (= 81) B= El coeficiente de regresión lineal de y sobre x Para la estimación de la regresión lineal que se uso aquí, el valor del coeficiente de regresión se estima por b=
SPxy 54840 = = 18.34 SS x 2990
Por lo tanto, la ecuación seria
yR = 1593 + 18.34( X − 81) = 107.46 + 18.34 X
Para estimar el volumen medio por acre todo el bosquete, sustituimos, por X, el valor medio ya conocido del área basal por acre. yR = 107.46 + 18.34(84 ) = 1648 pies cúbicos por acre
Error estándar.- Al calcular errores estándar del muestreo aleatorio simple, así como del muestreo al azar estratificado, fue necesario, primero, obtener una estimación ( s y 2 ) de la variabilidad de valores individuales de y con respecto a su media. Para obtener el error estándar de una estimación de la regresión, necesitamos un estimador de la variabilidad de valores individuales de y con respecto a la regresión de y sobre x. La desviación estándar de la regresión s y , x , cuyo cálculo se presenta a continuación, es una medida de esa variabilidad. SS y − sx , y =
=
( SPxy ) 2
SS x ( n − 2)
(54840) 2 2990 (20 − 2)
1069620 −
= 59.53
El símbolo s y , x tiene un enorme parecido al símbolo de la covariancia s y , x con el cual no debe confundirse. Contando con la desviación estándar de la regresión, el error estándar de y R es
44
⎛ 1 ( X − x )2 ⎜⎜ + SS x ⎝n
s y R = s xy =
⎛ 1 (84 − 81 ) 2 = 59 . 53 ⎜⎜ + 2990 ⎝ 20 = 13 . 57
⎞⎛ n ⎞ ⎟⎟ ⎜ 1 − ⎟ N ⎠ ⎠⎝
⎞⎛ 20 ⎞ ⎟⎟ ⎜ 1 − ⎟ 1000 ⎠ ⎠⎝
n⎞ ⎛n ⎞ ⎛ Con una fracción de muestreo tan pequeña ⎜ = 0.02 ⎟ , la corrección por finitud ⎜1 − ⎟ pudo ⎝N ⎠ ⎝ N⎠ haberse pasado por alto, y el error estándar habría sido 13.71. Es interesante comparar s yR con el error estándar que se habría obtenido por medio de la estimación del volumen medio por acre a partir de los valores de y exclusivamente. El valor estimado del volumen medio por acre habría sido y = 1,593 (comparado con 1,648 al usar la regresión estimada). El error estándar de esta estimación será 2
sy =
sy ⎛ n⎞ ⎜1 − ⎟ n ⎝ N⎠
56295.79 (0.98) 20 = 52.52 =
(Comparado con un error estándar de 13.57 al emplear la regresión estimada). La familia de estimadores de regresión. — El procedimiento de regresión del ejemplo anterior es valido solamente si se satisfacen ciertas condiciones. Una de estas es, por supuesto, que conozcamos la media de la población para la variable suplementaria (x). Como se mostrara en la siguiente sección (Muestreo Doble), se puede sustituir, con frecuencia, a un estimador de la media de la población. Otra condición es que la relación de y a x se aproxime razonablemente a una línea recta dentro del rango de los valores de x para los cuales se estimara y. Si la relación diferente bastante de una línea recta, nuestra estimación del valor medio de y no será confiable. Frecuentemente, resulta mas apropiada una función curvilínea. Una tercera condición es que la variancia de y con respecto a su media debe ser igual a todo los niveles de x. Esta condición es difícil de evaluar con la cantidad de datos generalmente disponibles. Generalmente se responde a esta duda sobre la base de nuestro conocimiento de la población, o efectuando estudios especiales de la variabilidad de y. Si conocemos la forma en que la variancia se modifica con los cambios en el nivel de x, puede emplearse el procedimiento de la regresión ponderada. Así, la estimación de la regresión lineal que se ha descrito, es solamente una de un gran número de procedimientos relacionados que nos permiten aumentar la eficiencia del muestreo, por medio del uso de información suplementaria referente a la población. Otros dos miembros de esta familia son el estimador del cociente de media y el estimador de la media de cocientes.
45
El estimador del cociente de medias es apropiado cuando la relación de y a x se presenta en la forma de una línea recta que pasa por el origen y cuando la desviación estándar de y a cualquier nivel dado de x es proporcional a la raíz cuadrada de x. El estimador del cociente ( y R ) de la media de y es ) yR = RX Donde: R = El cociente de media obtenido de la muestra =
y ∑y ó x ∑x
X = La media conocida de la población de x. Se puede obtener una aproximación razonable del error estándar de este estimador en muestras grandes por medio de
s yR
) ) ⎛ s y 2 + R 2 s x 2 − 2 Rsxy ⎞⎛ ⎟⎜1 − n ⎞⎟ = ⎜ ⎜ ⎟⎝ N ⎠ n ⎝ ⎠
Donde:
s y 2 = La variancia estimada de y sx2 = La variancia estimada de x sxy = La covariancia estimada de x y de y Es difícil decir cuando es una muestra lo suficientemente grande como para que la aplicación de la formula del error estándar sea confiable, pero Cochran (vea las referencias (bibliográficas), p.98) ha sugerido que n debe de ser mayor a 30 y también lo suficientemente −
−
grande para que los cocientes s y / y y s− / x sean ambos, menores a 0.1. x
Para ilustrar los cálculos, supónganse que para una población de N= 400 unidades, la media de la población de x tenga un valor de 62, y que de esta población se selecciona una muestra de n = 10 unidades. Los valores de y y de x para estas 10 unidades son
Observación: yi 1…. 8 2…. 13 3…. 5 4…. 6
Observación: xi 62 81 40 46
8…. 9…. 10….
yi 11 5 12 ____
xi 96 36 70 _____
46
5…. 6…. 7….
19 9 8
123 74 52
Total…… Media…..
96 9.6
680 68
De esta muestra, el cociente de las medidas es ) 9.6 R= = 0.141 68
El estimador del cociente de media es, por lo tanto, ) y R = RX = 0.141(62) = 8.742
Para el calculo de error estándar de la media, se necesitan las variancias de y y de x, así como la convarancia. Estos valores se calculan por medio de la formula estándar para una muestra aleatoria simple. Así,
(8 + 13 + ...+ 12 ) − (9610)
2
2
sy = 2
2
2
(10− 1)
= 18.7111
) (62 + 81 + ...+ 70 ) − (680 10
2
2
sx = 2
sxy =
2
2
(10− 1)
= 733.5556
(8* 62+ 13* 81+ ... + 12* 70) −
2
(10− 1)
(96)(680) 10
= 110.2222
Sustituyendo estos valores en la formula del error estándar de la media, da
(
)
⎛ (18.7111) + 0.141 2 (733.5556 ) − 2(0.141)(110.2222 ) ⎞⎛ 10 ⎞ ⎟⎟⎜⎜ 1 − ⎟⎟ s yR = ⎜⎜ 10 400 ⎠ ⎠⎝ ⎝ = .21569 = 0.464
Este cálculo es, por supuesto, solamente para fines ilustrativos. Para el estimador del cociente de media, un error estándar que se ha basado en menos de 30 observaciones, casi siempre tienen un valor dudable. El estimador de la media de los cocientes es útil cuando la relación de y a x tiene la forma de una línea rectas que pasa a través del origen y la desviación estándar de y en cualquier nivel de x es proporcional a x (mas bien que va x ). Hay necesidad de calcular, para cada par de observaciones muestrales, el conciente (ri) de yi sobre xi. Por lo tanto, la media estimada de y para la población es
) y R = RX
47
) Donde: R = la media de los cocientes individuales (ri), esto es, n
) R =
∑
i =1
ri
n
Para calcular el error estándar de esta estimación debemos obtener, primero, una medida
( S r ) de la variabilidad de los cocientes individuales (r ) con respecto a su media 2
i
⎛ n ⎞ ⎜ ∑ ri ⎟ n 2 ri − ⎝ i =1 ⎠ ∑ n 2 sr = i =1 (n − 1)
2
El error estándar del estimador de la media de los cocientes de la media de y es, entonces,
s ⎛ n⎞ = X r ⎜1 − ⎟ n ⎝ N⎠ 2
s yR
Supóngase que se toma un conjunto de n = 10 observaciones de una población de N = 100 unidades que tiene una media de x cuyo valor es de 40
y
Observaciones
36 95 108 172 126 58 123 98 34 14
1 2 3 4 5 6 7 8 9 10
r
i
18 48 46 74 58 26 60 51 25 7
Total
i
2.00 1.98 2.35 2.32 2.17 2.23 2.05 1.92 2.16 2.00 21.18
El valor muestral de la media de los cocientes es
^
R=
21.18 = 2.118 10
Y esto se emplea el estimador de la media de los cocientes ^
y
^
R
= R X = 2.118(40) = 84.72
48
La variancia de los cocientes individuales es
s2 r =
( 2.00 2 + 1.98 2 + ... + 2.00 2 −
(
)
10 − 1
21.18)
2
10
= 0.022484
De esta manera, el error estándar del estimador de la media de los cocientes es
sy
= 40
^
R
0.022484 ⎛ 10 ⎞ ⎜1 − ⎟ 10 ⎝ 100 ⎠
= 1.799
Son posibles otras formas de estimadores de cocientes, pero las tres anteriores son las mías comunes. Algunas formas, menos comunes, involucran el ajuste de alguna función curvilínea a la relación de y a x, o el ajuste de regresiones múltiples, cuando hay información disponible sobre más de una variable suplementaria. ¡Advertencia! El técnico forestal que no este seguro de sus conocimientos sobre técnicas de regresión haría bien en buscar asistencia, antes de adaptar estimadores de regresión a su muestreo. La determinación de la forma mas apropiada de estimador puede resultar engañosa. Los dos estimadores de cociente son particularmente complejos. Tienen una apariencia simple que induce, a quien aplica el muestreo, a errores en su empleo. El error mas común consiste en emplearlos cuando la relación de y a x no tiene realmente la forma de una línea recta a través del origen (esto es, cuando el cociente de y a x varía en vez de ser igual en todos los niveles de x). Para ilustrar, supóngase que deseamos estimar la superficie total de los ranchos puede obtenerse probablemente a partir de registros municipales, resulta lógico tomar una muestra de los ranchos, obtener el cociente muestral del valor medio de la superficie arbolada por rancho, sobre la media de la superficie total por rancho, y multiplicar este cociente por la extensión total de ranchos, para obtener la superficie total del área arbolada en ellos. Este es, por supuesto, una constante (ósea, que puede presentarse gráficamente por medio de una línea recta que pasa a través del origen). Sin embargo, se encontrara, con frecuencia, que la proporción arbolada por rancho varía con el tamaño de este. Aquellos ranchos en sueles pobres tienden hacer menores que los ranchos ubicados en áreas fértiles, y , devenido que el suelo pobre es menos propicio para cultivos agrícolas o para forraje es probable que se deje una mayor proporción arbolada de la superficie de los ranchos pequeños. En estas condiciones, se tendrían una estimación de cociente notablemente sesgada. Se podría estimar el número total de plántulas enfermas en un vivero, recurriendo a la proporción media de plántulas infectadas de un número de sitios de muestreo y multiplicando esta proporción por el número total conocido de plántulas en el vivero. Aquí, una vez mas, estriamos suponiendo que la proporción de plantas infectadas es la misma, independientemente el número de plántulas por sitio. En le caso de muchas enfermedades, esta suposición no es valida, por que el grado de infección puede variar con la densidad de las plántulas.
49
Muestreo doble El muestreo doble fue ideado para permitir el uso de los estimadores de regresión, cuando se desconoce, o la media de la población o el total de variable suplementaria. Se toma una muestra grande con objeto de obtener una buena estimación de la media o del total de la variable suplementaria (x). De una submuestra de las unidades en esta muestra grande, se miden también los valores de y para obtener una estimación de la delación de y a x. la media de la muestra grande o del total de x se aplica después a la relación ajustada para poder contar con un estimador de la media de la población o del total de y. Una de las aplicaciones del muestreo doble es la actualización de los inventarios forestales. Supóngase que en 1950 se incluyó que el volumen medio de 200 sitios, de un cuarto de acre, (1,011 m2) localizados en un bosque de 800 acres, (324 ha) fue de 372 pies cúbicos (10.4m3) por sitio (1,488 pies cúbicos por acre- 104.16 m3/ha). Se marcaron, para remediciones en el año de 1955, 40 sitios escogidos al azar, de los 200. La relación del volumen de 1955 al volumen de 1950, para obtener una estimación de regresión del volumen total de 1955. La submuestra fue como sigue: 1955 Volumen (y) 370 290 520 490 530 330 310 400 450 430 460 480 430 500 640 660 490 510 270 380 420 530
1950 Volumen (x) 280 240 410 360 390 220 270 340 360 360 400 380 350 390 480 520 400 430 230 270 330 390
1955 Volumen (y) 550 550 520 420 490 500 610 460 430 510 450 380 430 460 490 560 580 540
1950 Volumen (x) 430 460 400 390 340 420 470 350 340 380 370 300 290 340 370 440 480 420
Total= 18,820
14,790
Media=470.50
369.75
∑ y = 9157400 ∑ x = 5661300 ∑ xy = 7186300 2
2
El haber marcado los 40 pares de valores de los sitios, en papel cuadriculado, sugirió que la variabilidad de y fue igual en todos los niveles de x y que la relación de y a x fue lineal. La
50
estimación que se escogió, en base a esta información, fue ka regresión lineal y Rd = a + bX . Los valores necesarios para el cálculo del estimador de la regresión lineal y de su error, estándar, fueron como sigue: Datos de la muestra grande (indicados por el índice 1): n1 = Numero de observaciones en la muestra grande = 200
N = Numero de unidades de muestreo en la población = 3,200 −
x1 = Media de los valores de x en la muestra grande = 372 Datos de la muestra pequeña (indicados por el índice 1): n2 = Numero de observaciones en la submuestra = 40 −
y 2 = Media de los valores de y en la muestra pequeña = 470.50 −
x 2 = Media de los valores de x en la muestra pequeña = 369.75 2 ⎛ ( y ) ⎞⎟ ⎛ (18820)2 ⎞⎟ = 302590.0 ∑ 2 ⎜ = ⎜⎜ 9157400 − SS y = ∑ y − ⎜ 40 ⎟⎠ n1 ⎟ ⎝ ⎝ ⎠ 2 ⎛ ( x ) ⎞⎟ ⎛ (14790)2 ⎞⎟ = 192697.5 ∑ 2 ⎜ SS x = ∑ x − = ⎜⎜ 5661300 − ⎜ n2 ⎟ ⎝ 40 ⎟⎠ ⎝ ⎠ ⎛ ( x )( y ) ⎞ ⎛ (18820)(14790) ⎞ = 227605.0 SPxy = ⎜⎜ ∑ xy − ∑ ∑ ⎟⎟ = ⎜ 7186300 − ⎟ n2 40 ⎠ ⎝ ⎠ ⎝ SS y 2 sy = = 302509 /(40 − 1) = 7758.72 (n2 − 1)
El coeficiente de regresión (b) y el cuadrado de la desviación estándar de la regresión ( S y. x ) son b=
s x, y
SP xy SS x
2
=
227605.0 = 1.18 192697.5
⎛ (SPxy )2 ⎜ SS − ⎜ y SS x =⎝ (n2 − 2)
⎞ ⎟ ⎟ ⎠=
⎛ (227605.0)2 ⎜ 302590.0 − ⎜ 192697.5 ⎝ (40 − 2)
⎞ ⎟ ⎟ ⎠ = 888.2617
Y la ecuación de regresión es
51
yRd = y2 + b( X − x2 ) = 470.50 + 1.18( X − 369.75) = 34.2 + 1.18 X Sustituyendo el volumen medio correspondiente al año de 1950, 372 pies cúbicos (10.4 m3 ) por X, de la estimación de regresión del volumen para el año de 1955.
yRd = 34.2 + 1.18(372) = 473.16 pies cúbicos por sitio (13.24 m3 por sitio). −
Error estándar. — El error estándar de YRd , cuando se usa el estimador de regresión en el muestreo es
(x − x )2 ⎞⎛ n ⎞ s ⎛ n ⎞ 2⎛ 1 s yRd = s y , x ⎜⎜ + 1 2 ⎟⎟⎜⎜1 − 2 ⎟⎟ + y ⎜1 − 1 ⎟ SS x ⎠⎝ n1 ⎠ n1 ⎝ N ⎠ ⎝ n2 2
⎛ 1 (372 − 369.75)2 ⎞⎛ 40 ⎞ 7758.72 ⎛ 200 ⎞ ⎟⎜1 − = 888.2617⎜⎜ + ⎟+ ⎜1 − ⎟ ⎟ 192697.5 ⎠⎝ 200 ⎠ 200 ⎝ 3200 ⎠ ⎝ 40 = 7.36 _ pies _ cubi cos_(0.106m3 )
Si el volumen de 1955 se hubiese estimado de los 40 sitios, sin aprovechar la relación de y a x, la media estimada habría sido Y =
18820 40 = 470.50 pies cúbicos (en vez de 473. 16)
(13.17 m3 en vez de 13.24 m3 ). El error estándar de
Y
habría sido 2
sy = =
s y ⎛ n2 ⎞ ⎜1 − ⎟ n2 ⎝ N⎠
7758.72 ⎛ 40 ⎞ ⎜1 − ⎟ 40 ⎝ 3200 ⎠
= 13.84 _ pies _ cubi cos Muestreo doble con otros estimadores de regresión.- Si se considera que el estimador de la media de los cocientes es apropiado, los cocientes individuales (ri = yi/xi) se calculan para las n2 observaciones de la submuestra. La media de los cocientes es entonces ) yRd = Rx1 Con error estándar
52
2 n ⎞ s ⎛ n ⎞ 2 ⎛ s ⎞⎛ s yRd = x1 ⎜⎜ r ⎟⎟⎜⎜1 − 2 ⎟⎟ + y ⎜1 − 1 ⎟ n1 ⎠ n1 ⎝ N⎠ ⎝ n2 ⎠⎝ 2
) Donde: R =
∑r
i
n2 x1 = media de los valores de ϕ en la muestra grande de n1 observaciones sr 2 = variancia de r en la submuestra
( r) ∑ r − ∑n
2
2
=
i
i
(n2 − 1)
2
La estimación del cociente de las medias, cuando se considera apropiado, es ) yRd = Rx1 Con un error estándar de
s yRd
⎛ n ⎞⎛ x ⎞ = ⎜⎜1 − 2 ⎟⎟⎜⎜ 1 ⎟⎟ n1 ⎠⎝ x2 ⎠ ⎝
2
) ) ⎛ s y 2 + R 2 s x 2 − 2 Rs yx ⎞ s y 2 ⎛ n1 ⎞ ⎜ ⎟+ 1− ⎜ ⎟ n1 ⎜⎝ N ⎟⎠ n 2 ⎝ ⎠
) y Donde: R = 2 x2 Sr 2 Sx 2
Sxy
= variancia de los valores de y en la submuestra = variancia de los valores de x en la submuestra = covariancia de los valores de y y de x en la submuestra
El muestreo cuando las unidades son de diferente magnitud (incluyendo el muestreo de PPT) Las unidades de muestreo de diferente magnitud son comunes en la Dasonomía. Las plantaciones, las granjas forestales, los sitios arbolados, los municipios y los aserraderos son solamente algunas de las unidades naturales que varían en extensión. El diseño y el análisis de muestreos que involucran unidades de tamaños desiguales pueden ser muy engañosos. Se emplearán dos ejemplos que ilustran el problema, así como algunas de las soluciones posibles. Se ilustra también el hecho importante de que algún método individual es el mejor para todos los casos y que el diseño de un muestreo requiere de habilidad y de precaución considerables. Ejemplo No.1.- Como en un primer ejemplo, supóngase que se quiere estimar el costo medio de aserrar por mil pies-tabla de madera labrada en los aserraderos de pinos del sur de un área dada. Para la planeación del muestreo, existe disponible una lista de los 816 aserraderos en el
53
área, al igual que la capacidad de cada uno. La información de costos ha de obtenerse por medio de entrevistas personales. En el muestreo, como en la mayor parte de los ensayos, el mejor procedimiento de trabajo es el más simple; los procedimientos complejos deben usarse solamente cuando ofrecen ventajas definidas. Sobre este principio podríamos considerar, primero, el tomar una muestra aleatoria simple de los aserraderos, obteniendo el costo por mil pies-tablas en cada uno, y el calcular la media aritmética de estos valores. La mayoría de los técnicos forestales no dudarían en rechazar este procedimiento de inmediato. El diseño le daría la misma importancia al costo de un aserradero que elabora 8,000 pies por día que al de aquel que corta 50,000 pies diarios. Como consecuencia, mil pies-tabla de un pequeño aserradero tendrían una representación mayor en el promedio final, que un volumen equivalente correspondiente a un aserradero grande y, debido a que el costo por millar de pies-tabla está relacionado, sin lugar a dudas, con capacidad del aserradero, la estimación sería sesgada. Una alternativa que daría más peso a los aserraderos grandes, consistiría en tomar una muestra aleatoria de los aserraderos, en obtener el costo total de aserrar (yi) y la producción total en pies-tabla (xi) de cada uno, para después emplear el estimador del cociente de las medidas: Costo_ medio_ por _ pie− tabla=
s _ muestreado s costo _ total_ de _ todos_ los_ aserradero = produccion_ total_ de _ todos_ los _ aserradero s _ muestreado s
∑y ∑x
i i
Este procedimiento debe rechazarse también sobre la base del sesgo. El estimador del cociente de las medias es insesgado solamente si el cociente de y a x es igual en todos los niveles de x. En este ejemplo, un cociente constante de y a x significa que el costo de aserrar por millar de pies-tabla, es igual, independientemente del tamaño del aserradero- una situación improbable. Un procedimiento insesgado, que seria apropiado a esta situación, el muestreo de la probabilidad proporcional al tamaño (conocido como muestreo de PPT). El valor por observarse en cada unidad de muestreo seria el costo de aserrar por mil pies- tabla de labrados. La selección de las unidades con probabilidad proporcional al tamaño, es fácil de llevarse a cabo. Primero se hace una lista de todos los aserraderos junto con sus capacidades diarias y la suma acumulativa de las capacidades
Aserradero No.
1 2 3 4 -
……….
Capacidad diaria (millares de pies tabla) 10 27 8 12 -
Suma acomulativa
10 37 45 57 54
814 815 816
13 21 11 _______ 12242
12210 12231 12242
A continuación se escogen, de una tabla de números aleatorios, el número que varían en magnitud desde 1 hasta el valor de la suma acumulativa del último aserradero de la lista (12,242). Un aserradero particular se incluye en la muestra cuando se obtiene un número que es igual a/o menor que la suma acumulativa para ese aserradero y mayor que la suma acumulativa para el aserradero que le precede. Así, dado un numero aleatorio de 49, escogeríamos el aserradero numero 4; para 37 escogeríamos el aserradero numero 2; para 12,238 escogeríamos el aserradero numero 816. Un punto importante que debe tomarse en cuenta es de que el muestreo debe hacerse con reemplazo (esto es, un aserradero dado puede parecer en la muestra mas de una vez); de otra manera, el muestreo no será proporcionada de tamaño. Después que se han escogido las unidades de muestreo y se han obtenido los valores unitarios (yi = costo de aserrar mil pies -tabla), se calcula el costo medio por millar y el error estándar de la media, de la misma manera que se hace en el muestreo aleatorio con reemplazo. Dadas las diez observaciones siguientes:
Aserradero
Costo de aserrar por millar de pie-tabla dolares 73 …………. 12 541 13 126 18 134 14 423 16 703 21 329 11 804 17 126 18 427 12 ___________ Total ……… 152 La media estimada es: y=
152 = 15.2 Dólares por millar 10
El error estándar de la media es
55
(∑ y ) −
2
sy =
=
sy
2
n
=
∑y
2 i
i
n n(n − 1)
2 ( 152 ) 2408 −
10 10 * 9
= 1.04
Otra alternativa consiste en agrupar los aserraderos de tamaño similar en estratos y emplear el muestreo al azar estratificado. Si el costo por millar de pies tabla esta relacionado con la dimensión del aserradero este procedimiento puede resultar ligeramente sesgado, a menos que todos los aserraderos de un estrato dado sean del mismo tamaño. Con una escasa dispersión dentro de estratos en el tamaño del aserradero, el sesgo será generalmente trivial. Se podrán lograr un mayor refinamiento agrupando aserraderos de dimensiones similares y empleando muestreo al azar estratificado, con muestreo de probabilidad proporcional al tamaño de las unidades dentro de los estratos. Ejemplo no.2. —Ahora considerase el problema de estimar el total de la producción diaria de astilla desechable de estos aserraderos. Supóngase nuevamente que se tiene una lista de los aserraderos y de sus capacidades diarias. Podría considerarse, primero, una muestra aleatoria simple de los aserraderos donde la observación unitaria sea la producción media diaria de astilla desechable en los aserraderos seleccionados. La media aritmética de estas observaciones, multiplicadas por el número total de aserraderos, daría una estimación de la producción total diaria de astilla desechable de todos los aserraderos. Esta estimación seria completamente insesgada. Sin embargo, debido a que los aserraderos varían notablemente en capacidad diaria y al estar la producción de desechos relacionada íntimamente con la producción total de productos labrados, habrá una gran variación en la cuantía de astilla desechable de unidad a unidad. Esto significa que la variancia entre unidades será grande y que se necesitaran muchas observaciones para obtener una estimación de la precisión deseada. El muestreo aleatorio simple, aunque insesgado, tendría, probablemente, que rechazarse, debido a sui baja precisión. Una segunda alternativa es el estimador del cociente de las medias. En este diseño, se seleccionaría una muestra aleatoria simple, y en cada una de los aserraderos incluidos en la muestra, se observaría la producción media por día de astilla desechable (yi) y la capacidad media por día del aserradero en millares de pies tabla (xi). El cociente de las medias ) R=
∑y ∑x
i
i
Daría una estimación de la producción media de la desechable por millar de pies tabla, y este cociente, multiplicado por la capacidad total de todos los aserraderos, estimaría la producción total por día de astilla desechable. Se ha señalado que el estimador del cociente de las medias es insesgado si el cociente de y a x es igual en todos los niveles de x. los estudios han demostrado que, aun que el cociente de desperdicio a producción de labrados varían con el tamaño de la troza, no esta estrechamente relacionado al tamaño del aserradero – por lo tanto,
56
el sesgo, si es que existe en el estimador del cociente de las medias, seria pequeño. Experiencias pasadas sugieren que la variancia de la estibación también es pequeña, asiendo que este método sea preferible a la simple media aritmética que ya se discutió. Obsérvese que este caso es el que se presenta cuando pudiera ser más deseable un estimador ligeramente sesgado y de alta precisión, que un estimador insesgado de precisión baja. Aquí, nuevamente, valdría la pena considerar el muestreo de probabilidad proporcional al tamaño. Daría estimadores insesgados de precisión moderadamente buena. El muestreo estratificado, con las unidades agrupadas conforme a su dimensión, es otra posibilidad, como lo es la combinación de estratificación con muestreo de probabilidad proporcional al tamaño dentro de los estratos. Entre las alternativas aceptables no es posible hacer una recomendación única. La selección óptima depende de muchos factores; entre los más importantes están la forma y el grado de aproximación que existe en la relación entre astilla desechable (yi) y la capacidad del aserradero (xi). Muestreo bietápico En algunos muestreos forestales, el localizar y el llegar a una unidad de muestreo resulta claro, en tanto que la medición de la unidad es relativamente económica. Parece lógico, en estas circunstancias, el hacer mediciones sobre dos o tres unidades en o cerca de cada localidad. Esto se conoce como muestreo bietápico, donde la primera etapa es la selección de las localidades y la segunda etapa es la selección en estas localidades. La ventaja del muestreo bietápico es que puede proporcionar estimadores de una precisión dada a un costo menor que el correspondiente a una muestra completa aleatoria. Para ilustrar la situación y los métodos, considérese un propietario forestal, cuyos 60,000 acres (24,282ha) de bosque están subdivididos en bloques cuadrados de 40 acres (16.20ha) con marcas permanentes en las cuatro esquinas de cada bloque. Se va a efectuar un muestreo del área, con objeto de estimar el volumen medio por acre de arbolado comercial. Las unidades de muestreo serán sitios cuadrados de un cuarto de acre (1,011 m2). Estos sitios se ubicarán por medio de mediciones que se hagan con referencia a una de las esquinas de los bloques de 40 acres. El tiempo que se requiere para llegar a la esquina de un bloque es muy elevado. Por lo tanto, Parece lógico que, una vez que se localice la esquina de un bloque, se encuentren y se midan varios sitios en ese bloque. Así, el diseño de muestreo consistiría en hacer una selección aleatoria de n bloques y a continuación se escogerían al azar m lotes dentro de cada uno de los bloques seleccionados. En lenguaje de muestreo, a los bloques de 40 acres se les llamaría unidades primarias de muestreo, y a los sitios de un cuarto de acre, unidades secundarias de muestreo. Si yij ; representa el volumen del sitio muestreado numero j(j=1…m), del bloque muestreado número i, el volumen medio estimado por sitio (que en el muestreo bietápico se simboliza por y ) es n
y=
m
∑∑ y i =1 j =1
ij
mn
El error estándar de la media estimada es
57
n ⎞ nsw 1 ⎡ 2⎛ ⎢ sB ⎜1 − ⎟ + mn ⎣ ⎝ N⎠ N
sy =
2
m ⎞⎤ ⎛ ⎜1 − ⎟ ⎥ ⎝ M ⎠⎦
Donde: n = número de unidades primarias muestreadas. N = número total de unidades primaria en la población. m = número de unidades secundarias muestreadas en cada una de la unidades primarias escogidas en el muestreo. M= numero total de unidades secundarias en cada unidad primaria. S B2 = variancia maestral entre unidades primarias cuando se muestrean en función de m unidades secundarias por unidad primaria (el procedimiento de cómputo se da a continuación). S w2 = variancia de la muestra entre unidades secundarias dentro de unidades primarias (el procedimiento de cálculo se da a continuación). Los términos S w2 y S B 2 se calculan de las ecuaciones 2
⎛ m ⎞ ⎛ n m ⎞ ⎜ ⎟ ⎜ ∑∑ yij ⎟ y ∑ ⎜ ∑ ij ⎟ ⎜ ⎟ i =1 ⎝ j =1 ⎠ − ⎝ i =1 j =1 ⎠ m mn = (n − 1) n
sB
2
⎛ m ⎞ ⎜ ∑ yij ⎟ ∑ ⎜ ⎟ n m i =1 ⎝ j =1 2 ⎠ − y ∑ ∑ ij m = i =1 j =1 n(m − 1) n
sw
2
2
2
m
Puesto que yi es el valor observado de una unidad secundaria
Σ yj es el total de todas las i= j
unidades secundarias observadas en la unidad primaria número (o el total de la unidad primaria), m
m
i=1
i=1
Σ Σ yij es el total global de todas las unidades secundarias muestreadas. Por lo tanto, las ecuaciones anteriores, expresadas en palabras son ⎛ n ⎜ ∑ unidades _ primarias _ totales 2 ⎜ ⎜ ⎜ No . de _ U . _ sec undarias ⎜ muestreada s _ por _ u . _ primarias ⎝
(
sB = 2
2
(n − 1 )
⎛ ⎛ mn ⎜⎜ total _ unidades _ primarias 2 ⎛ mn ⎞ ⎜⎜ ∑ 2 ⎜ ⎟ ⎜ ∑ unidades _ sec undarias ⎟ − ⎜ ⎜ No.de _ U . _ sec undarias ⎝ ⎠ ⎜⎜ ⎜ ⎜ muestreadas _ por _ u. _ primarias ⎝⎝ = (m − 1)n
(
sw
2 ⎛ ⎡ mn ⎤ ⎜ ⎢ ∑ (Unidades _ sec undarias )⎥ ⎜ ⎣ ⎦ ⎟−⎜ ⎟ ⎜ No . total _ de _ u . _ sec undarias _ muestreada ⎟ ⎜⎜ ⎠ ⎝
⎞
) ⎟⎟
)
(
⎞ ⎟ ⎟ ⎟ s ⎟ ⎟ ⎟ ⎠
⎞⎞
) ⎟⎟ ⎟⎟ ⎟⎟ ⎟⎟ ⎟⎟ ⎠⎠
58
Los lectores que estén familiarizados con los procedimientos del análisis de variancia encontrarán que S w2 y S B2 son los cuadrados medios entre y dentro de unidades primarias respectivamente. Los cálculos no son tan difíciles como podría sugerir el simbolismo. Supóngase que hubiesen muestreado m=3 sitios de un cuarto de acre (unidades secundarias) dentro de cada uno de n=4 bloques (unidades primarias) y se hubiesen obtenido los datos siguientes: Bloque (U.primaria) Sitio (U. secundaria) Valores secundario (pies-cubicos) 1
2
3
4
Totales primarias (pies-cubicos)
1 2 3
147 180 206
533
1 2 3
312 265 300
877
1 2 3
220 280 210
710
1 2 3
250 232 185
667
_______ 2787
_______ 2787
La media estimada por sitio es y=
(147 + 180 + ... + 185) = 3*4
2787 = 232.25 pies cúbicos por sitio 12
Para obtener el error estándar de y, calculamos primero S w2 y S B2 .
) (2787) (4 − 1) 3 * 4 (4 − 1)
(533 sB = 2
2 + ... + 667 2
2
667402.3333 − 647280.75 3 = 6707.1944 =
sw = 2
(147
2
) (533
+ 180 2 + ... + 185 2 −
4 * (3 − 1) 675463.0 − 667402.3333 = 8 = 1007.5833
2
+ ... + 667 2 3
)
Dado que el número total de bloques de 40 acres (16.2 ha) en los 60,000 acres (24,281 ha) es N = 1,500, y el número total de sitios de un cuarto de acre en cada bloque de 40 acres es M = 160, el error estándar estimado de la media es
59
sy =
⎛ 1 ⎡ 4 ⎞ 4 * 1007.5833 ⎛ 3 ⎞⎤ ⎟+ ⎜⎜ 1 − ⎟⎥ ⎢6707.1944⎜⎜ 1 − 3 * 4 ⎢⎣ 1500 ⎟⎠ 1500 160 ⎟⎠ ⎥⎦ ⎝ ⎝
1 [6689.3085 + 2.6365] 12 = 23.61 =
La media estimada por sitio es 231025 pies cúbicos (6.58 m3). El error estándar de esta estimación es 23.61 pies cúbicos (0.67 m3). Como los sitios son de un cuarto de acre de superficie (1,011 m3), el volumen medio estimado por acre es 4 (y) = 929 pies cúbicos (26.31 m3). El error estándar del volumen medio por acre es 4 ( Sy ) = 94044 (2.68 m3). Se puede obtener un estimador del volumen total y de su error estándar, ya sea a partir de la media de sitios o la media de los volúmenes por acre y sus errores estándar. La media por sitio es 232.25 ± 23.61. Para expansionar esto al total, debe multiplicarse cada valor por el número de sitios de un curto de acre existente en todo el bosque (= 240,000); el total estimado es 55, 740,000 ± 5, 666,400 La media por acre es 929 ± 94.44. Para expansionar esto, cada valor debe multiplicarse por el total del número de acres en el bosque (=60,000). Por lo que el total estimado es 55, 740,000 ± 5, 666,400 igual que antes Fracciones pequeñas de muestreo.- Si el número de unidades primarias muestreadas (n) es una fracción pequeña del número total de unidades primarias (N), la fórmula del error estándar se simplifica a 2
sy =
sB mn
Está fórmula reducida se aplica, generalmente, cuando el cociente n/N es menor a 0.01. En el ejemplo anterior, la fracción de muestreo para las unidades primarias fue de 4/ 1,500, por lo que bien se pudo haber usado la fórmula corta. El error estándar habría sido sy =
6707.1944 = 558.9329 3* 4
= 23.64 (en vez de 23.61 por medio de la formula mas larga) Cuando n/N es relativamente grande, pero el numero de unidades secundarias (m) muestreadas en cada unidad primaria escogida es solamente una pequeña fracción del numero total de unidades secundarias (M) en cada unidad primaria, la formula de error estándar seria. sy =
2 n ⎞ nsw ⎤ 1 ⎡ 2⎛ s − + 1 ⎜ ⎟ ⎢ B ⎥ mn ⎣ ⎝ N ⎠ N ⎦
60
Tamaño de la muestra para el muestreo bietápico.- Para un numero fijo de observaciones de la muestra, el muestro bietápico es usualmente menos preciso que el muestreo aleatorio simple. La ventaja del método es usualmente menos precisa que el muestreo aleatorio simple. La ventaja del método es que, el reducir el costo por observación, permite obtener la precisión y el costo, aumentan conforme crece el número de unidades primarias y disminuye el número de unidades secundaria por unidad primaria muestreada. Se puede reducir el costo si se toman menos unidades primarias y más unidades secundarias en cada unidad primaria, pero generalmente la precisión disminuye. Esto sugiere que existe un numero (m) de unidades secundarias por unidad primaria, que será optimo desde el punto de vista de dar la máxima precisión para una cantidad dada de dinero. El valor de m, que es optimo, depende de la naturaleza de la variabilidad de la población entre unidades primarias y entre unidades secundarias dentro de unidades primarias, y de la relación entre el costo por unidad primaria y el costo adicional por unidad secundaria. 2 La variabilidad de la población entre unidades primarias se simboliza por σ I y la variabilidad dentro de unidades primarias por σ II . Adviértase que estos son valores de la población, u no 2
valores muéstrales. Solo, ocasionalmente, tendremos algún conocimiento de σ I y σ II procedente de trabajos previos con la población. Más frecuentemente será necesario tomar una muestra preliminar para estimar las variabilidades de la población. De esta “premuestra”, calculamos Sn2 y Sw2, de acuerdo con las formulas que se presentaron en la discusión del error de una muestra bietápica. Entonces, nuestras estimaciones de la variabilidad de la población dentro y entre unidades primarias son 2
2
σ II 2 = sw 2 σI2 =
sB − sW m 2
2
El costo de localizar y establecer una unidad primaria (sin contar costos posteriores) se simboliza por Cp. El costo adicional por llegar a, y por medir una unidad secundaria, una vez que la unidad primaria ha sido localizada, se simboliza por Cs. Dados el costo y la información de la variancia necesarios, podemos que el tamaño optimo de m (digamos mo) por medio de ⎛ σ 2 ⎞⎛ c p mo = ⎜⎜ II 2 ⎟⎟⎜⎜ ⎝ σ I ⎠⎝ c s
⎞ ⎟⎟ ⎠
Si mo es mayor que el numero de unidades secundarias por unidad primaria (m), el valor de la formula se ignora y mo, se hace igual a M. Una vez que se ha estimado mo, el número de unidades primarias (con mo unidades secundarias por unidad primaria) necesarias para estimar la media con un error estándar específico (D) es
61
⎛ 2 σ II 2 ⎞ ⎟ ⎜σ I + ⎜ mo ⎟⎠ ⎝ n= 2 1⎛ 2 σ ⎞ D 2 + ⎜⎜ σ I + II ⎟⎟ N⎝ M ⎠ Donde: N= Numero total de unidades primarias en la población. M= Numero total de unidades secundarias en cada unidad primaria.
Ejemplo numérico. —Supóngase que deseamos estimar la media de una población con un error estándar de 10 por ciento o menos. Hemos definido a la población como un conjunto de N = 1,000 unidades primarias con M = 100 unidades secundarias en cada unidad primaria. Como no sabemos nada de la variabilidad entre o dentro de estas unidades primarias, ni tampoco respecto a los costos, tomamos una muestra preliminar consistente de ocho unidades primarias con dos unidades secundarias por unidad primaria. Los resultados son como sigue: Datos de muestreo preliminar Unidad primaria
1 2 3 4 5 6 7 8
….
Valores observados de unidades secundarias
34 36 41 62 82 16 22 93
total de unidades primarias
42 17 56 40 94 38 41 50 Total=
76 53 97 102 176 54 63 143 _____ 764
De esta muestra preliminar, calculamos sB2=981.8571 sw2=248.25 Y =
764 = 47.75 16
Por lo tanto, los estimadores de las variancias de la población entre y dentro de unidades primarias son 2 2 σ II = S W = 248.25 S B − SW m 2
σI = 2
2
=
981.8571 − 248.25 = 366.8036 2
62
Supóngase que la muestra preliminar proporciona los siguientes estimadores del costo: c p = $14.00 cs = $ 1.20
Entonces nuestro estimador del número óptimo de unidades secundarias por observarse en cada unidad primaria es mo = =
( )( ) σ II2 σ I2
cp cs
248.25 ( 366.8036 )( 14.00 1.20 )
= (.6768)(11.6667) = 7.8960 = 2.8
Puesto que no podemos observar una fracción de una unidad, debemos decidir si se han de tomar dos o tres unidades secundarias por unidad primaria. Para hacer esto, estimamos el número de unidades primarias necesarias para una m de 2 y para una m de 3, calculamos el costo de las dos alternativas y escogemos la menos cara. Nuestro muestreo preliminar de una estimación de la media de 17.75 y, puesto que hemos especificado un error estándar de10 por ciento, esto quiere decir que queremos D = (0.10) (47.75) = 4.775 ó 4.8 Si m = 2, el numero de unidades primarias necesarias para la precisión deseada seria
⎛ 2 σ II2 ⎞ ⎜σ I + ⎟ mo ⎠ ⎝ n= ⎛ σ2 ⎞ D 2 + N1 ⎜ σ I2 + II ⎟ M ⎠ ⎝ 248.25 ⎞ ⎛ ⎜ 366.8036 + ⎟ 2 ⎠ ⎝ = 1 ⎛ 248.25 ⎞ 2 ( 4.8) + ⎜ 366.8036 + ⎟ 1000 ⎝ 100 ⎠ 490.9286 = 23.4093 = 20.97 ó n=21 Habrá 21 unidades primarias a un costo de $ 14 cada una y 2 (21) = 42 unidades secundarias a un costo de $ 1.20 cada una, de modo que el costo del muestreo total (excluyendo gastos por otro conceptos) será de $ 344.40.
63
Si m = 3, el numero de unidades primarias será 248.25 ⎞ ⎛ ⎜ 366.8036 + ⎟ 3 ⎠ ⎝ n= 1 ⎛ 248.25 ⎞ 2 ( 4.8 ) + ⎜ 366.8036 + ⎟ 1000 ⎝ 100 ⎠ 499.5536 = 23.4093 = 19.20 ó n=20
El costo de este muestreo será 20 (14.00) + 60 (1.20) = 352.0 Como la primera alternativa de la precisión deseada a un costo menor, muestrearíamos n = 21 unidades primarias y m = 2 unidades secundarias por unidad primaria. Arreglo sistemático de unidades secundarias. —Aunque la economía potencial del muestreo bietápico ha sido visible y ha resultado atractivo a los técnicos forestales, estos se han mostrado un tanto renuentes a escoger unidades secundarias al azar. Las unidades primarias de muestreo pueden ser escogidas al azar, pero, en cada unidad, las unidades secundarias se arreglan, con frecuencia, de acuerdo a un patrón dado. Este no es muestreo bietápico en el sentido en el que hemos estado usando el término, aunque puede resultar en incrementos similares de la eficiencia del muestreo. Se le podrirá llamar “muestreo por conglomerados”, en el que el conglomerado es el grupo de unidades secundarias en cada localidad. La unidad de observación no es, entonces, el sitio individual, sino el conglomerado total. El valor unitario es la media o el total para el conglomerado. Las estimaciones y los errores se calculan usando la formula que se aplica según el método de escoger las localidades de los conglomerados. Dentro de cada unidad primaria, los conglomerados deben escogerse en tal forma que cada unidad secundaria tenga una oportunidad de aparecer en la muestra. Si ciertas porciones de las unidades primarias se excluyen sistemáticamente, puede presentarse un sesgo.
Muestreo bietápico con unidades primarias de tamaños desiguales El método bietápico del capitulo previo da el mismo pedo a todas las unidades primarias. Esto difícilmente parece lógico si las unidades primarias varían grandemente en tamaño. Le daría, por ejemplo, el mismo pedo a una superficie arbolada de 10,000 acres (4,047 ha) que una de 40 acres (16.19 ha). Existen algunos métodos modificados del muestreo bietápico que toman en consideración el tamaño de las unidades primarias. Muestreo bietápico estratificado. — Un procedimiento consiste en agrupar unidades primarias del mismo tamaño en estratos y aplicar el método bietápico estándar, así como los cálculos dentro de cada estrato. Los estimadores de la población se obtienen combinando los estimadores de los estratos individuales conformes a las formulas del muestreo estratificado.
64
Este diseño es muy bueno si se conoce el tamaño de cada unidad primaria y el número de estratos no es demasiado grande. Si el número de unidades primarias es pequeño, aun puede ser factible considerar cada unidad primaria como un estrato y usar el muestreo estratificado unietápico regular. Selección de unidades primarias con probabilidad proporcional al tamaño. —Otra posibilidad es seleccionar unidades primarias con probabilidad proporcional al tamaño (ppt) y a las unidades secundarias, dentro de unidades primarias con igual probabilidad. La selección de las unidades primarias debe hacerse con reemplazo, pero las secundarias pueden escogerse sin reemplazo. Cada vez que se escoja una unidad primaria, debe extraerse un nuevo conjunto de unidades secundarias, en tal forma que una unidad secundaria que se escogió durante un muestreo se vuelva a escoger nuevamente durante algún muestreo subsecuente de esa unidad primaria. ⎛_⎞ Después que se han hecho las observaciones, se calcula la media de la muestra ⎜ y ⎟ para ⎝ ⎠ cada una de las n unidades primarias que quedaron incluidas en la muestra. Estas medias primarias se usan después para el cálculo de un estimador de la media de la población mediante n
y=
∑y i =1
i
n
El error estándar de la media es
⎛ n ⎞ ⎜ ∑ yi ⎟ n yi2 − ⎝ i =1 ⎠ ∑ n s y = i =1 n ( n − 1)
2
Si solamente se selecciona una unidad secundaria en cada unidad primaria escogida, este procedimiento es idéntico al muestreo aleatorio simple. Si existe alguna relación entre el tamaño de la unidad primaria y su media, el muestreo de ppt puede dar estimaciones de precisión baja. Se puede mejorar la precisión combinando el muestreo bietápico estratificado y la selección con ppt en las unidades primarias. Las unidades primarias de extensión similar se agrupan en estratos y, dentro de cada estrato se hace la selección de unidades primarias con probabilidad proporcional al tamaño. Las media y variancias de los estratos se calculan por medio de las formulas del muestreo bietápico con selección de probabilidad proporcional al tamaño en las unidades primarias. Selección de unidades primarias con igual probabilidad. —Los procedimientos que se discutido hasta ahora, requieren de una información que tenga una aproximación razonable en cuanto el tamaño de cada unidad primaria en la población. —información que a menudo se desconoce. Una técnica alternativa requiere únicamente del conocimiento del tamaño total de unidades
65
primarias que están incluidas en la muestra, y del numero total de unidades primarias y de mi unidades secundarias dentro de la unidad primaria escogida numero i. en cada nivel, el muestreo se hace con igual probabilidad y sin reemplazo. El numero de unidades muestreadas (mi), puede variar o permanecer constante. A cada unidad primaria escogida se le calcula la media muestral ( yi ) y de estos valores se estima la media de la población como
n
y=
∑(M y ) i =1
i
i
⎛ n ⎞ ⎜ ∑ Mi ⎟ ⎝ i =1 ⎠
Donde: n = Numero de unidades primarias muestreadas. yi = Media por unidad secundaria en la unidad primaria muestreada numero i. Mi= Numero total de unidades secundarias en la unidad primaria muestreada numero i. El error estándar de esta estimación es
sy = y
2 n ⎛⎜ ∑ M i ∑ Ti 2 − 2∑ M i Ti ⎞⎟ ⎛1 − n ⎞ + ⎜ ⎟ n − 1 ⎜ ( ∑ M i )2 ( ∑ Ti )2 ( ∑ M i )( ∑ Ti ) ⎟ ⎝ N ⎠ ⎝ ⎠
Donde: n = Numero de unidades primarias muestreadas. N = Numero total de unidades primarias Ti = ( Mi y j ) Como una ilustración de los cálculos, supóngase que deseamos estimar el volumen medio en pies-tabla de una población de 426 lotes arbolados. Se escogen al azar cuatro lotes arbolados (unidades primarias) y dentro de cada lote, se mide el volumen en pies-tabla de dos sitios escogidos totalmente al azar, de un quinto de acre (806 m2). En cada lote escogido, también se determina la superficie total. Puesto que se emplearon sitios de un quinto de acre, el valor de M, para el lote número i será de 5 veces el tamaño de su superficie. Supóngase que los valores observados son como sigue: Lote arbolado 1 2 3 4
······ ······ ······ ······
Valores por sitio pies-tabla 620 585 590 960
740 475 730 820
Medidas de las unidades primarias 680 530 660 490
Superficie de lote 110 26 54 60
M 550 130 270 300 1,250
y = Ti 374,000 68,900 178,200 267,000 888,100
Por lo tanto
66
y=
∑ ( M y ) = 888,100 = 710.48 pies-tabla por sitio de un quinto de acre ( ∑ M ) 1, 250 i
i
i
Los valores necesarios para calcular el error estándar son
∑M
2 i
∑T
= 482,300
2
i
= 247, 667, 450, 000
∑ M T = 342,871, 000 ( ∑ T ) = 788, 721, 610, 000 ( ∑ M ) = 1,562,500 ( ∑ M )( ∑ T ) = 1,110,125, 000 i i
2
2
i
i
i
s y = 710.48
i
( 2 )( 342,871,000 ) 482,300 + 247,667,450,000 ( 43 ) ( 1,562,500 788,721,610,000 − 1,110,125,000 )
= 710.48 0.0066295 = 57.82 pies − tabla
(se omite la cpf)
Este estimador de la media será un poco sesgado si existe alguna relación entre el tamaño de la unidad primaria y la media por unidad en ésta. El sesgo, generalmente, no es serio en muestras grandes (más de 30 unidades primarias). Un estimador insesgado con igual probabilidad.- si se espera que el sesgo en que se incurre al usar el estimador anterior, es grande, se puede obtener un estimador insesgado. Además la información requerida para, para el procedimiento sesgado, debemos conocer también el número total de unidades secundarias (M) en la población. Como es el caso del estimador sesgado, se escogen n unidades primarias con igual probabilidad y dentro de cada unidad primaria se observan mi unidades secundarias. A cada unidad primaria se le calcula su media ( yi ) y se emplea para estimar la media de la población
y=
N nM
n
∑(M y ) i =1
i
i
El error estándar es
( ∑ ( M y )) ∑(M y ) − n 2
sy =
N M
i
i
n ( n − 1)
i
2
i
n⎞ ⎛ ⎜1 − ⎟ ⎝ N⎠
Ahora, supóngase que los 426 lotes arbolados del ejemplo anterior tiene un área total de 26,412 acres (10,689 ha). Entonces debido a que las unidades secundarias son de un quinto de acre (806 m2) de extensión, el número total de unidades secundarias en la población es M=
67
132,060. Con los mismos datos muestrales, el estimador insesgado de la media de la población por unidad sería y=
426 ( 888,100 ) = 716.21 pies-tabla por sitio 4 (132, 060 )
426 sy = 132.25
( 374, 000
2
+ L + 267, 0002 ) − ( 4 ( 3)
888,100 ) 4
= 0.003226 4, 207, 253,958 = 209.25
2
(se omite la cpf)
pies − tabla
El error estándar del estimador insesgado (209.25), si se compara con el del estimador sesgado (57.82), demuestra por qué frecuentemente se prefiere este último. Pero, si se conoce el tamaño de todas las unidades primarias, se puede reducir el sesgo del estimador sesgado, y aumentar la precisión del estimador insesgado, mediante el agrupamiento de unidades primaria similares, y usando estos procedimientos de estimación en conjunción con el muestreo estratificado. Muestreo sistemático Como su nombre lo indica, y como lo sabe la mayoría de los técnicos forestales las unidades que se incluyen en la muestra sistemática se escogen, no al azar sino de acuerdo con un patrón reespecificado. Generalmente, el único elemento de aleatorización es la elección del punto inicial en el patrón, e incluso esto a menudo, se pasa por alto. El patrón más común consiste en una red donde las unidades de muestreo se colocan en hileras equidistantes, con una distancia constante entre unidades dentro de hileras. Ante el desdeño de algunos estadísticos, la gran mayoría de los inventarios se han hecho por medio de alguna forma de muestreo sistemático. Hay dos razones: 1) la localización de las unidades de muestreo en el campo es frecuentemente más fácil y más económica, y 2) existe la idea de que una muestra deliberadamente diseminada sobre toda la población será más representativa que una muestra aleatoria. Los estadísticos, usualmente, carecen de argumentos contra la primera razón. Sin embargo, están en menor disposición de aceptar la segunda. Aunque si admiten la posibilidad de que no es del todo improbable que una muestra sistemática dé una estimación más precisa de la verdadera media de la población (esto es, más representativa) que una muestra aleatoria del mismo tamaño. No obstante, señalan que la estimación del error de muestreo de un inventario sistemático requiere de un mayor conocimiento sobre la población, de la que existe disponible en la generalidad de los casos, con la consecuencia de que, quien lleva a cabo el muestreo rara vez puede estar seguro de qué tan precisa es su estimación. El procedimiento común consiste en usar las fórmulas del muestreo aleatorio para el cómputo de los errores de un inventario sistemático. Dependiendo del grado y de la forma en la cual la población cae dentro de ciertos patrones, la precisión puede ser mucho más baja o mucho más alta que han sugerido las fórmulas aleatorias. Si no existe un patrón definido en los valores unitarios de la
68
población, las fórmulas aleatorias pueden dar una indicación aceptable de la precisión del muestreo. La dificultad consiste en conocer qué condición es aplicable a una muestra particular. El procedimiento bien conocido de sobreponer dos o más “redes” sistemáticas, cada una con puntos de partida localizados aleatoriamente provee de algunas de las ventajas del muestreo sistemático, junto con una estimación válida del error de muestreo. En este muestreo, cada red se convierte, en efecto, en una simple observación y el error se estima a partir de la variabilidad entre redes. Sin embargo, la localización de los sitios en el campo se hace más difícil conforme aumenta el número de redes y parece que la ventaja de lograr una muestra representativa se podría obtener más fácil y eficientemente, por medio del muestreo estratificado con bloques pequeños que hagan las veces de los estratos. A pesar de los riesgos conocidos, parece que los técnicos forestales no harán a untado el muestreo sistemático. Generalmente, toman la precaución de trazar las líneas de los sitios en ángulos rectos, más bien que en forma paralela a las partes superiores de las cordilleras y a las corrientes fluviales. En la mayoría de los casos, los errores de muestreo se calculan empleando las fórmulas apropiadas al muestreo al azar. La experiencia sugiere que algunos de estos inventarios conducirán a resultados muy erróneos, pero que la mayoría de ellos dará estimaciones que tienen una precisión tan buena o ligeramente mejor que la que dan las fórmulas del muestreo al azar. Algunos estadísticos continuaran deplorando su práctica y algunos continuaran buscando una solución general operable al problema de los estimadores del error (aunque por lo menos un estadístico muy eminente duda que exista una solución operable). METODOS DE MUESTREO PARA VARIABLES DIRECTAS Muestreo al azar simple-Datos de clasificación Supóngase que de un lote grande de semilla se han escogido 50 al azar, con objeto de estimar la proporción (p) de semilla viable. Supóngase también que la prueba de corte o de golpeo muestra que 39 de las 50 semillas fueron buenas. Entonces nuestro estimador ( p ) de la proporción de semilla buena es
p = Número que tiene el atributo especificado Numero observado 39 = 50 = 0.78 Error estándar del estimado.- el error estándar de p es sp =
p (1 − p ) ⎛ n⎞ ⎜1 − ⎟ ( n − 1) ⎝ N ⎠
Donde: n = número de unidades observadas En este ejemplo N es extremadamente grande con la relación a n, y así, la corrección por la población finita podría pasarse por alto
69
sp =
( 0.78)(1 − 0.78) ( 50 − 1)
= 0.05918 Limites de confianza.- Para ciertos tamaños de muestra (entre ello, n = 50) se pueden obtener limites de confianza de la tabla 3, página 93. En este ejemplo encontramos que una muestra de n = 50 semillas, 39 resultaron viables. La proporción de semilla viable que se estimó fue de 0.78 y, como se observa en la tabla 3, los límites del 95 % de confianza serían 0.64 y 0.88. Para muestras de 100 y de más observaciones, la tabla lo muestra los límites de confianza para proporciones mayores que 0.50. Sin embargo, estas se pueden obtener fácilmente trabajando con la proporción de unidades que no poseen el atributo especificado. Así supóngase que en una muestra de n = 1000 semillas, el 78% resultó en semillas viables. Esto equivale a decir que el 22% de confianza para una fracción observada de 0.22 es de 0.19 a 0.25. Si la verdadera proporción de la población de semillas vanas se encuentran dentro de los límites 0.19 y 0.25, la proporción de la población de semillas viables debe encontrarse dentro de los límites 0.75 y 0.81 Intervalos de confianza para muestras grandes.- Para muestras grandes, el cálculo de intervalo de 95% de confianza puede hacerse por medio de
1⎤ ⎡ p ± ⎢ 2s p + ⎥ 2n ⎦ ⎣ Supóngase que se ha escogido una muestra de n = 250 unidades y que 70 de estas unidades tienen algún atributo específico. Entonces, 70 p= = 0.28 250 y, ( 0.28 )( 0.72 ) sp = (pasando por alto la corrección por población finita) 249
= 0.02845 Entonces, el intervalo de 95% de confianza
⎡ 1 ⎤ = 0.28 ± ⎢ 2 ( 0.02845 ) + ⎥ 2 ( 250 ) ⎦ ⎣ = 0.28 ± 0.059 = 0.221 a 0.339 Así, a menos que haya ocurrido una posibilidad de 1 en 20, la verdadera proporción se localiza dentro de los límites 0.22 y 0.34. Para un intervalo de confianza de 99%, multiplicaríamos S p por 2.6 en vez de 2 (para muestras de n = 250 ó 1, 000, en el intervalo de confianza se pudo
70
haber obtenido, por supuesto, de la tabla 3. Para este ejemplo la tabla de 0.22 a 0.34 como límites). La ecuación anterior da lo que se conoce como la aproximación normal a los límites de confianza. Como se observó, puede emplearse para muestras grandes. La consideración de una muestra grande depende de la proporción de individuos que tengan la característica especificada. Como una guía burda, la aproximación normal será buena solamente si el logaritmo común del tamaño de la muestra (n) es igual o mayor que 1.5 + 3 ( P − 0.5 ) Donde: P = nuestra estimación óptima de la verdadera proporción de la población que tiene atributo especificado. P − 0.5
= el valor absoluto (esto es, ignorado el signo algebraico) de la diferencia de P con 0.5.
Así, si nuestro estimador de P es 0.20 entonces P − 0.5 es igual a 0.3 y, si se ha de usar la aproximación normal, el logaritmo de muestro tamaño de muestra debe ser mayor que 1.5 + 3 (0.3) = 24 O n debe encontrarse arriba de 251 (2.4 = log 251). Tamaño de la muestra.- La tabla 3 puede emplearse también como una guía para el número de unidades que deben observarse en una muestra al azar simple para estimar una porción con una precisión especificada. Supóngase que estamos muestreando una población, en la cual alrededor del 40% de las unidades tienen un cierto atributo y deseamos estimar esta proporción hasta dentro de ± 0.15 (al nivel de 95%). La tabla señala que para una muestra de 30 observaciones que tiene p = 0.4, los límites de confianza serían 0.23 y 0.60. Puesto que el límite mayor no se encuentra dentro de 0.15 de p = 0.4, una muestra de 30 unidades no daría la precisión necesaria. Una muestra de n = 50 daría límites de 0.27 y 0.55. Como cada una de estos valores se observa dentro de 0.15 o p =0.4, concluimos que una muestra cuyo tamaño sea 50, sería adecuada. Si la tabla sugiere que sería necesaria una muestra mayor a 100, el tamaño se puede estimar por
n=
n=
1 2
E 1 + ( 4 )( P )(1 − P ) N
para 95 por ciento de confianza
1 2
E 1 + ( 6.76 )( P )(1 − P ) N
para 99 por ciento de confianza
Donde: E = La precisión con la cual ha de estimarse P
71
N = Número total de unidades en la población. La tabla indica que para estimar una P de cerca de 0.4 dentro de E= ± 0.05 (al nivel de 95% de confianza) se requerirán entre 250 y 1, 000 observaciones. Usando la primera de las fórmulas arriba mencionadas (y suponiendo que N= 5, 00) encontraríamos,
n=
1
( 0.05) 1 + ( 4 )( 0.4 )( 0.6 ) 5, 000 2
= 357
Si no tenemos idea del valor de P, tendremos que hacer una suposición con objeto de estimar el tamaño de la muestra. El procedimiento más seguro consiste en suponer un P tan aproxima a 0.5 como sea factible de ocurrir razonablemente. Como escoger una semilla al azar.- Si estuviésemos tratando de estimar la proporción de árboles que tienen una cierta enfermedad en un bosque, sería difícil escoger los árboles individuales al azar, y después localizarlos en el campo para las observaciones. Sin embargo, en algunas poblaciones, están ubicados aletoriamente o fácilmente se pueden disponer de esta manera. Un lote de semillas es una de estas poblaciones. Mezclando completamente la semilla antes del muestreo, es posible escoger un número de individuos de una posición del lote y suponer que esto es equivalente a una muestra completamente al azar. Aquellos que han muestreado semilla tienen preocupación de evitar que en la mezcla de semillas vanas ligeras tiendan a agruparse en la parte superior de la pila. La muestra podría tomarse con una pequeña pala de mano, o un recipiente de semillas, que recoja en forma aproximada el número de semillas por examinarse. Como una precaución, la mayoría de los que toman muestras de semilla emplean una pala de mano que selecciona solamente una fracción del número deseado de semilla y obtienen muestras de varios lugares de la pila, los que después combinan. Muestreos de atributos por conglomerados El muestreo de atributos, el costo de seleccionar y de localizar un individuo es generalmente muy alto con relación al costo de determinar si un individuo tiene o no una cierta característica. Debido a esto, usualmente se prefiere alguna forma de muestreo por conglomerados sobre el muestreo al azar simple. En el muestreo por conglomerados la unidad de observación consiste en un grupo de individuos y el valor unitario es la proporción de los individuos en el grupo que tienen el atributo especificado. Al estimar el porcentaje de supervivencia de una plantación, sería posible escoger a los árboles individuales para las observaciones, por medio de una selección aleatoria de pares de números, haciendo que el primer número represente la hilera y el segundo número designe al árbol dentro de esta hilera. Pero obviamente, seria ineficiente desentenderse de todos los árboles que deben de pesarse para llegar al que ha sido escogido. En vez de esto, probablemente, haríamos conteos de supervivencia en un número de hileras escogido al azar y (suponiendo que se plantó el mismo número de árboles en cada hilera) promediar éstos para estimar el porcentaje de supervivencia. Esta es una forma de muestreos por conglomerados es una hilera de árboles plantados. El porcentaje de germinación de un lote de semilla podría estimarse, también, por medio del muestreo por conglomerados. Aquí, la ventaja de los conglomerados no se presenta al
72
seleccionar a los individuos para la observación, sino al evitar algunos riesgos de las pruebas de germinación. Tales pruebas hacen comúnmente en pequeñas cajas cubiertas. Si todas las semillas se colocan en una sola caja, cualquier accidente (por ejemplo, exceso de humedad o ataque de hongos) puede afectar la prueba entera. Para evitar este riesgo, es común colocar un número fijo de semillas (cien o doscientas) en cada una de varias cajas. La caja individual se convierte, entonces, en la unidad de observación y el valor unitario es el porcentaje de germinación de la caja. Cuando los conglomerados son relativamente grandes, todos ellos del mismo tamaño, los procedimientos para el cálculo de los estimadores de las medias y de los errores estándar, son prácticamente iguales a los que se describieron para datos de medición. Para ilustrar, supóngase que se han escogido ocho muestras de 100 semillas cada una, de un lote totalmente revuelto. Las muestras de 100 semillas se colocan en 8 cajas separadas de germinación. Después de 30 días, se registran los siguientes porcentajes de germinación:
Caja No. Germinación (por ciento )
1
2
3
4
5
6
7
8
Total
84
88
86
76
81
80
85
84
664
Si pi es el por ciento de germinación en la caja numero i, el por ciento de medio de germinación estimado por n
p=
∑p i =1
n
i
=
664 = 83.0 8
La varianza de p se calcularía por 2
⎛ n ⎞ 2 ⎜ ∑ pi ⎟ n 664 ) ( 2 ⎝ i =1 ⎠ 2 2 2 − p ∑ i (84 + 88 + L + 84 ) − 8 n s 2p = i =1 = 7 ( n − 1) = 14.5714 Por, lo tanto el error estándar de p se puede obtener como
sp =
s 2p ⎛ n⎞ ⎜1 − ⎟ n ⎝ N⎠
(ignorando la corrección por finitud)
14.5714 = 1.35 8 Nótese que, en el muestreo por conglomerados, n significa el número de conglomerados muestreados y N es el número de conglomerados posibles en la población. Como en el muestreo al azar simple, aplicado a datos de medición, también ahora se puede calcular un intervalo de confianza para el porcentaje estimado por medio de la t de Student =
Intervalo de 95 por ciento de confianza = p ± t ( s p )
73
Donde: t = Valor de la t de Student al nivel de 0.05 con n-1 grado de libertad. Así, en este ejemplo, t tendría 7 grados de libertad y t.05 seria 2.365. El intervalo de 95 por ciento de confianza sería
83.0 ± (2.365)(1.35) = 83.0 ± 3.19 = 79.8 a 86.2 Transformación de porcentajes. —Si los conglomerados son pequeños (menos de 100 unidades por conglomerado) a si algunos de los porcentajes observados son mayores que 80 ó menores que 20, puede se recomendable el transformar los porcentajes antes del calculo de las medias y de los intervalos de confianza. La transformación común es arcoseno porcentaje . La tabla 4, pagina 95, hace que sea sencilla la transformación de los porcentajes observados. para los datos en el ejemplo previo los valore transformados serían. Caja No.
Por ciento
1 2 3 4 5
84 88 86 76 81
Arcoseno
Caja No.
66.4 69.7 68.0 60.7 64.2
6 7 8 Total
Por ciento
80 85 84
Arcoseno
63.4 67.2 66.4 526.0
La media de los valores transformados es
526.0 = 65.75 8 La varianza de estos valores es
( 66.4
2
+ L + 66.4
2
)
( 526 ) −
8 7 Y el error estándar de la media del valor transformado es
s = 2
2
= 8.1486
8.1486 = 1.0186 = 1.009 8 Así, los limites del 95 por ciento de confianza serian (usando t.05 con 7 grados de libertad = 2.365) CI = 65.75 ± (2.365)(1.009) = 65.75 ± 2.39
sy =
= 63.36 a 68.14 Al hacer referencia a la tabla, nuevamente vemos que la media de 65.75 corresponde a un porcentaje de 83.1. Los límites de confianza corresponden a porcentajes de 79.9 y 86.1. En este caso, la transformación produjo poco cambio en la media o en los límites de confianza, pero en general es más seguro el empleo de los valores transformados, aunque esto implique algo de trabajo adicional.
74
Otros diseños de muestreo por conglomerados. —Si consideramos que los porcentajes observados o transformados son equivalentes a las mediciones, es fácil observar que también puede usarse, para el muestreo por conglomerados de atributos, cualesquiera de los diseños que ya se describieron, para las variables continuas. En lugar de los individuos, los conglomerados se convierten en las unidades de las cuales se compone la población. El muestreo al azar estratificado pudiera ser empleado cuando deseamos estimar el porcentaje de germinación de un lote de semilla constituido de semilla de fuentes diferentes. Las fuentes se convierten en los estratos, cada uno de los cuales se muestrea por dos o más conglomerados escogidos al azar de 100 ó 200 semillas. Con semilla almacenada en un número de frascos 100 libras (45.36 Kg). Podríamos usar el muestreo bietápico, haciendo que los frascos sean las unidades primarias de muestreo y conglomerados de 100 semillas, las unidades secundarias. Si los frascos fuesen de volumen diferente, podríamos muestrear frascos con probabilidad proporcional al tamaño. Muestreo de atributos por conglomerados —Conglomerados de tamaños diferentes Frecuentemente, cuando se efectúa un muestro de atributos, resulta conveniente hacer que el sitio sea la unidad de muestreo. En cada sitio contaremos el número total de individuos y el número que tiene los atributos especificados. Aun cuando los sitios son de la misma área, el número total de individuos puede variar de sitio a sitio; por lo tanto, los conglomerados serán de tamaños desiguales. Al estimar la proporción de los individuos que tienen el atributo, probablemente no desearíamos promediar las proporciones de todos los sitios, porque eso daría la misma importancia a sitios con pocos individuos, que aquellos con muchos. En tales situaciones, se podría emplear el estimador de razón de medias. Supóngase que un área de encino arbustivo no comercial ha sido asperjada y deseamos determinar los porcentajes de árboles muertos. Para hacer esta estimación, se determina el número total de (x ) (y ) árboles i y el número de árboles muertos i en 20 sitios de un décimo de acre (404.7 m2). Sitio
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
No. de arboles (x)
········ ········ ········ ········ ········ ········ ········ ········ ········ ········ ········ ········ ········ ········ ········
15 42 128 86 97 8 28 65 71 110 63 48 26 160 103
No. de Arboles muertos (y)
11 32 98 42 62 6 22 51 48 66 58 32 16 126 80 75
16 17 18 19 20
········ ········ ········ ········ ········ Total Media
80 32 56 49 84 1,351 67.55
58 25 44 24 59 960 48.0
El estimador de razón de medias de la proporción de árboles muertos es y 48.0 p= = = 0.7106 x 67.55 El error estándar estimado de p es 2 2 2 1 ⎛ s y + p sx − 2 ps yx ⎜ x 2 ⎜⎝ n
⎞⎛ n⎞ ⎟⎟ ⎜ 1 − ⎟ ⎠⎝ N ⎠ s y2 =Varianza de los valores individuales de y
sp =
Donde:
sx2 =Varianza de los valores individuales de x s yx =Covarianza de y y de x n =Numero de sitios observados En este ejemplo
(11
2
s y2 =
+ 322 + L + 592 ) − 19
9602 20 = 892.6316
1,3512 (15 + 42 + L + 84 ) − 20 sx2 = = 1,542.4711 19 ( 960 )(1,351) (11)(15) + (32)(42) + L + (59)(84) − 20 s yx = 19 = 1,132.6316 2
2
2
Con estos valores (pero ignorando la corrección por finitud), sp =
1
( 67.55)
2
⎡ 892.6316 + ( 0.7106 )2 (1,542.4711) − 2 ( 0.7106 )(1,132.6316 ) ⎤ ⎢ ⎥ 20 ⎢⎣ ⎥⎦
= 0.026
Como en cualquier uso del estimador de razón de medias, los resultados pueden ser sesgados, si la proporción de las unidades en un conglomerado que tenga un atributo especificado, se encuentra relacionada con el tamaño del conglomerado. En muestras grandes, el sesgo será, con frecuencia, trivial.
76
Muestreo de variables enumerables A menudo se presentan complicaciones estadísticas al manejar datos tales como el número de insectos en un cono, el número de plántulas en la décima parte de un sitio de milésimo de acre y variables similares que provienen de un recuento que no tiene límite superior fijo. Los conteos pequeños y aquellas que tienen numerosos ceros, presentan problemas especialmente complejos. Tienden a seguir distribuciones (Poisson, negativa, binomial, etc.) con las que es difícil trabajar. Si no es posible evitar el tener que trabajar con variables enumerables, lo mejor que podría hacer, quien muestrea y carece de experiencia, es definir las unidades de muestreo de modo que la mayoría de los recuentos sea grande, y tomar muestras de 30 ó más unidades. Entonces, puede ser posible aplicar los procedimientos que se dieron para variables continuas. Con objeto de estimar el número de larvas de un cierto insecto que habita en el piso de un área forestal, se tomó la hojarasca de cada uno de 600 sitios que se localizaron al azar. La hojarasca se examinó cuidadosamente y se registro el número de larvas para cada muestra. Los conteos dieron valores que variaron de 0 a 6 larvas por sitio. El número de sitios en los cuales se observaron los diferentes valores resultantes de los conteos fueron:
Los conteos están muy próximos a la distribución de Poisson (véase la pagina 9). Con objeto de poder aplicar los métodos de la distribución normal, las unidades se redefinieron. Las nuevas unidades consistieron de 15 de las unidades originales, las que se escogieron al azar de las 600. Hubo un total de 40 unidades nuevas, y los valores unitarios fueron el total del conteo de larvas de las 15 observaciones escogidas. Los valores de las 40 unidades redefinidas fueron
Conteo Numero de sitios
=
0
1
2
3
4
5
6 Total
= 256
224
92
21
4
1
2 600
Por medio de los procedimientos al azar simple de una variable continua, la media ( y ) por unidad es 504 y= = 12.6 40 La variancia ( S y 2 ) es s y2 =
(14
2
+ 16 + L + 13 2
2
)
( 504 ) −
2
40
39
= 8.8615
Si se pasa por alto la corrección por población finita, el error estándar de la media ( S y ) es
8.8615 40 = 0.47
sy =
77
Por lo tanto, la media por acre es (2,904)(12.6)=36,590.4 El error estándar de la media por acre es (2,904)(0.47)=1,364.88 Como una aproximación podemos decir que, a menos que haya ocurrido una posibilidad de 1 en 20 al muestrear, el valor medio del recuento por acre se encuentra dentro de los límites. 36,590.4 ± 2(1,364.88) ó 33,860 a 39,320
ALGUNOS OTROS ASPECTOS DEL MUESTREO Forma y tamaño de las unidades de muestreo
El tamaño y la forma de las unidades de muestreo pueden afectar notablemente el costo del inventario, su precisión, o ambos. No se hará aquí ningún intento por ofrecer un estudio completo, pero un ejemplo puede ilustrar el problema, así como una metodología general a su solución. Considérese un inventario en un vivero que contiene 1,000 camas de “pino slash”, cada camada 500 pies de longitud (152.4 m) y 4 pies de anchura (1.22 m). La practica convencional en este vivero ha consistido en muestrear las camas, observando el numero total de renuevo plantable que existe en un marco de muestreo de 1 por 4 pies (0.30 X 1.20 m), colocando transversalmente en cinco porciones escogidas al azar en cada cama. El proceso es laborioso y requiere de mucho tiempo, totalizado 5,000 observaciones, o casi una milla (1,609 m) de cama. Al viverista le gustaría saber si un cuadro convencional de 12 pulgadas (30.4 m). Una forma práctica de establecer un juicio entre unidades de muestreo, consiste en comparar el costo total de los inventarios hechos con cada unidad con la restricción de que ambos métodos permitan una precisión igual. Por ejemplo3, si el costo por observación con el marco de 6 pulgadas es d1, entonces para n1, observaciones, el costo del inventario (haciendo a un lado costos por otros conceptos, los que se supone que son iguales para ambos tamaños de las unidades) es c1 = n1d1 En forma similar, para el marco de 12 pulgadas, podemos decir c2 = n2 d 2 Entonces el costo empleando marco de 6 pulgadas con relación al costo usando marco de 12 pulgadas es c1 n1d1 = c2 n2 d 2 3
Para propósitos ilustrativos, e inventario del vivero se tratara como una muestra aleatoria simple, aunque la especificación de u numero fijo de sitos en cada cama lo constituye en un diseño estratificado
78
Si existen disponibles estimaciones de la variancia de la población s12 y s22 , se puede escribir la variancia de los totales de la población (ignorando la corrección por población finita) 2 2 2 ⎛ s1 ⎞ = N s T1 1 ⎜⎝ n1 ⎟⎠ y 2 2 2 ⎛ s2 ⎞ = N s T2 2 ⎜⎝ n2 ⎟⎠ donde: N1 y N 2 = numero de unidades de cada tamaño en la población. Ahora, si los dos métodos han de dar igual precisión a la estimación de la producción total, 2 2 sT = sT 1
2
ó ⎛ s2 ⎞ ⎛ s2 ⎞ N12 ⎜ 1 ⎟ = N 22 ⎜ 2 ⎟ ⎝ n1 ⎠ ⎝ n2 ⎠
y, despejando a n ⎛ N 2s2 ⎞ n2 = ⎜ 22 22 ⎟ n1 ⎝ N1 s1 ⎠
Se puede simplificar esta ultima cantidad recordando que el numero total de unidades de 6 pulgada ( N1 ) es el doble del numero total de unidades de 12 pulgadas ( N 2 ); por lo tanto, ⎛ N 2s2 ⎞ 2 2 n2 = ⎜ ⎟n ⎜ ( 2 N )2 s 2 ⎟ 1 2 1 ⎠ ⎝ 2 ns = 1 22 4 s1
Si sustituimos este valor de n2 en la formula del costo relativo que se dio antes c1 n1d1 n1d1 = = c2 n2 d 2 ⎛ n1s22 ⎞ ⎜ 2 ⎟ d2 ⎝ 4s1 ⎠
4s12 d1 = 2 s2 d 2 En este ejemplo, un estudio especial mostró que s12 y s22 tienen valores de 134.1 y 416.0 respectivamente, y la media de los tiempos requeridos para la localización del marco y haciendo el conteo para cada tamaño de marco fueron d1 = 94.36 y d 2 =129.00. Sustituyendo estos valores en la ecuación del costo relativo.
79
c1 4 (134.1)( 94.36 ) = c2 ( 416.0 )(129.00 ) = 0.943 Este resultado indica que el marco de 6 pulgadas es ligeramente mas eficiente que el de 12 pulgadas. En términos más generales, el costo del método 1 con relación al costo del método 2, para un error de muestreo especificado seria c1 N12 s12 d1 = c2 N 22 s22 d 2 Se obtiene el mismo resultando pensando en términos de la eficiencia relativa de los procedimientos alternos. Como una medida de la eficiencia, los estadísticos usan, comúnmente, el reciproco del producto del costo por unidad y el coeficiente de variación al cuadrado para la unidad de muestreo dada. Si se simboliza al coeficiente de variación por c y al costo por d, la eficiencia (U) se da por 1 U= 2 ( d )( C )
La eficiencia relativa de las dos alternativas sería entonces
( d )( C2 ) U 2 ( d1 )( C1 ) U = ó 1 = 2 2 U1 ( d 2 )( C2 ) U 2 ( d1 )( C1 )2 2
2
En el ejemplo previo tuvimos
d1 = 94.36
s12 = 134.1
d 2 = 129.00 s22 = 416.0 Para el marco de 6 pulgadas el cuadrado del coeficiente de variación es s12 2 ( C1 ) = 2 x1 Para el marco de 12 pulgadas el cuadrado del coeficiente de variación seria s2 2 ( C2 ) = 22 x2 La media por unidad para el marco de 12 pulgadas ( x2 ) debe ser el doble de la media por unidad para el marco de 6 pulgadas, por lo que podemos escribir s2 s2 2 ( C2 ) = 2 2 = 2 2 ( 2 x1 ) 4 x1 Entonces la eficiencia del marco de 12 pulgadas relativo a la del marco de 6 pulgadas es, ⎛ 134.1 ⎞ 94.36 ⎜ 2 ⎟ U2 ⎝ x1 ⎠ = 4 ( 94.36 )(134.1) = U1 ⎛ 416.0 ⎞ (129.00 )( 416.0 ) 129.00 ⎜ 2 ⎟ ⎝ 4 x1 ⎠
= 0.943 Como antes, el marco de 6 pulgadas parece ser mas eficiente que el marco de 12 pulgadas. 80
Estimación de cambios Con frecuencia, los cambios que han ocurrido en las características de una población forestal son de tanto interés como su “status” presente. El cambio periódico en el volumen de un bosque, es por ejemplo, un asunto de enorme interés para los forestales. La estimación de tales cambios requiere usualmente de un muestreo al principio y al final del periodo. La diferencia o alguna función de la diferencia entre las dos estimaciones, es el cambio estimado. Ordinariamente, cada vez se empleara el mismo método de muestreo, pero eso no es absolutamente necesario. Sitios temporales o permanentes. —La estimación del cambio, por medio del muestreo en dos épocas diferentes, plantea siempre la duda de emplear sitios temporales o permanentes de muestreo, esto es, ¿en cada ocasión debe observarse las mismas unidades en ambas ocasiones? Una tercera alternativa es la de contar con algunos sitios temporales y algunos permanentes en un sistema de muestreo doble: una muestra grande de sitios temporales con una submuestra de sitios permanentes. La elección entre sitios temporales y sitios permanentes depende grandemente del grado de correlación que pueda esperarse entre los valores iniciales y finales por sitio. Si se espera una correlación positiva alta, los sitios permanentes deben dar la mejor precisión. Si es probable que la correlación sea pequeña o negativa, los sitios temporales podrían ser mejor. Si el periodo es relativamente corto y si el derribo de árboles o una mortalidad elevada son improbables, la correlación será, posiblemente, grande y positiva, favoreciendo el uso de sitios permanentes. Donde existe la probabilidad de que ocurran cambios grandes de volumen debido a cortes, mortalidad elevada o un intervalo muy largo de tiempo, la correlación será pequeña o incluso negativa, favoreciendo el uso de sitios temporales. Si existe suficiente información en cuanto a costos y variabilidad, la ventaja de los sitios permanentes con el muestreo al azar simple se puede ponderar por medio del calculo del costo relativo ( Rc ) de obtener una precisión dada empleando los dos métodos
Rc =
2Ct ( s12 + s22 )
C p ( s12 + s22 − 2s12 )
Donde:
Ct = Costo de localizar, y de hacer una sola medición en un sitio temporal. C p = Costo total por concepto de localizar, medir, ubicar, relocalizar y medir un sitio permanentemente. s12 = Variancia entre sitios individuales correspondiente a la segunda medición.
s22 = Variancia entre sitios individuales correspondiente a la segunda medición. s12 = Covariancia entre las primeras y las segundas mediciones en sitios individuales. Si Rc es mayor que 1, deben usarse sitios permanentes. Si Rc es menor a 1, probablemente los sitios temporales serán mejores. En los casos en que las remediciones se hagan varias veces, el costo promedio por sitio permanente será reducido, inclinándose el cociente más favorable hacia los sitios permanentes.
81
Localización de los sitios. —El asunto referente al tipo y grado de localización ha producido debates acalorados entre las personas que trabajan con sitios permanentes. Donde existe la posibilidad de que se realice cualquier forma de tratamiento al bosque en el periodo comprendido entre mediciones, se conviene generalmente en que la ubicación de los sitios y la forma de las señales no debe ser discernible a quienes llevan a cabo los tratamientos al bosque. Es muy difícil, si no humanamente imposible, evitar que las superficies de los sitios se traten en forma diferente a las áreas donde no hay sitios. A la vez, si las señales se colocan ocultas en alguna forma, los gastos de relocalización aumentaran e incluso algunos sitios pueden no volver a ser localizados. Debido a que la dificultad relocalización de sitios puede estar relacionado a las condiciones de la masa forestal, las que a su vez están relacionadas con el crecimiento, la incapacidad de relocalizar los sitios podría dar un ligero sesgo a los estimadores. Errores de muestreo. —Si la media por unidad durante la primera medición es y1 , y la media por unidad durante la segunda medición es y2 , el cambio periódico estimado por unidad es
( y2 − y1 ) .
Con lotes temporales, el error estándar del cambio estimado seria
s( donde
s
2 y1
y
s
2 y2
y2 − y1 )
=
s
2 y1
+ sy 2
2
son los errores estándar de la media elevada al cuadrado, correspondiente a
las primeras y a las segundas mediciones. El método para calcular
s
2 y1
y
s
2 y2
seria aquel que
resulte apropiado al método particular de muestreo empleado. Con sitios permanentes, el procedimiento más sencillo para el cálculo del error estándar consiste en trabajar con las diferencias individuales. Así, si y1i representa la primera medición del sitio permanente numero i y y2i representa la segunda medición en este sitio, entonces
di = ( y2i − y1i ) . El error estándar de la diferencia media se calcula a partir de los valores di con
la formula apropiada para el método de muestreo particular. Ejemplos. —Se hará una ilustración de los cálculos anteriores para una muestra al azar simple. Sitios temporales Observaciones iniciales n = 8
y1i = 12, 24, 27,14,16,10, 21,30 8
∑y i =1
s
2
y1
1i
= 154
= 53.9286
y1 = 19.25
s
2
y1
s =
2
y1
n
= 6.74
Observaciones finales: n=8
82
y2 j = 27,18, 22,33,14, 26,16, 24 8
∑y j =1
s
2 y2
2j
y2 = 22.50
= 180
= 40.0000
s
2 y2
s =
2 y2
n
= 5.00
Entonces, la diferencia media estimada es
( y2 − y1 ) = ( 22.50 − 19.25) = 3.25 El error estándar de la diferencia media es
s(
y2 − y1 )
= 6.74 + 5.00 = 3.43
Sitios permanentes Sitio Permanente No. Observaciones iniciales ( y1i )... Observaciones finales Diferencias
( y 2i ).....
(di = y2i − y1i )
La diferencia media estimada es
1
2
3
4
5
6
7
8
Suma
Media
24
14
16
27
10
30
12
21
154
19.25
26
13
22
27
14
33
16
24
180
22.50
2
4
6
0
4
3
4
3
26
3.25
( y2 − y1 ) = d = 3.25
El error estándar de la diferencia media se calcula de los valores d i con la formula para una muestra al azar simple
s
2 d
⎛ 8 ⎞ ⎜ ∑ di ⎟ 8 2 di − ⎝ i =1 ⎠ ∑ n = i =1 ( n − 1) =
2
( 22 + 42 + L + 32 ) −
262 8
7
= 3.0714
s
d
=
sd2 = 0.62 n
83
Diseño de muestreos El propósito de este manual ha sido tratar solamente una parte del diseño de muestreos, del método de muestreo y de los procedimientos asociados de calculo. Estos son los aspectos del muestreo que parecen ser más problemáticos para los forestales. Pero, varias otras fases del diseño de muestreos merecen atención. A continuación se hace un resumen de algunos de los puntos que deben considerarse en la plantación de muestreo. Incluso en eso, la definición y la especificación pueden ser difíciles. Puede ser sencillo definir un árbol o un sitio, pero si se va a efectuar un inventario de agricultores, contratistas de pulpa de madera o huertos semilleros, puede ser difícil la definición de la unidad. Se debe hacer un intento por preveer las dificultades que pudieran originarse al clasificar una unidad, ya sea dentro o fuera de la población; los ejemplos limítrofes serán una fuente constante de problemas, tanto para los que clasifican y ordenan datos numéricos, como para los analistas. Deben especificarse los datos por acopiar. —Debe ponerse especial atención en recabar todos los datos que sean necesarios al objetivo. Qué tan lejos debe irse en la toma de datos suplementarios que no son pertinentes al objetivo fundamental, es una cuestión que se presta a discusión. Con frecuencia los cooperadores y los revisionistas, aprovechando una oportunidad para obtener información sobre algún proyecto de su preferencia, solicitarán que se hagan observaciones adicionales “mientras se está allí”. Este tipo de solicitudes deben ser motivo de revisión cuidadosa. La información “gratis” no es económica si nunca se emplea, o si tiene un efecto adverso en el objetivo básico del inventario. Las técnicas de medición deben darse con toda claridad. —Los procedimientos de medición deben de señalarse, evitando toda ambigüedad. El grado necesario de detalle variará con la complejidad de las mediciones y la experiencia del personal, pero, en general, es mejor ser específico aun a riesgo de molestar, que confiadamente vago Deben definirse con precisión todos aquellos términos como punta comercial, estrato superior, indeseable, densidad, volumen en pies-tabla y plantable. Debe considerarse la necesidad de adiestramiento y de práctica preliminar, y no se consideran injustificados los exámenes de habilidad -incluso en el caso de "manos antiguas que hayan olvidado parte de entrenamiento anterior o hayan desarrollado malos hábitos”. Deben definirse las unidades de muestreo. — Nuevamente, la totalidad de las unidades de muestreo, aunque distribuidas, deben incluir la población. Si la unidad es obvia, por ejemplo, un aserradero, es improbable que se presente un problema particular. Pero si llega a ser factible que se presente una variedad de unidades. La búsqueda de literatura pondrá al descubierto, con frecuencia, alguna experiencia aprovechable en caso contrario se requerirá de un estudio del tamaño y de la forma óptima de la unidad de muestreo. Debe describirse el método de muestreo. —Este manual reseña un número de métodos que se han encontrado de utilidad en la Dasotomía. La meditación, la experiencia y una revisión de literatura, ayudaran a decidir que método es el más apropiado para una situación particular. Debe indicarse cuidadosamente cual es el método para la selección de las unidades de muestreo y también el procedimiento para la localización de las unidades en el campo. No basta con decir que se usara un muestreo bietápico con unidades primarias y secundarias escogidas al azar. ¿Cómo se llevara acabo la aleatorización? ¿Cómo se localizara la unidad en el campo? Las posibilidades de que ocurra un sesgo, así como los antídotos contra el mismo
84
en la localización de las unidades, merecen un poco de meditación. Los monteros*, por ejemplo, tienden a desviarse de la maleza densa y de los claros, cuando localizan sitios con brújula de mano y por pasos. Se sabe que las personas que hacen entrevistas de casa en casa, evitan los departamentos de los últimos pisos, así como aquellas casas donde se oyen ladridos de perro. En esta etapa conviene pensar también en los procedimientos por usarse en la estimación de los parámetros y de los errores de muestreo. El hacer acopio inicialmente de datos y el preguntar después a alguien como usarlos es una buena forma de perder amigos y desperdiciar dinero Debe precisarse el tamaño de la muestra. —Una vez que se ha hecho la decisión sobre la precisión deseada, la elección de la unidad de muestreo y del método de muestreo, es hora de pensar en el tamaño de la muestra. La muestra debe ser lo suficientemente grande como para dar la precisión especificada, pero no mayor. Si la información requerida sobre costos y varianzas existe disponible, esta decisión debe hacerse antes de empezar el trabajo de campo. En la ausencia de tal información puede ser necesario un muestreo preliminar. Debe considerarse problemas posibles de los datos. —Si se siguen meticulosamente los pasos precedentes, los problemas que se originan en la etapa de acopio de datos, son generalmente de organización y de personal. El mayor tropiezo individual es que los supervisores dejan de continuar adiestrando y verificando a las cuadrillas de campo, o se despreocupan en la corrección de las formas de campo. Algunas organizaciones encuentran de valía el hacer formas empleando tarjetas perforadas con objeto de verificar errores de medición, tales como árboles que tengan 3 pulgadas (0.076 m) de D.A.P. con 14 trozas (en vez de un árbol de 14 pulgadas con 3 trozas) Debe planearse el procesamiento de datos. —En la mayoría de los casos, los procedimientos de calculo y análisis los determina la elección de los métodos de muestreo, al organizar el calculo, pueden hacer algunas consideraciones extraordinarias que ameriten pronta atención. Si el volumen de datos es pequeño. El cómputo se puede absorber rápidamente a la rutina diaria. Si el volumen es grande, puede ser recomendable recurrir a personal y equipo especiales. Si, por ejemplo, el análisis esta por hacerse en computadoras electrónicas, es aconsejable familiarizarse con los requerimientos especiales que son necesarios para el cómputo electrónico, tales como el formato de los datos para la clave de perforación, la disponibilidad de programas y el costo de programación. PROBLEMAS DE PRÁCTICA REFERENTES AL EMPLEO DE ÍNDICES Y DE SUMATORIAS
Debe especificarse el objeto. —Específicamente, debe identificarse el parámetro que de ha de ser estimado, así como la precisión deseada. Un ejemplo que muestra un objeto claro, podría ser: Estimar el numero de brazales de “pino slash” en condiciones de planearse, existentes en el vivero Riedsville. La estimación debe hacerse dentro de uno por ciento del número verdadero, con 95 por ciento de confianza. Aseveraciones vagas (“Estudiar los resultados de asperjar…” “Estimar la efectividad de…”) pueden y resultan en perdidas deprimentes de esfuerzo en el muestreo.
*
hombres
85
Debe definirse la población. — ¿Cuáles son las unidades que constituyen la población? ¿Cuales son los valores unitarios? ¿Qué unidades se excluyen de la población? Respuestas cuidadosas y exactas a estas dudas evitaran numerosas dificultades en etapas posteriores. Vale la pena repetir la generalidad de que el diseño de muestreo se simplificara si las especificaciones para las unidades que se empleen para definir la población son idénticas con aquellas usadas en la muestra.
Valores de la variable xij Clasificacion de j (j=1,…,10)
Clasificacion de i i=(1,…,7)
1 2 3 4 5 6 7 Subtotales de la clasificación j
1 6 4 2 1 0 3 2
2 4 8 3 0 2 7 1
3 2 4 2 3 6 5 7
4 0 2 8 9 7 3 2
5 4 1 4 0 1 5 6
6 3 1 8 0 8 2 1
7 5 1 2 0 3 4 1
8 9 6 1 2 5 3 6
9 6 2 1 4 4 2 4
10 8 1 2 8 4 6 3
18
25
29
24
21
23
16
32
23
32
Subtotales de la clasificacion de i 47 30 33 20 40 40 33 243
Ejemplos:
x1,3 = 2 7
x7,5 = 6
10
∑∑ x i =1 j =1
ij
x3,7 = 2
x4,7 = 0
= ( x1,1 + x1,2 + L + x1,10 + x2,1 + x2,2 + L + x7,10 ) = ( 6 + 4 + L + 8 + 4 + 8 + L + 3) = 243
3
3
∑∑ x i = 2 j =1
ij
= ( x2,1 + x2,2 + x2,3 + x3,1 + x3,2 + x3,3 ) = ( 4 + 8 + 4 + 2 + 3 + 2) = 23
2
4
∑∑ x i =1 j = 3
2 ij
2 2 2 2 = ( x1,3 + x1,4 + x2,3 + x2,4 )
= ( 22 + 02 + 42 + 22 ) = 24
86
⎛ 4 ⎞ ⎜ ∑ xij ⎟ ∑ i =1 ⎝ j =3 ⎠ 3
2
= ( x2,3 + x2,4 ) + ( x3,3 + x3,4 ) 2
= ( 4 + 2 ) + ( 2 + 8) 2
2
2
= 136 ⎛ 6 9 ⎞ ⎜ ∑∑ xij ⎟ ⎝ i = 5 j =8 ⎠
2
= ( x5,8 + x5,9 + x6,8 + x6,9 ) = (5 + 4 + 3 + 2)
2
2
= 196 10
= ( x3,1 + x3,2 + L + x3,10 )
∑x j =1
3j
= ( 2 + 3 + L + 2) = 33
= ( 32 + 12 + 82 + L + 12 )
∑x
2 i6
i
= 143 ⎛ ⎞ ⎜ ∑ xi 3 ⎟ ⎝ i ⎠
2
= 292 = 841
∑x
= 243
ij
i, j 7
∑x i =1
= ( x1,2 )( x1,3 ) + ( x2,2 )( x2,3 ) + L + ( x7,2 )( x7,3 )
x
i 2 i3
∑( x
5j
= (4)(2) + (8)(4) + L + (1)(7) = 100
− x4 j )
= ( x5,1 − x4,1 ) + ( x5,2 − x4,2 ) + L + ( x5,10 − x4,10 )
j
⎛ ⎞ = ⎜ ∑ x5 j − ∑ x4 j ⎟ j ⎝ j ⎠ = (40 − 20) = 20
∑(x
5j
− x4 j )
2
= ( 0 − 1) + ( 2 − 0 ) + ( 6 − 3) + L + ( 4 − 8 ) 2
2
2
2
j
= 138
∑x
2 5j
j
− ∑ x42 j
= ( 02 + 22 + L + 42 ) − (12 + 02 + L + 82 )
j
= 122
87
2
⎛ ⎞ ⎛ ⎞ ⎜ ∑ x5 j ⎟ − ⎜ ∑ x4 j ⎟ ⎝ j ⎠ ⎝ j ⎠
2
= ( 402 − 202 ) = 1, 200
⎡ ⎤ ⎢ ∑ ( x5 j − x4 j ) ⎥ ⎣ j ⎦
2
⎡ ⎤ = ⎢ ∑ x5 j − ∑ x4 j ⎥ j ⎣ j ⎦
2
= [ 40 − 20]
2
= 400 = 3 ( x2,1 ) + 3 ( x2,2 ) + L + 3 ( x2,10 )
∑ 3x
2j
j
= 3 ( x2,1 + x2,2 + L + x2,10 ) ⎛ ⎞ = 3 ⎜ ∑ x2 j ⎟ = 3 ( 30 ) ⎝ j ⎠ = 90
∑(x
4j
− 6)
= ( x4,1 − 6 ) + ( x4,2 − 6 ) + L + ( x4,10 − 6 )
j
= ( x4,1 + x4,2 + L + x4,10 ) − 6 − 6 − L − 6 ⎛ ⎞ = ⎜ ∑ x4 j ⎟ − 10 ( 6 ) = ( 20 − 60 ) ⎝ j ⎠ = −40
88
TABLAS Tabla 1. Diez mil dígitos ordenados en forma completamente aleatoria 00---------------------01--- -----------------02--------------------03--------------------04--------------------05--------------------06--------------------07--------------------08--------------------09--------------------10--------------------11--------------------12--------------------13--------------------14--------------------15--------------------16--------------------17--------------------18--------------------19--------------------20--------------------21--------------------22--------------------23--------------------24---------------------
00-04 54463 15389 85941 61149 05219 41417 28357 17783 40950 82995 96754 34357 06318 62111 47534 98614 24856 96887 90801 55165 75884 16777 46230 42902 81007
05-09 22662 85205 40756 69440 81619 98326 94070 00015 84820 64157 17676 88040 37403 52820 09243 75993 03648 12479 21472 77312 12952 37116 43877 66892 00333
10-14 65905 18850 82414 11286 10651 87719 20652 10806 29881 66164 55659 53364 49927 07243 67879 84460 44898 80621 42815 83666 84318 58550 80207 46134 39693
15-19 70639 39226 02015 88218 67079 92294 35774 83091 85966 41180 44105 71726 57715 79931 00544 62846 09351 66223 77408 36028 95108 42958 88877 01432 28039
20-24 79365 42249 13858 58925 92511 46614 16249 91530 62800 10089 47361 45690 50423 89292 23410 59844 98795 86085 37390 28420 72305 21460 89380 94710 10154
25-29 67382 90669 78030 03638 59888 50948 75019 36466 70326 41757 34833 66334 67372 84767 12740 14922 18644 78285 76766 70219 64620 43910 32992 23474 95425
30-34 29085 96325 16269 52862 84502 64886 21145 39981 84740 78258 86679 60332 63116 85693 02540 48730 39765 02432 52615 81369 91318 01175 91380 20423 39220
35-39 69831 23248 65978 62733 72095 20002 05217 62481 62660 96488 23930 22554 48888 73947 54440 73443 71058 53342 32141 41943 89872 87894 03164 60137 19774
40-44 47058 60933 01385 33451 83463 97365 47286 49177 49177 88629 53249 90600 21505 22278 32949 48167 90368 42846 30268 47366 45375 81378 98656 60609 31782
45-49 08186 26927 15345 77455 75577 30976 76305 75779 77379 37231 27083 71113 80182 11551 13491 34770 44104 94771 18106 41067 85436 10620 59337 13119 49037
50-54 59391 99567 10363 86859 11258 95068 54463 16874 90279 15669 99116 15696 97720 11666 71628 40501 22518 75112 80327 60251 57430 73528 25991 78388 12477
55-59 58030 76364 97518 19558 24591 88628 47237 62677 92494 56689 75486 10703 15369 13841 73130 51089 55576 30485 02671 45548 82270 39559 65959 16638 09965
60-64 52098 77204 51400 64432 36863 35911 73800 57412 63157 35682 84989 65178 51269 71681 78783 99943 98215 62173 98191 02146 10421 34434 70769 09134 96657
65-69 82718 04615 25670 16706 55368 14530 91017 13215 76593 40844 23476 90637 69620 98000 75691 91843 82068 02132 84342 05597 05540 88596 64721 69880 57994
70-74 87024 27062 98342 99612 31721 33020 36239 31389 91316 53256 52967 63110 03388 35979 41632 41995 10798 14878 90813 48228 43648 54086 86413 63806 59439
75-79 82848 96621 61891 59798 94335 80428 71824 62233 03505 81872 67104 17622 13699 39719 09847 88931 86211 92879 49268 81366 75888 71693 33475 48472 76330
80-81 04190 43918 27101 32803 34936 39936 83671 80827 72389 35213 39495 53988 33423 81899 61547 73631 36584 22281 95441 34593 66049 43132 42740 39318 24596
85-89 96574 01896 37855 67708 02566 31855 39892 73917 96363 09840 39100 71087 67453 07449 18707 69361 «7466 16783 15496 72856 21511 14414 06176 35434 77515
90-94 90464 83991 06235 15297 80972 31334 60518 82802 01087 34471 17217 84148 43269 47985 85489 05375 69373 86352 20168 66762 47676 79949 82758 24057 09577
95-99 29065 51141 33316 28612 08188 64865 37092 84420 66091 74441 74073 11670 56720 46967 69944 15417 40054 00077 09271 17002 33444 85193 66248 74739 91871
Esta tabla se reprodujo con el permiso del autor y publicistas de la tabla 1.3.1 de la obra de Snedecor “Métodos Estadísticos” (ed 5), Iowa State University Press
89
Tabla 1. Diez mil dígitos ordenados en forma completamente aleatoria (continuación) 25--------------------26--------------------27---------------------
00-04 68089 20411 58212
05-09 01122 67081 13160
10-14 51111 89950 06168
15-19 72373 16944 15718
20-24 06902 93054 82627
25-29 74373 87687 76999
30-34 96199 96693 05999
35-39 97017 87236 58680
40-44 41273 77054 96739
45-49 21546 33848 63700
50-54 83266 76970 37074
55-59 32883 80876 65198
60-64 42451 10237 44785
65-69 15579 39515 68624
70-74 38155 79152 98336
75-79 29793 74798 84481
80-81 40914 39357 97610
85-89 65990 09054 78735
90-94 16255 73579 41703
95-99 17777 92359 98266
28--------------------29--------------------30--------------------31--------------------32--------------------33--------------------34--------------------35--------------------36--------------------37--------------------38--------------------39--------------------40--------------------41--------------------42--------------------43--------------------44--------------------45--------------------46--------------------47--------------------48--------------------49---------------------
70577 94522 42626 16051 08244 53497 97155 98409 45476 89300 50051 31753 79152 44560 68328 46939 83544 91621 91396 55751 85156 07521
42866 74358 86819 33763 27647 04392 13428 66162 84882 69700 95137 85178 53829 38750 83378 38689 86141 00881 67126 62515 87689 56898
24969 71659 85651 57194 33851 09419 40293 95763 65109 50741 91631 31310 77250 83635 63369 58625 15707 04900 04151 21108 95493 12236
61210 62038 88678 16752 44705 89964 09985 47420 96597 30329 66315 89642 20190 56540 71381 08342 96256 54224 03795 80830 88842 60277
76046 79643 17401 54450 94211 51211 58434 20792 25930 11658 91428 98364 56535 64900 39564 30459 23068 46177 59077 02263 00664 39102
67699 79169 03252 19031 46716 04894 01412 61527 66790 23166 12275 02306 18760 42912 05615 85863 13782 55309 11848 29303 55017 62315
42054 44741 99547 58580 11738 72882 69124 20441 65706 05400 24816 24617 69942 13953 42451 20781 08467 17852 12630 37204 55539 12239
12696 05437 32404 47629 55784 17805 82171 39435 61203 66669 68091 09609 77448 79149 64559 09284 89469 27491 98375 96926 17771 07105
93758 39038 17918 54132 95374 21896 59058 11859 53634 48708 71710 83942 33278 18710 97501 26333 93842 89415 52068 30506 69448 11844
03283 13163 62880 60631 72655 83864 82859 41567 22557 03887 33258 22716 48805 68618 65747 91777 55349 23466 60142 09808 87530 01117
83712 20287 74261 64081 05617 26793 65988 27366 56760 72880 77888 28440 63525 47606 62669 16738 59348 12900 75086 99495 26075 13636
06514 66862 32592 49853 75818 74951 72850 42271 10909 43338 38100 07819 94441 93410 45030 60159 11695 71775 23537 51434 31671 83596
30101 69727 86538 08478 47750 95466 48737 44300 98147 93643 03062 21580 77033 16359 96279 07425 45751 29845 49939 29181 45386 23377
78295 94443 27041 96001 67814 74307 54719 73399 34736 58904 58103 51459 12147 89033 14709 62369 15865 60774 33595 09993 36583 51133
54656 64936 65172 18888 29575 13330 52056 21105 33863 59543 47961 47971 51054 89696 52372 07515 74739 94924 13484 38190 93459 95126
85417 08366 85532 14810 10526 42664 01596 03280 95256 23943 83841 29882 49955 47231 87832 82721 05572 21810 97588 42553 48599 61496
43189 27227 07571 70545 66192 85515 03845 73457 12731 11231 25878 13990 58312 64498 02735 37875 32688 38636 28617 68922 52022 42474
60048 05158 80609 89755 44464 20632 35067 43093 66598 83268 23746 29226 76923 31776 50803 71153 20271 33717 17979 52125 41330 45141
72781 50326 39286 59064 27058 05497 03134 05192 50771 65938 55903 23608 96071 05383 72744 21315 65128 67598 70749 91077 60651 46660
72606 69566 65340 07210 40467 33625 70322 48657 83665 81681 41115 15873 05813 39902 88208 00132 14551 82521 35234 40187 91321 42338
Esta tabla se reprodujo con el permiso del autor y publicistas de la tabla 1.3.1 de la obra de Snedecor “Métodos Estadísticos” (ed 5), Iowa State University Press
90
Tabla 1. Diez mil dígitos ordenados en forma completamente aleatoria (continuación) 50--------------------51--------------------52--------------------53--------------------54--------------------55--------------------56--------------------57--------------------58--------------------59--------------------60--------------------61--------------------62--------------------63--------------------64--------------------65--------------------66--------------------67--------------------68--------------------69--------------------70--------------------71--------------------72--------------------73--------------------74---------------------
00-04
05-09
10-14
15-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-81
85-89
90-94
95-99
64249 26538 05845 74897 20872 31432 66890 48194 11303 54374 64852 16309 42587 40177 82309 79788 40538 64016 49767 76974 23854 68973 36444 03003 17540
63664 44249 00512 68373 54570 96156 61505 57790 87118 57325 34421 20384 37065 98590 76128 68243 79000 73598 12691 55108 08480 70551 93600 87800 26188
39652 04050 78630 67359 35017 89177 01240 79970 81471 16947 61046 09491 24526 97161 93965 59732 89559 18609 17903 29795 85983 25098 65350 07391 36647
40646 48174 56328 51014 88132 75541 00660 33106 52936 45356 90849 91588 72602 41682 26743 04257 25026 73150 93871 08404 96025 78033 14971 11594 78386
97306 65570 18116 33510 25730 81355 05873 86904 08555 78371 13966 97720 67589 84533 24141 27084 42274 62463 99721 82684 50177 98573 25325 21196 04558
31741 44072 69296 83048 22626 24480 13568 48119 28420 10563 39810 89846 98131 67588 04838 14743 23489 33102 79109 00497 64610 79848 00427 00781 61463
07294 40192 91705 17056 86723 77243 76082 52503 49416 97191 42699 30376 37292 62036 40254 17520 34502 45205 09425 51126 99425 31778 52073 32550 57842
84149 51153 86224 72506 91691 76690 79172 24130 44448 53798 21753 76970 05967 49967 26065 95401 75508 87440 26904 79935 62291 29555 64280 67158 90382
46797 11397 29503 82949 13191 42507 57913 72824 04269 12693 76192 23063 26002 01990 07938 55811 06059 96767 07419 67450 86943 61446 18847 58887 77019
82487 58212 57071 54600 77212 84362 93448 21627 27029 27928 10508 35894 51945 72308 76236 76099 86682 67042 76013 55671 21541 23037 24768 73041 24210
32847 16916 66176 46299 22847 41851 28444 47620 34978 37404 32400 89262 86866 90814 19192 77585 23757 45989 92970 74346 87646 50099 10127 67995 26304
31282 00041 34047 13335 47839 54160 59497 62378 63271 80416 65482 86332 09127 14833 82756 52593 16364 96257 94243 59596 41309 71038 46900 81977 80217
03345 30236 21005 12180 45385 92320 91586 98855 13142 69035 52099 51718 98021 08759 20553 56612 05096 23850 07316 40088 27636 45146 64984 18984 84934
89593 55023 27137 16861 23289 69936 95917 83174 82681 92980 53676 70663 03871 74645 58446 95766 03192 26216 41467 98176 45153 06146 75348 64091 82657
69214 14253 03191 38043 47526 34803 68553 13088 05271 49486 74648 11623 27789 05046 65376 10019 62386 23309 64837 17896 29988 55211 04115 02785 69291
70381 76582 48970 59292 54098 92479 28639 16561 08822 74378 94148 29834 68444 94056 88914 29531 45389 21526 52406 86900 94770 99429 33624 27762 35397
78285 12092 64625 62675 45683 33399 06455 68559 06490 75610 65095 79820 44832 99094 75096 73064 85332 07425 25225 20249 07255 43169 68774 42529 98714
20054 86533 22394 63631 55849 71160 34174 26679 44984 74976 69697 73002 36505 65091 26119 20953 18877 50254 51553 77753 70908 66259 60013 97144 35104
91018 92426 39622 37020 61575 64777 11130 06238 49307 70056 62771 84886 40672 32663 83898 53523 55710 19455 31220 19099 05340 97786 36515 80407 08187
16742 37655 79085 78195 64689 83378 91994 51254 62717 15478 71551 03591 30180 73040 43816 58136 96459 29315 14032 48885 99751 59180 62556 64524 48109
Esta tabla se reprodujo con el permiso del autor y publicistas de la tabla 1.3.1 de la obra de Snedecor “Métodos Estadísticos” (ed 5), Iowa State University Press
91
Tabla 1. Diez mil dígitos ordenados en forma completamente aleatoria (continuación) 75--------------------76--------------------77--------------------78--------------------79--------------------80--------------------81--------------------82--------------------83--------------------84--------------------85--------------------86--------------------87--------------------88--------------------89--------------------90--------------------91--------------------92--------------------93--------------------94--------------------95--------------------96--------------------97--------------------98--------------------99---------------------
00-04
05-09
10-14
15-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-81
85-89
90-94
95-99
38916 64288 86809 99800 92345 90363 64437 91714 20902 12217 45177 28325 29019 84979 50371 53422 67453 07294 79544 64144 90919 06670 86634 76101 05112
55809 19843 51564 99566 31890 65162 32242 53662 17646 86007 02863 90814 28776 81353 26347 06825 35651 85353 00302 85442 11883 67363 93976 72891 71222
47982 69122 38040 14742 95712 32245 48431 28373 31391 70371 42307 08804 56116 56219 48513 69711 89316 74819 45338 82060 58318 86275 52062 85745 72654
41968 42502 39418 05028 08279 82279 04835 34333 31459 52281 53571 62746 54791 67062 63915 67950 41620 23446 16015 46471 00042 92276 83678 67106 51583
69760 48508 49915 30033 91794 79266 39070 55791 33315 14510 22532 47913 64604 26146 11168 64716 32048 68237 66613 24162 62402 77591 41256 26010 05228
79422 28820 19000 94889 94063 80834 69702 74758 03444 76094 74921 54577 08815 82567 25563 18003 70226 07202 88968 39500 28210 46924 60948 62107 62056
80154 59933 58050 53381 49337 06088 81508 61144 55743 96579 17736 47525 46049 33122 91916 49581 47597 99516 14595 87361 34075 60839 18685 60886 67390
91486 72998 16899 23656 88674 99462 60935 18827 74701 54853 42201 77705 71186 14124 18431 45378 33137 62282 63836 36637 33272 65437 48992 37503 42746
19180 99942 79952 75787 35355 56705 22390 10704 58851 78339 80540 95330 34650 46240 92978 99878 31443 53809 77716 42833 00840 03183 19462 65461 89272
15100 10515 57849 59223 12267 06118 52246 76803 27427 20839 54721 21866 14994 92973 11591 61130 51445 26685 79596 71875 73268 13191 96062 71213 96659
81994 59537 51228 31089 38207 88666 58385 89807 18682 63571 68927 56401 24333 17025 02804 08298 59883 46982 31121 97867 57364 09559 63873 35531 28229
41070 34662 10937 37995 97938 31142 56134 74530 81038 32579 56492 63186 95603 84202 08253 03879 01785 06682 47266 56841 86746 26263 55571 19162 88629
56642 79631 62396 29577 93459 09474 67582 38004 85662 63942 67799 39389 02359 95199 52133 20995 82403 62864 07661 63416 08416 69511 00608 86406 25695
64091 89403 81460 07828 75174 89712 92557 90102 90915 25371 95398 88798 72942 62272 20224 19850 96062 91837 02051 17677 14621 28064 42661 05259 94932
31229 65212 47331 42272 79460 63153 89520 11693 91631 09234 77642 31356 46287 06366 68034 73090 03785 74021 67599 30161 49430 75999 91832 77611 80721
02595 09975 91403 54016 55436 62333 33452 90257 22223 94592 54913 89235 95382 16175 50865 13191 03488 89094 24471 87320 22311 44540 63956 24311 16197
13513 06118 95007 21950 57206 42212 05134 05500 91588 98475 91853 97036 08452 97577 57863 18963 12970 39952 69843 37752 16836 13337 74087 67257 78742
45148 86197 06047 86192 87644 06140 70626 79920 80744 76884 08421 32341 52862 99304 22343 82241 61890 84153 83696 73701 72462 10218 59008 22826 34974
78722 58208 16846 99046 21296 42594 27612 82700 07716 37635 81450 33292 97869 41587 55111 78479 38336 79614 71402 48969 49372 79846 47493 77556 27528
30144 16162 64303 84864 43395 43671 33733 43325 12543 33605 76229 73757 71775 03636 03607 59121 30030 78235 76237 41915 44100 54609 99531 05941 45147
Esta tabla se reprodujo con el permiso del autor y publicistas de la tabla 1.3.1 de la obra de Snedecor “Métodos Estadísticos” (ed 5), Iowa State University Press
92
Tabla 2. La distribución de t df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
∞
0.5
0.4
0.3
0.2
1.000 .816 .765 .741 .727 .718 .711 .706 .703 .700 .697 .695 .694 .692 .691 .690 .689 .688 .688 .687 .680 .686 .685 .685 .684 .684 .684 .683 .683 .683 .681 .679 .677 .674
1.376 1.061 .978 .941 .920 .906 .896 .889 .883 .879 .876 .873 .870 .868 .866 .865 .863 .862 .861 .860 .859 .858 .858 .857 .856 .856 .855 .855 .854 .854 .851 .848 .845 .842
1.963 1.386 1.250 1.190 1.156 1.134 1.119 1.108 1.100 1.093 1.088 1.083 1.079 1.076 1.074 1.071 1.069 1.067 1.066 1.064 1.063 1.061 1.060 1.059 1.058 1.058 1.057 1.056 1.055 1.055 1.050 1.046 1.041 1.036
3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282
Probabilidad 0.1 0.05
6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645
12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960
0.02
0.01
0.001
31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.890 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.358 2.326
63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576
636.019 31.598 12.941 8.610 6.859 5.959 5.405 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291
Esta tabla se ha compendiado de la tabla III de la obra de Fisher y Yates: Tablas estadísticas para investigación Biológica, agrícola y Medica, Oliver y Boyd Ltd, Edimburgo. Los autores y publicistas otorgaron el permiso correspondiente.
93
Tabla 3. Intervalos de confianza para la distribución binomial Numero observado (f) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Intervalo del 95 por ciento Tamaño de la muestra, n 10 0 0 3 7 12 19 26 35 44 55 69
15 31 46 56 65 74 81 88 93 97 100 101
0 0 2 4 8 12 16 21 27 32 38 45 52 60 68 78
20 22 32 40 48 55 62 68 73 79 84 88 92 96 98 100 100
0 0 1 3 6 9 12 15 19 23 27 32 35 41 46 51 56 62 69 75 83
30 17 25 31 38 44 49 54 59 64 68 73 77 81 86 88 91 94 97 99 100 100
0 0 1 2 4 6 8 10 12 15 17 20 23 25 28 31 34 37 40 44 47 50 54 57 61 65 69 73 78 83 88
50 12 17 22 27 31 86 39 43 46 60 63 56 60 63 66 69 72 76 77 80 83 85 88 90 92 94 96 98 99 100 100
0 0 0 1 2 3 6 6 7 9 10 12 13 16 16 18 20 21 23 25 27 28 30 32 34 36 37 39 41 43 45 47 50 52 54 56 57 59 52 64 66 69 71 73 76 78 81 83 86 89 93
Fraccion Observada
100 0 11 14 17 19 22 24 27 29 31 34 36 38 41 43 44 46 48 60 63 55 57 59 61 63 64 66 68 70 72 73 75 77 79 80 82 84 85 87 88 90 91 93 94 95 97 98 99 100 100 100
0 0 0 1 1 2 2 3 4 4 6 5 6 7 8 9 9 10 11 12 13 14 14 15 15 17 18 19 19 20 21 22 23 24 25 26 27 28 28 29 30 31 32 33 34 35 36 37 38 39 40
Tamaño de la muestra 250
f /n
4 5 7 8 10 11 12 14 15 18 19 20 21 22 24 25 26 27 28 29 80 31 32 33 35 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50
0 0 1 1 2 3 3 4 5 6 7 7 8 9 10 10 11 12 13 14 15 16 17 18 19 20 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
1000 1 4 5 6 7 9 10 11 12 13 14 16 17 18 19 20 21 22 23 24 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56
0 0 1 2 3 4 5 6 6 7 8 9 10 11 12 13 14 15 16 17 18 19 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
Esta tabla se reprodujo .con el permiso del autor y publicistas de la tabla 1.3.1 de la obra de Snedecor “Métodos Estadísticos” (ed. 5), Iowa State University Press.
94
0 2 3 4 5 7 8 9 10 11 12 13 14 15 16 17 18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
Tabla 3. Intervalos de confianza para la distribución binomial (continuación) Numero observado (f) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Intervalo del 95 por ciento Tamaño de la muestra, n 10 0 0 1 4 8 13 19 26 35 46 59
15 41 54 65 74 81 87 92 96 99 100 100
0 0 1 2 6 8 12 16 21 26 31 37 44 51 60 70
20 30 40 49 56 63 69 74 79 84 88 92 95 98 99 100 100
0 0 1 2 4 6 8 11 16 18 22 26 30 34 39 44 49 56 61 68 77
30 23 32 39 45 61 66 61 66 70 74 78 82 85 89 92 94 96 98 99 100 100
0 0 0 1 3 4 6 8 10 12 14 16 18 21 24 26 29 32 35 38 42 45 48 62 56 60 64 68 72 78 84
50 16 22 28 32 36 40 44 48 62 56 58 62 65 68 71 74 76 79 82 84 86 88 90 92 94 96 97 99 100 100 100
0 0 0 1 1 2 3 4 6 7 8 10 11 12 14 16 17 18 20 21 23 24 26 28 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 60 62 64 67 69 71 74 77 80 83 86 90
Fracción Observada
100 10 14 17 20 23 26 29 31 33 36 38 40 43 45 47 49 61 53 55 67 69 61 63 65 67 69 71 72 74 76 77 79 80 82 83 85 86 88 89 90 92 93 94 96 97 98 99 99 100 100 100
0 0 0 0 1 1 2 2 3 3 4 4 5 6 6 7 8 9 9 10 11 12 12 13 14 15 16 16 17 18 19 20 21 21 22 23 24 25 26 27 28 29 29 30 31 32 83 34 35 86 87
Tamaño de la muestra 250
f /n
5 7 9 10 12 13 14 16 17 18 19 20 21 23 24 26 27 29 30 81 32 33 84 85 36 38 89 40 41 42 43 44 45 46 47 48 49 50 61 52 53 54 55 56 57 58 59 60 61 62 63
0.00 .01 .02 .03 .04 .05 .06 .07 .08 .09 .10 .11 .12 .18 .14 .16 .16 .17 .18 .19 .20 .21 .22 .23 .24 .25 .26 .27 .28 .29 .30 .81 .82 .33 .84 .36 .86 .87 .88 .89 .40 .41 .42 .40 .44 .45 .46 .47 .48 .49 .50
0 0 1 1 2 2 3 8 4 6 6 6 7 8 9 9 10 11 12 13 14 15 16 17 18 18 19 20 21 22 23 24 25 26 26 27 28 29 30 81 82 33 34 35 36 37 38 39 40 41 42
1000 2 6 6 7 9 10 11 13 14 15 16 17 18 19 20 22 23 24 25 26 27 28 80 31 82 88 84 85 86 37 38 89 40 41 42 48 44 45 46 47 48 50 51 52 53 54 55 55 56 57 58
0 0 1 2 3 3 4 5 6 7 8 9 9 10 11 12 18 14 15 16 17 18 19 20 21 22 22 23 24 25 26 27 28 29 30 31 82 33 34 35 36 37 38 39 40 41 42 43 44 45 46
Esta tabla se reprodujo .con el permiso del autor y publicistas de la tabla 1.3.1 de la obra de Snedecor “Métodos Estadísticos” (ed. 5), Iowa State University Press.
95
1 2 8 4 6 7 8 9 10 12 13 14 15 16 17 18 19 20 21 22 23 24 26 27 28 29 30 81 82 83 84 85 86 37 38 89 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
Tabla 4. Transformaciรณn Arcoseno (los รกngulos corresponden a los porcentajes, รกngulo = arcoseno porcentaje ). % 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
0 0 1.81 2.56 3.14 3.63 4.05 4.44 4.80 5.13 5.44 5.74 8.13 9.98 11.54 12.92 14.18 15.34 16.43 17.46 18.44 19.37 20.27 21.13 21.97 22.79 23.58 24.35 25.10 25.84 26.56 27.28 27.97 28.66 29.33 30.00 30.66 31.31 31.95 32.58 33.21 33.83 3445 35.06 35.67 36.27 36.87 37.47 38.06 38.65 3923 39.82 4040 40.98 41.55
1 0.57 1.90 2.63 3.19 3.67 4.09 4.48 4.83 5.16 5.47 6.02 8.33 10.14 11.68 13.05 14.30 15.45 16.54 17.56 18.53 19.46 20.36 21.22 22.06 22.87 23.66 24.43 25.18 25.92 26.64 27.35 28.04 28.73 29.40 30.07 30.72 31.37 32.01 32.65 33.27 33.89 3451 35.12 35.73 36.33 36.93 37.52 38.12 38.70 39.29 39.87 40.46 41.03 41.61
2 0.81 1.99 2,69 3.24 3.72 4.13 4.52 4.87 5.20 5.50 6.29 8.53 10.31 11.83 13.18 14.42 15.56 16.64 17.66 18.63 19.55 20.44 21.30 22.14 22.95 23.73 24.50 25.25 25.99 26.71 27.42 28.11 28.79 29.47 30.13 30.79 31.44 32.08 32.71 33.34 33.96 34.57 35.18 35.79 36.39 36.99 37.58 38.17 38.76 39.35 39.93 40.51 41.09 41.67
3 0.99 2.07 2.75 3.29 3.76 4.17 4.55 4.90 5.23 5.53 6.55 8.72 10.47 11.97 13.31 14.54 15.68 16.74 17.76 18.72 19.64 20.53 21.39 22.22 23.03 23.81 24.58 25.33 26.06 26.78 27.49 28.18 28.86 29.53 30.20 30.85 31.50 32.14 32.77 33.40 34.02 34.63 35.24 35.85 36.45 37.05 37.64 38.23 38.82 39.41 39.99 40.57 41.15 41.73
4 1.15 2.14 2.81 3.34 3.80 4.21 4.59 4.93 5.26 5.56 6.80 8.91 10.63 12.11 13.44 14.65 15.79 16.85 17.85 18.81 19.73 20.62 21.47 22.30 23.11 23.89 24.65 25.40 26.13 26.85 27.56 28.25 28.93 29.60 30.26 30.92 31.56 32.20 32.83 33.46 34.08 34.70 35.30 35.91 36.51 37.11 37.70 38.29 38.88 39.47 40.05 40.63 41.21 41.78
5 1.28 2.22 2.87 3.39 3.85 4.25 4.62 4.97 5.29 5.59 7.04 9.10 10.78 12.25 13.56 14.77 15.89 16.95 17.95 18.91 19.82 20.70 21.56 22,38 23.19 23.97 24.73 25.48 26.21 26.92 27.63 28.32 29.00 29.67 30.33 30.98 31.63 32.27 32.90 33.52 34.14 34.76 35.37 35.97 36.57 37.17 37.76 38.35 38.94 39.52 40.11 40.69 41.27 41.84
6 1.40 2.29 2.92 3.44 3.89 4.29 4.66 5.00 5.32 5.62 7.27 9.28 10.94 12.39 13.69 14.89 16.00 17.05 18.05 19.00 19.91 20.79 21.64 22.46 23.26 24.04 24.80 25.55 26.28 26.99 27.69 28.38 29.06 29.73 30.40 31.05 31.69 32.33 32.96 33.58 34.20 34.82 35.43 36.03 36.63 37.23 37.82 38.41 39.00 39.58 40.16 40.74 41.32 41.90
7 1.52 2.36 2.98 3.49 3.93 4.33 4.69 5.03 5.35 5.65 7.49 9.46 11.09 12.52 13.81 15.00 16.11 17.16 18.15 19.09 20.00 20.86 21.72 22.55 23.34 24.12 24.88 25.62 26.35 27.06 27.76 28.45 29.13 29.80 30.46 31.11 31.76 32.39 33.02 33.65 34.27 34.88 35.49 36.09 36.69 37.29 37.88 38.47 39.06 39.64 40.22 40.80 41.38 41.96
8 1.62 2.43 3.03 3.53 3.97 4.37 4.73 5.07 5.38 5.68 7.71 9.63 11.24 12.66 13.94 15.12 16.22 17.26 18.24 19.19 20.09 20.98 21.81 22.63 23.42 24.20 24.95 25.70 26.42 27.13 27.83 28.52 29.20 29.87 30.53 31.18 31.82 32.46 33.09 33.71 34.33 34.94 35.55 36.15 36.75 37.35 37.94 38.53 39.11 39.70 40.28 40.86 41.44 42.02
9 1.72 2.50 3.09 3.58 4.01 4.40 4.76 5.10 5.41 5.71 7.92 9.81 11.39 12.79 14.06 15.23 16.32 17.36 18.34 19.28 20.19 21.05 21.89 22.71 23.50 24.27 25.03 25.77 26.49 27.20 27.90 28.59 29.27 29.93 30.59 31.24 31.88 32.52 33.15 33.77 34.39 35.00 35.61 36.21 36.81 37.41 38.00 38.59 39.17 39.76 40.34 40.92 41.50 42.07
96
Tabla 4 Transformaci贸n Arcoseno 谩ngulo = arcoseno porcentaje ).
(los
谩ngulos
corresponden
a
los
porcentajes,
(continuaci贸n) %
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98
0 42.13 42.71 43.28 43.85 44.43 45.00 45.57 46.15 46.72 47.29 47.87 48.45 49.02 49.60 51.18 50.77 51.35 51.94 52.53 53.13 53.73 54.33 54.94 55.55 56.17 56.79 57.42 58.05 58.69 59.34 60.00 60.67 61.34 62.03 62.72 63.44 64.16 64.90 65.65 66.42 67.21 68.03 68.87 69.73 70.63 71.56 72.54 73.57 74.66 75.82 77.08 78.46 80.02 81.87
1 42.19 42.70 43.34 43.91 44.48 45.06 45.63 46.20 46.78 47.35 47.93 48.50 49.08 49.66 50.24 50.83 51.41 52.00 52.59 53.19 53.79 54.39 55.00 55.61 56.23 56.85 57.48 58.12 58.76 59.41 60.07 60.73 61.41 62.10 62.80 63.51 64.23 64.97 65.73 60.50 67.29 68.11 68.95 69.82 70.72 71.66 72.64 73.68 74.77 75.94 77.21 78.61 80.19 82.08
2 42.25 42.82 43.39 43.97 44.54 45.11 45.69 46.26 46.83 47.41 47.98 48.56 49.14 49.72 50.30 50.89 51.47 52.06 52.65 53.25 53.85 54.45 55.06 55.67 56.29 56.91 57.54 58.18 58.82 59.47 60.13 60.80 61.48 62.17 62.87 63.58 64.30 65.05 65.80 66.58 67.37 68.19 69.04 69.91 70.81 71.76 72.74 73.78 74.88 76.06 77.34 78.76 80.37 82.29
3 42.30 42.88 43.45 44.03 44.60 45.17 45.75 46.32 46.89 47.47 48.04 48.62 49.20 49.78 50.36 50.94 51.53 52.12 52.71 53.31 53.91 54.51 55.12 55.73 56.35 56.98 57.61 58.24 58.89 59.54 60.20 60.87 61.55 62.24 62.94 63.65 64.38 65.12 65.88 66.66 67.45 68.28 69.12 70.00 70.91 71.85 72.84 73.89 75.00 76.19 77.48 78.91 80.54 82.51
4 42.36 42.94 43.51 44.08 44.66 45.23 45.80 46.38 46.95 47.52 48.10 48.68 49.26 49.84 50.42 51.00 51.59 52.18 52.77 53.37 53.97 54.57 55.18 55.80 56.42 57.04 57.67 58.31 58.95 59.60 60.27 60.94 61.62 62,31 63.01 63.72 64.45 65.20 65.96 66.74 67.54 68.36 69.21 70.09 71.00 71.95 72.95 74.00 75.11 76.31 77.61 79.06 80.72 82.73
5 42.42 42.99 43.57 44.14 44.71 45.29 45.86 46.43 47.01 47.58 48.16 48.73 49.31 49.89 50.48 51.06 51.65 52.24 52.83 53.43 54.03 54.63 55.24 55.86 56.48 57.10 57.73 58.37 59.02 59.67 60.33 61.00 61.68 62,37 63.08 63.79 64.52 65.27 66.03 66.81 67.62 68.44 69,30 70.18 71.09 72.05 73.05 74.11 75.23 76.44 77.75 79.22 80.90 82.96
6 42.48 43.05 43.62 44.20 44.77 45.34 45.92 46.49 47.06 47.64 48.22 48.79 49.37 49.95 50.53 51.12 51.71 52.30 52.89 53.49 54.09 54.70 55.30 55.93 56.54 57.17 57.80 58.44 59.08 59.74 60.40 61.07 61.75 62.44 63.15 63.87 64.60 65.35 66.11 66.89 67.70 68.53 69.38 70.27 71.19 72.15 73.15 74.21 75.35 76.56 77.89 79.37 81.09 83.20
7 42.53 43.11 43.68 44.25 44.83 45.40 45.97 46.55 47.12 47.70 48.27 48.85 49.43 50.01 50.59 51.18 51.77 52.36 52.95 53.55 54.15 54.76 55.37 55.98 56.60 57.23 57.86 58.50 59.15 59.80 60.47 61.14 61.82 62.51 63.22 63.94 64.67 65.42 66.19 66.97 67.78 68.61 69.47 70.36 71.28 72.24 73.26 74.32 75.46 76.69 78.03 79.53 81.28 83.45
8 42.59 43.17 43.74 44.31 44.89 45.46 46.03 46.61 47.18 47.75 48.33 48.91 49.49 50.07 50.65 51.24 51.83 52.42 53.01 53.61 54.21 54.82 55.43 56.04 56.66 57.29 57.92 58.56 59.21 59.87 60.53 61.21 61.88 62.58 63.29 64.01 64.75 65.50 66.27 67.05 67.86 68.70 69.56 70.45 71.37 72.34 73.36 74.44 75.58 76.82 78.17 79.69 81.47 83.71
9 42.65 43.22 43.80 44.37 44.94 45.52 46.09 46.66 47.24 47.81 48.39 48.97 49.54 50.13 50.71 51.30 51.88 52.48 53.07 53.67 54.27 54.88 55.49 56.11 56.73 57.35 57.99 58.63 59.28 59.93 60.60 61.27 61.96 62.65 63.36 64.08 64.82 65.57 66.34 67.13 67.94 68.78 69.64 70.54 71.47 72.44 73.46 74.55 75.70 76.95 78.32 79.86 81.67 83.98
97
Tabla 4 Transformación Arcoseno ángulo = arcoseno porcentaje ).
(los
ángulos
corresponden
a
los
porcentajes,
(continuación) % 99.0 99.1 99.2 99.3 99.4 99.5 99.6 99.7 99.8 99.9 100.0
0 84.26 84.56 84.87 85.20 85.56 85.95 86.37 86.80 87.44 88.19 90.00
1 84.29 84.59 84.90 85.24 85.60 85.99 86.42 86.91 87.50 88.28
2 84.32 84.62 84.93 85.27 85.63 86.03 86.47 86.97 87.57 88.38
3 84.35 84.65 84.97 85.31 85.67 86.07 86.51 87.02 87.64 88.48
4 84.38 84.68 85.00 85.34 85.71 86.11 86.56 87.08 87.71 88.60
5 84.41 84.71 85.03 85.38 85.75 86.15 86.61 87.13 87.78 88.72
6 84.44 84.74 85.07 85.41 85.79 86.20 86.60 87.19 87.86 88.85
7 84.47 84.77 85.10 85.45 85.83 86.24 86.71 87.25 87.93 89.01
8 84.50 84.80 85.13 85.48 85.87 86.28 86.76 87.31 88.01 89.19
9 84.53 84.84 85.17 85.52 85.91 86.33 86.81 87.37 88.10 89.43
Esta tabla se reprodujo con el permiso del autor, y de los publicistas de la tabla 11.12.1 del libro “Metodos Estadísticos” de Snedecor (ed. 5), Iowa State University Press. El permiso ha sido concedido también por el autor original, Dr. C. I. Bliss, de la Estación Experimental Agrícola de Connecticut.
98