Estadística
Localización, variabilidad y concentración
Con el concurso de la estadística, el Centro de Atención Nutricional Infantil Antímano –CANIA– ha logrado diseñar programas eficientes para la planificación y ejecución de acciones orientadas a prevenir la malnutrición infantil y promocionar el buen estado de salud. www.cania.org.ve Fotografía: Carlos Rivodó.
Una lección muy importante del análisis de datos: mirar los datos.
W. Edwards Deming Físico-matemático y estadístico norteamericano (1900-1993).
Estos fascículos están disponibles en línea, visitando la página web: http://www.fpolar.org.ve/matematica2
Localización de una distribución Una vez precisada la forma general de la distribución de un lote de datos, interesa caracterizar numéricamente su centro y su variabilidad. Para ilustrar como lograr esto usaremos la tabla mostrada al lado. El valor central de la distribución se conoce como la mediana del conjunto de datos. Para su determinación se requiere que los datos estén ordenados en forma ascendente (o descendente). Su obtención depende de que el número n de datos sea par o impar. En el primer caso la mediana se calcula como el promedio de los valores que ocupan las posiciones n y n +1. Cuando n es impar la mediana es el valor 2 2 n+1 que ocupa la posición 2 . ¿Cuál es la mediana de los datos de bateo de los jugadores venezolanos en las Grandes Ligas? Como n = 31, la
mediana es el valor que ocupa la posición 31+1 2 =16. Basta con observar el dato que ocupa la posición 16 (promedio de bateo de A. Blanco) para señalar que la mediana es 0,259. Cuando se tiene el lote de datos organizado mediante un dispositivo de tallos y hojas, se facilita la determinación de la mediana porque ya los datos están ordenados. El centro de la distribución se puede caracterizar de otra manera usando el promedio aritmético simple del lote de datos. Esta característica que denominaremos media y que denotamos por x se define para x1, ..., xn como: x=
x1+ ...+ xn n
Si consideramos los datos x1, ..., xn como “masas”, la media x se puede interpretar como el centro de gravedad del conjunto de datos. La media es sensible a valores atípicos. En el caso de los promedios de bateo de la tabla anterior es x = 0,244. Si hubiese sido calculada sin
Jugador 1 M. Mora 2 C. Guillén 3 M. Ordóñez 4 O. Vizquel 5 B. Abreu 6 M.Scutaro 7 C. Izturis 8 V. Martínez 9 M. Cabrera 10 R. Hidalgo 11 J. Castillo 12 O. Infante 13 R. Chávez 14 E. Alfonzo 15 M. Cairo 16 A. Blanco 17 E. Chávez 18 J. Rivera 19 T. Pérez 20 R. Hernández 21 A. Escobar 22 L. González 23 A. Prieto 24 L. Rivas 25 A. González 26 H. Blanco 27 E. Pérez 28 Y. Torrealba 29 R. Reyes 30 R. Cedeño 31 R. Olmedo
Liga Americana Americana Americana Americana Nacional Americana Nacional Americana Nacional Nacional Nacional Americana Nacional Nacional Americana Americana Nacional Nacional Nacional Nacional Americana Nacional Americana Americana Nacional Americana Nacional Nacional Nacional Nacional Nacional
AVG 0,389 0,325 0,313 0,302 0,302 0,292 0,290 0,285 0,284 0,276 0,274 0,270 0,269 0,264 0,263 0,259 0,256 0,250 0,245 0,243 0,241 0,236 0,235 0,225 0,204 0,194 0,189 0,182 0,128 0,083 0,000
incluir los promedios de R. Olmedo y R. Cedeño su valor habría sido 0,258. Reto: Calcula la media de los promedios de bateo de los jugadores venezolanos en cada de una de las Ligas. ¿Qué conclusiones sacas de la comparación de esas medias? 100%
Interesante: La mediana (Me) sólo se puede obtener a partir de datos previamente ordenados y no está influida por los valores de la serie. Se caracteriza porque divide el conjunto de datos en dos partes iguales, tiene la ventaja con respecto a la media que no está influenciada con los valores extremos del conjunto de datos y se puede aplicar en el caso de distribuciones abiertas.
Frecuencia y
50%
Me
162
Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21
y
Medición de la variabilidad La variabilidad de un conjunto de datos también se puede “medir” empleando varios resúmenes numéricos. El más sencillo de éstos es la diferencia entre el máximo y el mínimo valor del conjunto de datos, que denominaremos Rango (R). En ocasiones esta medida resulta útil, pero cuando los extremos del lote de datos son valores muy lejanos (valores “atípicos”) R pierde valor como medida de dispersión. Una mejor forma de proceder en estas situaciones es calcular el rango del 50% central del conjunto de datos. La delimitación del 50% central de este conjunto se logra determinando dos valores que denominamos cuarto inferior (Ci) y cuarto superior (Cs). El cuarto inferior es el valor por debajo del cual queda una cuarta parte del lote de datos cuando éstos se ordenan en forma ascendente. El cuarto superior es el valor por debajo del cual quedan tres cuartas partes del conjunto de datos cuando éstos se ordenan ascendentemente. Los cuartos son pues a su vez medianas de mitades tal como se indica en el gráfico siguiente: Actuando según las explicaciones antes dadas se obtienen:
75% de los datos 50% de los datos 50% central de los datos
25% de los datos Mínimo 0,000
Cuarto inferior 0,230
Mediana 0,259
Cuarto superior 0,2845
Máximo 0,389
0,259
Podemos organizar la mediana, los cuartos y los extremos en un resumen de cinco números que señala no sólo el centro sino también la variabilidad del lote de datos. Para los datos de bateo este resumen es:
0,230
0,2845
0,000
0,389
¿Qué nos dice este resumen numérico? Nos dice que, hasta el 25/05/04, una mitad de los bateadores tenía un promedio de bateo que no excedía de 0,259 (≤0,259), y que la otra mitad tenía promedio de bateo no menor de 0,259 (≥0,259). También nos dice que la mitad de los jugadores tenían un promedio de bateo comprendido entre 0,230 y 0,2845 y existen dos jugadores que representan los valores extremos de la serie (0,000 R. Olmedo y 0,389 M. Mora). Una representación más vívida de este resumen de cinco números se logra con un dispositivo denominado gráfico de caja que mostramos a continuación.
1 0,000
2 0,230
3 0,2845
4 0,389
0,259
Un gráfico de cajas es particularmente útil para la comparación de distintos lotes de datos. A continuación presentamos un gráfico de cajas para los bateadores venezolanos de la Liga Americana y de la Liga Nacional, en el que podemos representar el valor central y la variabilidad de los promedios de bateo en cada Liga. Adicionalmente se puede apreciar la asimetría de la distribución de los datos respecto a la mediana y la presencia de valores atípicos.
0,4
0,389
0,302
0,3 0,270
0,2475 0,2
0,1
0,0
0,194
0,083 R. Olmedo
Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21
163
Electrum es un grupo de rock instrumental progresivo radicado en New England, EE.UU. En el año 2002 grabaron el disco Standard Deviation (Desviación Estándar).
Desviación estándar
La desviación estándar, denotada con S, es la medida de variabilidad utilizada con más frecuencia en la investigación por ser la más estable de todas y se basa en los desvíos de los datos originales con respecto a la media x. Cuando para un conjunto de datos x1, ..., xn se calcula este resumen numérico sólo con propósito descriptivo, se usa la fórmula: S=
(x1 - x)2 + ... + (xn - x)2 n
En cambio, cuando el propósito es hacer inferencias, se divide la suma indicada en el numerador [(x1 - x)2 + ... + (xn - x)2], que se representa n 2 ∑(xi - x) , entre n-1 i=1
Para ilustrar el cálculo y la interpretación de la desviación estándar consideraremos los promedios de bateo de los jugadores venezolanos de las Ligas Mayores. Para mayo de 2004 la media de nuestros peloteros en la Liga Nacional era de 0,221, mientras que en la Liga Americana alcanzaba 0,276. Así pues se puede apreciar que los venezolanos en la Liga Americana exhibían un mayor poder ofensivo, en promedio, que los de la Liga Nacional. El cálculo de la desviación estándar en cada liga nos permite apreciar la consistencia al bate de nuestros peloteros en cada una de las dos ligas. Liga Nacional
Liga Americana
S=
(0,194-0,276)2+ ... + (0,389-0,276)2 ≈ 0,048 13
S=
(0,000-0,221)2+ ... + (0,302-0,221)2 ≈ 0,077 18
El mayor valor de la desviación estándar de los promedios de bateo en la Nacional, indica que hay mayor variablilidad en torno a la media en la Liga Nacional que en la Americana y, por lo tanto, podemos concluir que los jugadores venezolanos de la Americana son más consistentes al bate. Esto lo podemos apreciar en la siguiente representación gráfica de los promedios de bateo. Promedio de bateo de jugadores venezolanos en las Ligas Mayores (mayo 2004) Media=0,221 Desvío mínimo = 0,302-0,221
Desvío máximo = 0,000-0,221 Liga Nacional
0,0 Liga Americana
0,1
0,2
0,3
Desvío mínimo = 0,194-0,276
0,4
Desvío máximo =0,389-0,276
Media=0,276
Reto: En el caso de los jugadores en la Liga Americana, calcula la media y la desviación estándar sin tomar en cuenta los promedios de M. Mora y H. Blanco. ¿Qué observas? Interesante: El cuadrado de S se conoce como varianza (S2) y es también una medida de variabilidad del conjunto de datos en torno a la media, expresada en unidades al cuadrado. Si no existe variabilidad, es decir si todos los valores coinciden con la media, S = S2 = 0. En toda otra situación S y S2 > 0. Si algunos valores están alejados de la media, S tomará valores elevados. Así como la media es muy sensible a la presencia de valores atípicos también lo son S y S2, porque en esencia también son medias. Cuando hay valores atípicos puede resultar una mejor idea recurrir al uso del resumen de cinco números para indicar el centro y la variabilidad del conjunto de datos.
164
Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21
Concentración A partir de una distribución de frecuencias se pueden obtener otras distribuciones que, en algunos casos, hacen evidentes cuestiones importantes. Por ejemplo, de la población de una ciudad se ha obtenido una distribución de frecuencias de los ingresos individuales por mes, y basándose en dicha distribución se han elaborado otras. En el cuadro siguiente se presentan estas distribuciones. Ingreso individual (Bs)
Número de personas
Cantidad de ingreso Bs.
% Nº de personas
% Acumulado Nº de personas
150 000
230 000
34,5 x 108
46
46
5,9
5,9
150 000
45 x 10
9
30
76
7,7
13,6
9
300 000
% Cantidad de ingreso
% Acumulado cantidad de ingreso
6
80 000
80 x 10
16
92
13,7
27,3
5 x 106
35 000
175 x 109
7
99
29,9
57,2
50 x 106
5 000
250 x 109
1
100
42,8
100,0
500 000
8
100
100,0
-
1 x 10
Total
584,5 x 10
-
Si todas las personas recibieran igual cantidad de ingreso, la distribución porcentual acumulada del número de personas sería igual a la distribución porcentual acumulada de la cantidad de ingreso. A este caso corresponden los puntos marcados en la bisectriz del cuadrado (linea de equidistribución) trazada en el gráfico al lado. En un caso como el del ejemplo, en el cual hay desigualdad en la distribución, los puntos correspondientes son los marcados fuera de la bisectriz. El cociente de dividir el área coloreada por la del triángulo de vértices (0;0), (100;0) y (100;100) es denominado razón de concentración. Con esta razón se mide la cuantía de la desigualdad en la distribución del ingreso. Su valor fluctúa entre 0 y 1, valores que corresponden, respectivamente, a las situaciones de igualdad y desigualdad extremas. Es usual obtener una aproximación de la razón de concentración aplicando la fórmula: ∑i (yi-yi’) ∑yi i
100
% acumulado de cantidad de ingreso
99% 92%
80
76%
60
57,2% 46% 40
27,3% 20
13,6%
en la cual y es un porcentaje acumulado de la cantidad de ingreso en el caso de igualdad, el yi’ es el correspondiente porcentaje acumulado de la cantidad de ingreso en el caso de desigualdad.
(46 - 5,9) + (76 - 13,6) + (92 - 27,3) + (99 - 57,2) ≈ 0,67 ≈ 67% 46 + 76 + 92 + 99 Interesante: Como es de pensar, el cálculo de la razón de concentración puede también ser útil en el caso de variables que no sean la cantidad de ingreso. La concentración ha sido enfocada desde otro punto de vista como se muestra en el gráfico que corresponde a la distribución del número de quejas según el tipo de causas de dichas quejas.
20
40
60
100 Frecuencia de quejas
En el ejemplo que nos ocupa, el valor aproximado de la razón de concentración es
5,9%
80 100 % acumulado de Nº de personas
80 60
40
20
I
II III IV Tipo de causa
V
Corrado Gini Economista italiano (1884-1965).
El estadístico italiano Corrado Gini estudió la concentración a comienzos del siglo XX y entonces propuso un modo para obtener un índice de concentración. Esta proposición fue en principio bien acogida y aplicada extensamente, pero después se redujo la atención a ella. A finales de ese siglo se inició un movimiento que ha reavivado el interés en el tema estudiado por Gini. Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21
165
Estadística y lactancia materna Amamantar a un hijo es una de la experiencias más gratas de la vida de una mujer, ya que la leche constituye un alimento ideal para el niño durante los primeros 4 a 6 meses de vida. Según la Organización Mundial de la Salud -OMS-, podrían salvarse en el mundo más de un millón de niños al año si las madres alimentaran exclusivamente con leche materna a sus hijos durante los primeros 4 meses de vida. Así mismo, la lactancia materna cobra importancia por el rol que ésta tiene en la prevención de anomalías dentomaxilofaciales. La lactancia materna disminuye en un 50% los indicadores de maloclusión dentaria (apifiamiento, resalte, mordida cruzada posterior, mordida abierta) que afecta la estética y la función dentofacial del niño. Aproximadamente a las 16 semanas, el feto esboza espontáneamente el movimiento de mamar. A las 27 semanas algunos se chupan el dedo en el útero, por tanto, la boca del recién nacido está adaptada para la función primordial del amamantamiento. Si la lactancia materna se ve frustrada, el niño a lo largo de su vida irá creando sustitutos, por ejemplo: tenderá a chuparse el dedo o la lengua en un esfuerzo por satisfacer su instinto de succión, o puede ponerse objetos extraños en la boca, morderse las uñas, el pelo, el brazo, los labios; todos estos hábitos incorrectos, son causa de maloclusión. A partir del año 1993, investigadores de la Escuela de Medicina "Luis Razetti" y la Facultad de Odontología de la Universidad Central de Venezuela (UCV), iniciaron un estudio dirigido a establecer la relación entre el período de lactancia materna, el tipo de perfil facial, y hábitos viciosos de succión y deglución en una muestra al azar de preescolares (122 de la Gran Caracas y 150 de la Etnia Pemón del Municipio Gran Sabana del Edo. Bolívar), siendo evaluados por especialistas odontólogos, previo entrenamiento. En el análisis de los datos se utilizaron dispositivos gráficos de cajas y de barras.
"Cuantos más detalles se tienen acerca de macro y micronutrientes específicos en la leche materna, tanto más claro es que la composición de ésta es idónea para lactantes humanos. El pediatra no necesita una justificación para recomendar el amamantamiento, pero sí la requiere para sustituirlo con el uso de la leche de vaca" Dra. Ruth Lawrence Yale New Haven Hospital Estados Unidos.
Interesante: La estadística ha permitido también hacer notorias las evidencias en cuanto a que la lactancia materna favorece el vínculo madre-hijo, previene la obesidad del niño, disminuye sus caries dentales y disminuye la propensión al cáncer mamario y ovárico de la madre.
166
Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21
Los resultados muestran a los pemones con una mediana de tiempo de lactancia significativamente superior, con una mayor variabilidad y fuerte asimetría hacia un mayor tiempo de lactancia. Por su parte, los niños del área urbana manifiestan un gran parecido entre sí en su tiempo de lactancia, con leve asimetría (gráfico 1). Por otro lado, los pemones exhiben menor presencia de hábitos orales viciosos (gráfico 2) y mayor proporción de perfiles faciales rectos (gráfico 3). Los resultados son evidencias importantes de que la alimentación a través del seno maternal, contribuye a evitar la adquisición de hábitos deformantes bucales y previene las anomalías dentomaxilofaciales (perfiles cóncavos/convexos).
Lactancia y diseño de experimento A continuación presentamos un diseño de experimento que utiliza un cuadrado latino de orden 3. Un cuadrado latino de orden n, es un arreglo cuadrado de n filas y n columnas que contiene en cada celda uno de n símbolos (por ejemplo letras latinas), de forma tal que cada letra aparece una sola vez por fila y una sola vez por columna. Este tipo de arreglos se emplea en el diseño estadístico de experimentos, para controlar el efecto indeseable que pudieran ejercer dos variables perturbadoras sobre la variable respuesta. En la investigación sobre el valor alimenticio que pudieran tener tres fórmulas lactantes alternativas (A,B y C), en niños que durante sus primeros cuatro meses de vida presentan reacciones alérgicas a la lactosa de la leche materna, el peso de los niños y el tiempo de embarazo podrían perturbar la relación entre la variable respuesta (evaluación clínica de su estado nutricional) y los tratamientos (fórmulas para lactantes). En esta situación procederíamos a clasificar nueve niños por categorías de peso (P1, P2 y P3) y por tiempo de embarazo (T1, T2 y T3), y luego emplearíamos un cuadrado latino de tamaño 3 seleccionado aleatoriamente entre todos los existentes de ese tamaño, para determinar de qué forma se asignarían las tres fórmulas lactantes a los niños participantes en el experimento. El resultado de tal selección aleatoria podría haber sido el siguiente, lo que permitiría asegurarnos que en esta experiencia los resultados obtenidos sean confiables. Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21
167
Tengo que pensarlo
1
Cuadrados latinos ¿Cuántos cuadrados latinos hay de tamaño 3? Constrúyelos empleando nueve cartas de una baraja de naipes franceses consistentes de sirvientes (J), reinas (Q) y reyes (K) de corazones.
2
Fatídico 222 Los narradores de juego de "base-ball" hacían referencia al "fatídico 222" que se presentaba cuando, habiéndose realizado 2 "out" previamente, el bateador de turno lIegaba a la cuenta de 2 "strikes" y 2 bolas. AI presentarse tal situación anunciaban que el bateador de turno sería puesto "out". EI fatídico 222 parece haber sido descartado por falso. ¿Fue acaso descartado porque no existe fundamento frecuencial para la predicción que se hacía cuando se presentaba? ¿Podrías comprobar que en efecto fue así? ¿Cómo lo harías?
3
Experiencia docente Un conjunto de 10 profesores tienen promedio de 8 años de experiencia. Uno de ellos tiene 30 años de experiencia, cuatro de ellos poseen 5 años y dos tienen 10. ¿Podrán tener los otros dos más de 10 años de experiencia?
4
Tallos y hojas En una población vegetal a la cual se le ha determinado la altura (en cm) se tiene un dispositivo de tallos y hojas como el siguiente: Tallos 0 1 2 3
Hojas 73 2273 0334568 1237
¿Cuántos elementos tiene la población ¿Cuál es la mediana? Realice el gráfico de cajas correspondiente. 1. 12 cuadrados; 3. imposible; 4. 17 elementos tiene la población y la mediana es 23.
Esta planta, comúnmente llamada “Hala”, crece hasta los 10 metros de altura. Esta especie tiene más de 250 millones de años antigüedad.
Respuestas:
168
Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21