UNIDAD 3. DESCRIPCIÓN NUMÉRICA DE DATOS En la unidad anterior fue presentado los métodos para organizar los datos mediante tablas y gráficas. Esas técnicas representan medios visuales de descubrir relaciones, modos de comportamiento y tendencias en los datos; En esta unidad se pretende complementar las interpretaciones visuales, hechas posibles por tablas y gráficas, con medidas numéricas de características poseídas por muchas colecciones de datos cuantitativos; dichas características incluyen el centro, la dispersión, los puntos de posición de un conjunto de datos. A continuación se presentan las medidas numéricas a trabajar:
Tendencia central o de centralización (media, mediana y moda) Posición (cuantiles: cuartiles, deciles o percentiles) Variabilidad (rango, rango intercuartílico, desviación estándar, varianza, coeficiente de variación) Forma (Coeficiente de asimetría y de apuntamiento)
Medidas de tendencia central o de centralización La primera característica de un conjunto de datos que deseamos medir es el centro o la tendencia central. El propósito de una medida de tendencia central es resumir un conjunto de datos de forma que podamos tener un panorama general; una medida tal sirve como representante del resto de datos. Una medida de tendencia central de un conjunto de datos proporciona también una ideal del valor central de un conjunto aparentemente desorganizado de observaciones. Considere los siguientes 4 ejemplos: 1. 2. 3. 4.
Pesos en libras: 5, 6,12, 16 y 20 Calificaciones de un parcial de estadística descriptiva: 2.5, 2.6, 2.7 y 4 (Tranquilos) Colores de automóviles: Tres blancos, dos rojos, 5 amarillos y 1 negro. Cargos en una empresa: Dos vigilantes, 1 gerente, 3 asistentes, 5 Ingenieros
En los ejemplos 1 y 2 ¿Cuál es la escala usada?, si han pensado en escala de razón ¡Felicitaciones!, han acertado. En el ejemplo 3 es claro la escala nominal y en el último caso una escala Ordinal (considerando Jerarquía Organizacional). Entonces, ¿qué medidas usaría usted para describir el valor central o para representar el conjunto de datos de cada ejemplo?
A continuación serán presentadas las medidas de tendencia central más comunes dentro del análisis de datos. Media aritmética o promedio La media es el promedio aritmético de un conjunto de datos. La media o promedio aritmético de un conjunto de números, se encuentra sumando los números y dividiendo después la suma entre n, el número de medidas. Para un conjunto de n valores X1, X2… Xn que representan una muestra, la media está dada por:
Para un conjunto de N valores que representan una población, la media estándar poblacional está dada por:
Nota: Recuerden que los estadísticos son presentados con letras minúsculas mientras que los parámetros poblacionales son escritos con letras o símbolos griegos. Aplica también para medidas de dispersión, que se verán más adelante.
La media representa el “punto de equilibrio” del conjunto, lo que “debería ser” para que el conjunto fuera totalmente homogéneo. El análisis de lo anterior se puede evidenciar de dos maneras. 1. Desde un punto de vista lógico: Cuatro empleados con la misma preparación académica e iguales funciones dentro de una empresa reciben respectivamente los siguientes salarios (en unidades de mil): 700, 500, 900, 900. ¿Son justos los salarios?... No, lo ideal es que cada uno ganara lo mismo, es decir:
2. Desde un punto de vista lógico: La suma de las desviaciones (xi - x̅) para los valores por debajo y por encima de la media son iguales pero de signo contrario así:
Nota: En ciertos casos el valor de la media se ve afectado por valores extremos dentro de un conjunto de datos. Imaginemos que en un salón ingresan 10 niños, todos con estatura de 1 metro, así mismo a ese mismo salón ingresan 10 adultos con estatura todos de 2 metros. Un razonamiento sería decir que el promedio de estatura de los individuos de ese salón es de 1.5 metros, sin embargo NINGÚN individuo dentro de ese salón mide tal estatura (¿Recuerdan lo sucedido con una ministra?).
Moda Para un conjunto de datos, la moda es (si existe) el dato más frecuente o repetido. La moda en un conjunto de datos es el dato que más se repite, los conjuntos pueden ser unimodales, bimodales o multimodales. Cuando se analizan datos cualitativos, la moda es la única medida de tendencia central que pudiera utilizarse, pero ¡mucho cuidado! Debido a que en un conjunto de datos pueden existir más de dos modas y en otros casos puede no existir (todos los datos tienen la misma frecuencia). Mediana Para un conjunto de datos, la mediana ese el puntaje ordenado medio Para un conjunto de valores ordenados se tiene: 1. La Mediana es el valor central si el número de datos es impar 2. La Mediana es el promedio de los dos valores centrales si el número de datos es par. La mediana se denota como
para la población y
para la muestra.
Si se tiene el conjunto de datos 3, 8, 6, 11, 16, se ordenan 1, 3, 6, 8, 11, 16 y la mediana sería el promedio de los dos valores centrales, es decir:
Nota: En un conjunto de datos, el 50% de éstos es menor o a lo sumo igual que la mediana y el otro 50% es mayor o a lo sumo igual a ella.
Medidas de posición o colocación Un punto de posición es aquel valor para el cual un porcentaje específico de valores queda en o por debajo de él, se le denominan cuantiles y pueden ser cuartiles, deciles y percentiles. Para un conjunto de datos ordenados se tiene que: 1. Los cuartiles son aquellos valores que dividen al conjunto en 4 partes iguales, cada uno contiene el 25% de los datos. (Q1 , Q2 , Q3) 2. Los deciles son aquellos valores que dividen al conjunto en 10 partes iguales, cada uno contiene el 10% de los datos. (D1 D2 D3 D4 D5 D6 D7 D8 D9) 3. Los percentiles son aquellos valores que dividen al conjunto en 100 partes iguales, cada uno contiene el 1% de los datos. (P1, P2… P99) Para ubicar cualquier cuantil se deben ordenar los datos y ubicar la posición del cuantil desea, así si n representa el número de datos se tiene que: 1. El i-ésimo cuartil está en la posición: 2. El i-ésimo decil está en la posición: 3. El i-ésimo percentil está en la posición:
, i=1,2,3 i=1,…,9. i=1,…,99.
Nota: Si la posición da un número entero el cuantil es el valor que está en esa posición. Por otro lado si la posición da un número decimal, se puede redondear al entero superior siguiente.
Ejemplo: Considere el siguiente conjunto de datos ya ordenado, calcule Q1, Q2, D3 D7.
Solución:
Q1 = 1 ∗
50+1 4
= 12.75, Al ser un número decimal se redondea a 13. Por tanto el primer cuartil
de este conjunto de datos es aquel en el que 13 de las medidas caen en él o debajo de él y al menos 37 valores por arriba; así 13 valores están situados en o debajo de 15 y 37 valores están en o encima de 15. Para el caso del segundo cuartil existe una similitud respecto a la mediana, por tanto el segundo cuartil es igual a la mediana de los datos (ver definición); y la mediana es el 25+26 = 25.5, Al ser promedio de la vigésimo quinta y vigésimo sexta (valores centrales) Q2 = 2
un número decimal se redondea a 26. Por tanto el primer cuartil de este conjunto de datos es aquel en el que 26 de las medidas caen en él o debajo de él y al menos 24 valores por arriba; así 26 valores están situados en o debajo de 15 y 24 valores están en o encima de 15. D7 = 7 ∗
50+1 10
= 35.7, Al ser un número decimal se redondea a 36. Por tanto el séptimo decil
de este conjunto de datos es aquel en el que 36 de las medidas caen en él o debajo de él y al menos 14 valores por arriba; así 36 valores están situados en o debajo de 60 y 14 valores están en o encima de 60. Medidas de Variabilidad o Medidas de Dispersión La variabilidad des un término implícito de la vida real. En cualquier campo de desempeño hay que tomar decisiones en presencia de variabilidad o “ruido” La estadística es la disciplina encargada en este tema. En todos los proceso existen diferentes causas de variabilidad: Mano de obra, métodos, maquina, materia prima, entorno, etc, por tanto es imposible eliminarla, lo deseable es minimizarla. Existen diferentes medidas de variabilidad (Rango, rango intercuartílico, desviación estándar, varianza, coeficiente de variación) que buscan medir la magnitud de las desviaciones de los valores obtenidos con respecto a un valor central o de referencia. Rango El rango R= U (Dato mayor) – L (Dato menor), mide la variabilidad del 100% de los datos, es una medida débil para comparar variabilidad. Ejemplo: Analice con atención las dos gráficas
Aunque en ambos conjuntos el rango es R= 5-1 = 4, se ve claramente que la dispersión de los valores es diferente, pareciera ser que el segundo conjunto es más variable ¿no? Rango Intercuartílico Una medida de dispersión que es indiferente de la presencia de observaciones aberrantes es el rango intercuartílico. El rango intercuartílico es igual a RIQ = Q3-Q1 y mide la variabilidad del 50% de los datos centrales, es una medida débil para comparar variabilidad. Varianza La varianza de una población denotada σ2 se calcula como:
Donde N representa el número de elementos de la población, para una muestra se denota s2 y se calcula como:
1. La varianza mide que tan alejados se encuentran los datos con respecto a la media 2. La varianza está en unidades cuadradas.
3. Para un conjunto de datos la varianza es una medida “muda” se puede utilizar para comparar la variabilidad de conjuntos de datos que satisfacen las siguientes condiciones. a. Están en las mismas unidades (No serviría para comparar la variabilidad entre algunas unidades como por ejemplo tiempos y calificaciones) b. Sean de la misma dimensión (no es aconsejable para comparar conjuntos que estén formados solo por unidades con otros que estén en unidades de mil por ejemplo) 4. A mayor varianza, mayor variabilidad o más dispersos los datos respecto a la media. Fórmulas para el cálculo de media y varianza a partir tablas de frecuencias Consideremos los datos en un diagrama de puntos o bien de una tabla de frecuencias, como hay valores que se repiten calculamos la media y la varianza con las siguientes expresiones: Fórmula para la Media:
Fórmula para la Varianza:
Ejemplo: Considere los diagramas de puntos vistos en Rango, para lo cual sus respectivas tablas de frecuencias son: Para la gráfica o conjunto 1
Con lo cual se tiene que x̅ = 4.6 y s2= 1.60
Para la grĂĄfica o conjunto 2
Con lo cual se tiene que xĚ… = 3.7 y s2= 2.011 Es evidente que el conjunto 2 es mĂĄs variable que el conjunto 1 por tener una varianza muestral mayor. DesviaciĂłn estĂĄndar La desviaciĂłn estĂĄndar es la raĂz cuadrada positiva de la varianza. Para una poblaciĂłn serĂĄ đ?œŽ = √đ?œŽ 2 y para una muestra đ?‘ = √đ?‘ 2. La desviaciĂłn estĂĄndar estĂĄ en las mismas unidades de los datos y tiene los mismos usos de la varianza. Ě…) de un conjunto de datos es 0, Âżse Nota: Es importante mencionar que la suma de desviaciones ∑(X − x imaginan que todas las medidas de variabilidad de todos los datos sean 0?, para lo anterior es utilizado la Ě…)2,. Ahora bien el siguiente problema serĂa la interpretaciĂłn de las unidades de Suma Cuadrados ∑(X − x medida del valor resultante, por ejemplo, en un censo poblacional “habitantes 2 “ parece una medida de variabilidad poco diciente pues no tiene algĂşn sentido fĂsico o demogrĂĄfico; Como soluciĂłn de lo anterior se utiliza el operador matemĂĄtico raĂz cuadrada.
Teorema de Chebyshev La desviaciĂłn estĂĄndar muestral s, indica la dispersiĂłn de los datos respecto a la media muestral. Si los valores de los datos se acumulan cerca de la media, entonces s es pequeĂąa; si los valores de los datos se dispersan considerablemente respecto a la media, entonces s es grande; pero, ÂżCĂłmo podemos determinar cuĂĄles valores de s son grandes y cuĂĄles son pequeĂąos?. Una forma de sacar conclusiones con respecto a la magnitud de la desviaciĂłn estĂĄndar fue implementada por el matemĂĄtico ruso Pafnuty LvĂłvich Chebyshev, de acuerdo con el teorema que lleva su nombre. En cualquier conjunto de datos por lo menos el ( 1 −
1 đ??ž2
)*100% de los datos se encuentran
a menos de K desviaciones estĂĄndar de la media, es decir dentro del intervalo: (đ?‘ĽĚ… − đ??žđ?‘ , đ?‘ĽĚ… + đ??žđ?‘ ).
Es equivalente establecer el teorema diciendo que a lo mĂĄs el ( 1 −
1 đ??ž2
)*100% de los datos
se encuentran a mås de K desviaciones eståndar de la media. 
Para K=2, ( 1 −

Para K=3, ( 1 −

Para K=4, ( 1 −
 Para K=5, ( 1 − Ejemplo:
1 đ??ž2 1 đ??ž2 1 đ??ž2 1 đ??ž2
)*100% = 75% )*100% = 88.8% )*100% = 93.75% )*100% = 96%
Para el conjunto de datos que representan los dĂas entre la presentaciĂłn de la queja y su soluciĂłn, determine si es consistente con un el teorema de Chebyshev para un K= 2.
SoluciĂłn: Para el anterior conjunto de datos, la media es xĚ… = 41.6 y s= 31.56, Por tanto los lĂmites del intervalo segĂşn el teorema de Cebyshev son: xĚ… − 2s = −21.53 y : xĚ… + 2s = 104.73, Ahora bien, note que de los 50 datos hay 48 que se encuentran en el intervalo hallado anteriormente (-21.53, 104.73), lo que quiere decir que
48 50
∗ 100% = 96% de los datos se
encuentran contenidos en el intervalo. Con lo cual se cumple que al menos 75% de los datos con K=2 se encuentran en el intervalo hallado (se encuentran 96%). Se puede notar que solo dos datos no se encuentran en el intervalo, los cuales son 120 y 120. Coeficiente de VariaciĂłn El coeficiente de variaciĂłn CV proporciona una medida de variabilidad que es independiente de la unidad de medida; por tanto puede utilizarse para comparar la variabilidad de conjuntos de datos que estĂĄn en unidades diferentes, es la medida mĂĄs fuerte al momento de comparar. Se calcula como:
Y expresa la desviaciĂłn estĂĄndar como una proporciĂłn de la media.
Medidas de Forma Coeficiente de Asimetría El coeficiente de asimetría CAs mide el grado de asimetría de una distribución de datos con respecto a su media. En un histograma por ejemplo, si los dos lados separados por la media son idénticos, se dice que es simétrico. Si hay menos medidas debajo de la media que arriba de ella, se dice que es sesgado a la izquierada o presenta cola a la izquierda. Si hay más datos o medidas debajo de la media que arriba de ella, se dice que es sesgado a la derecha o presenta cola a la derecha. Una forma de calcularla es:
A continuación se presentan ejemplos gráficos de histograma simétrico y sesgado
Coeficiente de Apuntamiento El coeficiente de apuntamiento CAp o courtosis, desceibe el apuntamiento o achatamiento de una cierta distribución con respecto a una distribución normal, para esta la courtosis es igual a (mesocúrtica) para valores mayores de 3 se tiene una distribución muy puntiaguda (Leptocúrtica) para valores menores de 3 se tiene una distribucipon achatada (Platicúrtica). Una forma de calcularla es:
A continuación se presentan ejemplos gráficos de histograma:
Cálculo de medidas para datos agrupados Cuando se habla de datos agrupados, se refiere a datos contenidos en una tabla de frecuencias o los diagramas asociados a éstas (Histogramas, polígonos de frecuencias, ojivas, etc.); en este caso los valores que se pudieran obtener (media, moda, varianza, etc.) serían aproximaciones a los valores reales y se calculan como: Media:
Donde n es el número total de datos:
mi es el punto medio (promedio) de la clase (ki) que se denomina marca de clase. fi es la frecuencia de clase y K es el número total de clases.
Moda: Es la marca de clase con mayor frecuencia (El mayor fi). Varianza:
Coeficiente de Asimetría
Coeficiente de apuntamiento
Ejemplo: Examinemos el siguiente ejemplo y veamos el cálculo de la media, moda y varianza con datos agrupados. Supongamos que se está midiendo el rendimiento de memorias RAM de 16 Gb del nuevo Iphone 7, para lo cual, una prueba sencilla es medir el tiempo de arranque del sistema una vez encendido el equipo celular. A continuación se presentan los datos agrupados en clases (tomados de un Histograma de frecuencia) Intervalo 1 - de 0 a 2 segundos Intervalo 2 - de 2 a 4 segundos Intervalo 3 - de 4 a 8 segundos Intervalo 4 - de 8 a 16 segundos Intervalo 5 - de 16 a 32 segundos Intervalo 6 - de 32 a 64 segundos Intervalo 7 - de 64 a 128 segundos Intervalo 8 - de 128 segundos a infinito Se puede calcular una aproximación del promedio suponiendo que el tiempo medio de respuesta del sistema correspondiente a un intervalo con el rango x a y sea (x + y)/2. A continuación, puede multiplicar este número por el número de consultas (fi) que corresponden al intervalo, sumar todos los intervalos y dividir la suma por el número total. Para el ejemplo anterior, supongamos que el tiempo medio de respuesta de cada intervalo es: Promedio 1 = (0+2)/2 = 1 Promedio 2 = (2+4)/2 = 3 Promedio 3 = (4+8)/2 = 6 Promedio 4 = (8+16)/2 = 12 Promedio 5 = (16+32)/2 = 24 Promedio 6 = (32+64)/2 = 48
Promedio 7 = (64+128)/2 = 96 Nota: Recuerden que estos promedios son denominados marcas de clase.
Supongamos el siguiente histograma durante el periodo de medición: Recuento Recuento Recuento Recuento Recuento Recuento Recuento Recuento int. 1 int. 2 int. 3 int. 4 int. 5 int. 6 int. 7 int. 8 20 30 80 10 5 3 2 0 Para calcular el tiempo de respuesta, el intervalo 8 debe estar vacío (pues se considera para esta situación infinitamente extenso). El intervalo 8 sólo existe para que sepa cuándo necesita cambiar el límite superior de su rango. Por este motivo, debe especificar el límite superior del rango. Puede aproximarse al promedio de respuesta del modo siguiente: Media = (20 x 1 + 30 x 3 + 80 x 6 + 10 x 12 + 5 x 24 + 3 x 48 + 2 x 96) / 150 = (20 + 90 + 480 + 120 + 120 + 144 + 192) / 150 = 1166 / 150 = 7,77 segundos apróx. Nota: Lo anterior no fue más que la sumatoria de los productos de promedios de cada clase con su respectiva frecuencia clase
Puede aproximarse a la desviación estándar de la vida útil del modo siguiente: Desviación estándar = [(20 x (1 - 7,77)2 + 30 x (3 - 7,77)2 + ... ) / 150]1/2 =12.59 apróx. Moda: La clase con mayor número de datos es la tercera clase, por tanto el dato que más se repite podría decirse que es el promedio de los límites de esa clase, por tanto la moda es: 6 (marca de clase) Estandarización de datos Un puntaje estándar o la estandarización, se utiliza para comparar medidas particulares de dos o más conjuntos de datos con respecto al conjunto. Proporciona una medida de la posición relativa de un elemento dentro del grupo. El puntaje estándar se define como la razón de la desviación del valor entre la desviación estándar, representando el número de desviaciones estándar que un valor dista de la media. Si se tiene un conjunto de n datos X1, … , Xn; para estandarizar un valor dentro del grupo se aplica la siguiente transformación:
Considerando que se está trabajando con una muestra, si se hace referencia a una población se tiene:
Si se estandarizan todos los valores de Xi el nuevo conjunto de datos Z1, … , Zn; tiene la siguientes características: a. Media igual a 0 b. Varianza igual a 1 c. Son datos adimensionales
Nota: Un puntaje estándar se denomina en ocasiones, puntaje de z.
Ejemplo: Es muy común como estudiantes de alguna asignatura, consultar la nota de los demás en una misma asignatura para poder establecer alguna comparación o clasificación dentro del grupo de compañeros. Suponga que después de hacer un examen de estadística descriptiva con el profesor Porto, usted obtiene una calificación; entonces se interesa por saber cómo es su calificación con respecto a los demás estudiantes que hicieron la misma prueba de saberes con el otro profesor de estadística descriptiva, llamado Loyola. Andrés obtuvo un puntaje de 700 en la prueba con el profesor Porto, mientras George obtuvo 24 en la prueba del profesor Loyola. La media y desviación estándar de los puntajes de los alumnos del profesor Porto son 500 y 100 respectivamente; por otro lado, la media y desviación estándar de los puntajes de los alumnos del profesor Loyola son 18 y 6 respectivamente. Se supone que ambos exámenes miden el mismo tipo de habilidad (estadística descriptiva), pero ¿quién calificó más entre George y Andrés? Además de tener medidas o métricas distintas, (una en el orden de los cientos y el otro en el orden de decenas) son profesor distintos. Es claro entonces que la desviación de los puntajes respecto a la media no es una medida significativa o diciente por las métricas distintas y no toman en cuenta la dispersión de los datos. Con relación al puntaje estándar de Andrés, lo calculamos como: ZAndrés =
700−500 100
=2
Por otro lado el puntaje estándar de George es: ZGeorge=
24−18 6
=1
Ahora bien, estos valores estándares parecen más fácil de comparar. Una interpretación formal sería mencionar que “El puntaje de Andrés está dos desviaciones estándares por encima de la media de puntajes de la prueba de estadística con el profesor Porto” mientras que la otra interpretación formal sería “El puntaje de Geroge está una desviación estándar por encima de la media de puntajes de la prueba de estadística con el profesor Loyola”. Como ambos Z son positivos, y el valor de z de Andrés es mayor que el de George, se podría decir que Andrés calificó mejor en la prueba de Estadística que George. En palabras más simples, a Andrés le fue mejor en su curso que a George en el suyo dentro de una prueba de medición de la misma habilidad o conocimiento. Ejemplo: Veamos el siguiente ejemplo, supongamos que Usain Bolt (Jamaica) y Justin Gatlin (U.S.A) están entrenando para una carrera en los Olímpicos de Brasil. Bolt está entrenando en el camino A, la media del tiempo para completar el recorrido de 100 metros planos fue de 9.58 segundos y la desviación estándar fue de 0.32 segundos. Por otro lado, Gatlin está entrenando en el camino B, su media es de 9.74 con una desviación estándar de 0.12 segundos. Ahora bien, el último tiempo de recorrido de de Bolt y Gatlin en su respectivmos caminos fueron de 9.63 y 9.85 segundos respectivamente. ¿Según usted, quien será el mejor en la carrera?
Solución: Es importante la estandarización en este caso porque se está intentando comparar a dos individuos (o procesos) en mismo contexto (velocidad en 100 metros planos). Según sus últimos registros Bolt tendría un valor adimensional de Z de = Por otro lado Gatlin, tendría un valor adimensional de Z de
9.85−9.74 0.12
9.63−9.58 0.32
= 0.15
= 0.91
A pesar de que Blot tiene mejores tiempos individuales que Gatlin (mejor promedio), su variabilidad en dichos tiempos le hace tener un valor de z menor, por tanto, Gatlin pudiera encaminarse a ganar la carrera si mantiene sus registros de tiempo constantes.
BIBLIOGRAFIA
LLINAS SOLANO, Humberto. Estadística Descriptiva. 1ª.ed. Barranquilla. Ediciones Uninorte, 2005. 408 p. ISBN: 958-825-208-3
MARTINEZ BENCARDINO, Ciro. Estadística y Muestreo. 12ª. Ed. Bogotá, D.C. Ediciones Ecoe, 2008. 1100p. ISBN 958-648-411-4
Walpole, Ronald E.; Raymond H. Myers; Sharon L. Myers y Keying Ye. 8ª. México. Pearson Educación, 2007. 840p. ISBN 978-970-26-0936-0