1. ESTADÍSTICA DESCRIPTIVA
1.5. Medidas Descriptivas 1.5.1. Medidas de centralización 1.5.2. Medidas de Dispersión 1.5.3. Medidas de Posición 1.5.4. Medidas de Forma 1.5.5. Ejercicios 1.5.5.1. Resueltos 1.5.5.2. Propuestos
1.5. Medidas Descriptivas Las medidas descriptivas, como su nombre lo dice, se encargan de describir el comportamiento general de una población, ya que a través de éstas podemos definir la tendencia de los datos, así como el grado en que varían éstos. Generalmente se definen las medidas ya sea para datos no agrupados y para datos agrupados, aunque en este curso sólo nos enfocaremos a revisar las medidas para datos no agrupados y para datos agrupados se calcularán Media aritmética x y desviación estándar (S) con el apoyo de la calculadora. En el siguiente cuadro se muestra la clasificación y las medidas que se verán en el curso:
Vázquez, H. 2009
1
1.5.1. Medidas de Centralización: Son aquellas que definen la tendencia de los datos hacia el centro, es decir, estas medidas se localizan en medio de un conjunto de datos. El término promedio a menudo se asocia con todas las medidas de centralización.
x
1.5.1.1. Media Aritmética ( ): Promedio que quizá sea el más conocido y se calcula sumando todos los datos y dividiéndolos entre el número de datos. Lo anterior se expresa en la siguiente fórmula:
x
x n
1.5.1.2. Mediana (Md): es el valor que se encuentra ubicado justo al centro de la población cuando los datos están ordenados ascendente ó descendentemente, es decir, que cuando el tamaño de la población es impar, la mediana es el valor que está ubicado en la posición central, y cuando el tamaño de la población es par, entonces la mediana será el promedio de los dos valores que están ubicados en el centro de la población.
Vázquez, H. 2009
2
1.5.1.3. Moda (Mo): es el valor más común de la población, es decir, el valor que más veces se repite. En función del número de modas, la población se define como:
Población Amodal: que no tiene dato que más veces se repita. Población Unimodal: que tiene sólo un dato que más veces se repite. Población Bimodal: que tiene dos modas, ó dos datos que se repiten más veces (mismo número de veces). Población Multimodal: que tien más de dos modas ó más de dos datos que se repiten más veces (mismo número de veces).
1.5.2. Medidas de Dispersión Son aquellas que determinan el grado de variación de los datos con respecto a un valor promedio ( x ). En otras palabras representan la variación promedio de los datos con respecto a la media aritmética. 1.5.2.1. Desviación Estándar (S): es una medida absoluta, es decir, muestra la variación de los datos en las unidades de la variable, se calcula como:
donde: X: cada dato de la variable x : Media aritmética n: tamaño de la población Nota: Observa que para el cálculo de la desviación estándar muestral, en la fórmula se divide entre n-1, pero en el caso de calcular la desviación estándar población simplemente se divide entre n. 1.5.2.2. Varianza ( S2 ): No es más que el cuadrado de la desviación estándar.
Vázquez, H. 2009
3
1.5.2.3. Coeficiente de Variación (CV): al igual que la desviación estándar, muestra la variación de los datos con respecto a la media, pero en forma relativa, es decir, el coeficiente es un valor adimensional, que se representa en forma porcentual.
Interpretación y usos de la desviación estándar: Se entiende que una desviación estándar pequeña indica que los valores de la población se encuentran cerca de la media. El matemático ruso P.L. Chebyshev estableció un teorema que permite determinar la mínima porción de valores que se encuentran a cierta cantidad de desviaciones estándar de la media: Teorema de Chebyshev: En cualquier conjunto de datos (muestra ò población, simétrica ò asimétrica), la proporción de valores que se encuentran a k desviaciones estándar de la media es de por lo menos: 1 – 1 / k2, siendo k cualquier constante mayor que 1.
NOTA: Observa que sustituyendo el valor de k (número de desviaciones estándar) en la fórmula, se obtiene el porcentaje mínimo entre los dos Vázquez, H. 2009
4
valores dados. Es decir que si k = 2, significa que al menos el 75% de la población está entre la media más menos 2 desviaciones estándar.
Regla Empírica: En cualquier distribución de datos simétrica, con forma de campana, aproximadamente los porcentajes que se encuentran entre 1, 2 y 3 desviaciones estándar son los siguientes:
formula
NOTA: Observa que El Teorema de Chebyshev se emplea para cualquier tipo de curva y la regla empírica solamente para curvas simétricas.
Vázquez, H. 2009
5
1.5.3. Medidas de Posición (Qk, Pk) Son medidas que determinan la ubicación de un valor con respecto al total de la población, de otro modo se puede decir que son valores que dividen a la población en partes iguales. 1.5.3.1. Cuartiles (Qk): son medidas que dividen a la población en 4 partes iguales. Cuando el valor de k=1, representa el valor hasta el cuál está el 25% de la población; Q2 representa el valor donde se acumula el 50% de la población, es decir este valor coincide ó es el mismo valor que la mediana; y por último, el Q3 representa el valor hasta el cual se acumula el 75% de la población.
1.5.3.2. Percentiles (Pk): son aquellos valores que dividen a la población en 100 partes iguales, y al igual que los cuartiles el subíndice k representa la posición de dicha medida, es decir, por ejemplo si k=15 la medida representa el valor hasta donde se acumula el 15%. Significa que hay 99 percentiles, desde el P 1 que representa el 1% de la población hasta el P99 que represent el 99% de la población. Existen otras medidas llamadas Deciles, que dividen a la población en 10 partes iguales pero por coincidir con los percentiles en su cálculo no los comentaremos en este curso. Para el cálculo de las medidas de posición, como primer paso es requisito calcular la posición de dicha medida empleando la siguiente fórmula:
Si el valor de la Posición es ENTERO, el valor del cuartil ó percentil es directamente el dato que se encuentre en dicha posición; pero si el valor de la Posición NO ES ENTERO, el valor del cuartil ó percentil se calculará con la siguiente fórmula de INTERPOLACIÓN:
Qk , Pk = DPm + (DPM – DPm) ƒ Donde: DPm: Dato de la Posición menor DPM: Dato de la Posición mayor ƒ : el decimal de la posición
Vázquez, H. 2009
6
Nota: Observa que para la interpretación de las medidas es recomendable que analices cual es la porción menor en la que la medida de posición divide a la población, pues con éste es más práctica su interpretación, por ejemplo, si calculaste el Q3 es más representativo que se indique que a partir de este valor está el 25% de los datos más altos, que decir que el 75% de la población son menores a éste valor. Para el caso, por ejemplo del P90, es más simple decir que el 10% esta por encima de este valor, a decir que el 90% de la población está por debajo de este valor.
1.5.4. Medidas de Forma Son aquellas que describen el comportamiento de una población, en lo que se refiere hacia donde tienden a acumularse, así como al grado de concentración de los datos. 1.5.4.1. Sesgo (CSP): el Coeficiente de Sesgo de Pearson es el que determina el sesgo de un conjunto de datos que se define como el grado de asimetría de la población, ya que determina la fuerza con la que los datos pierden la simetría, es decir, nos muestra con que grado los datos tienden a concentrarse fuera del centro de la población; se puede decir que define hacia donde se desplazan la mayoría de los datos, y en consecuencia se define el sesgo, es decir hacia donde tienden a desplazarse algunos datos. Se calcula como sigue:
formula Entonces, de acuerdo a la asimetría, una población puede ser: Simétrica: si su sesgo es cero (CSP=0) Asimétrica positiva: ó con sesgo a la derecha, si su sesgo es mayor que cero (CSP>0). Asimétrica negativa: ó con sesgo a la izquierda, si su sesgo es menor que cero (CSP<0).
NOTA: Observa que en la figura anterior, el eje de simetría es la mediana de la población. Vázquez, H. 2009
7
Relación entre Media, Mediana y Moda El concepto de sesgo, permite entender la relación que existe entre la media, la mediana y la moda. La moda es el vértice (punto más alto de la curva), y la mediana es el valor del medio. La media aritmética tiende a ubicarse en la cola de la distribución de los datos, porque la media está afectada por todos los valores, incluyendo los extremos. Una curva simétrica es cuando los tres promedios son el mismo valor.
1.5.4.2. Curtosis (K): es la medida que determina el grado de concentración de los datos, se refiere al corte de la curva y su altura indica el tipo de corte que representa, una forma para determinar la curtosis es a través de la siguiente fórmula:
En función del valor obtenido del coeficiente, se determina el corte de la curva:
NOTA: Observa, que en Excel, el coeficiente de curtosis K, no se calcula con el mismo método, por lo que el punto de referencia cambia de 0.26 a 0, es decir, que el corte es: Leptocúrtico si K<0 Mesocúrtico si K=0 Platicúrtico si K>0.
Vázquez, H. 2009
8
1.5.5. Ejercicios 1.5.5.1. Ejercicios Resueltos: 1. Los datos representan el monto de las ventas mensuales (en miles de pesos) de un agente de ventas en los últimos 12 meses: 16 28 29 13 17 20 11 34 32 27 19 18 a) Calcular las medidas de centralización. Solución: + Para el cálculo de la media aritmética, tenemos que:
x = (16+28+29+13+17+20+11+34+32+27+19+18)/12 x = 22 es decir, el promedio de ventas del agente es de $ 22,000 mensuales. + Para el cálculo de la mediana, es necesario ordenar los datos, de preferencia, ascendentemente: 11 13 16 17 18 19 20 27 28 29 32 34 Ya ordenados, podemos observar que por tratarse de un tamaño de la población par, los datos que están ubicados al centro son 2: el 19 y 20, por lo que la mediana será el promedio de estos dos valores:
Md = (19+20)/2 Md = 19.5 es decir, el promedio de $19,500 Mensuales es el valor ubicado justo al centro de todos los datos de la población. + Para el cálculo de la moda, simplemente es buscar el dato ó datos que más se repite, y del conjunto de datos podemos observar que no hay dato que se repita más veces, por lo que podemos decir que NO HAY MODA, y por lo tanto hablamos de una Población AMODAL. Vázquez, H. 2009
9
b) Calcular las medidas de dispersión. Solución: + Para el cálculo de la desviación estándar, tenemos:
X 11 13 16 17 18 19 20 27 28 29 32 34 SUMA
11 13 16 17 18 19 20 27 28 29 32 34
X-X
(X – X)2
- 22 = -11 - 22 = -9 - 22 = -6 - 22 = -5 - 22 = -4 - 22 = -3 - 22 = -2 - 22 = 5 - 22 = 6 - 22 = 7 - 22 = 10 – 22 = 12
(-11)2 = 121 (-9)2 = 81 (-6)2 = 36 (-5)2 = 25 (-4)2 = 16 (-3)2 = 9 (-2)2 = 4 (5)2 = 25 (6)2 = 36 (7)2 = 49 (10)2 = 100 (12)2 = 144 646
S = 7.663 es decir, que las ventas mensuales del agente varían en promedio $7,663 con respecto a la media aritmética + Para el cálculo de la varianza simplemente es el cuadrado de la desviación estándar, por lo que:
S= 58.727 representa también la variabilidad de los datos, como el cuadrado de la desviación estándar.
Vázquez, H. 2009
10
+ Para el cálculo del coeficiente de variación, simplemente es sustituir las medidas en la fórmula, por lo que tenemos:
CV=34.83% al igual que la desviación estándar, indica que las ventas mensuales del agente varían en promedio el 34.83% con respecto a la media aritmética. NOTA IMPORTANTE: la desviación estándar es una medida absoluta (sus unidades son las de los datos) y el Coeficiente de variación es una medida relativa (es adimensional) su aplicación principal es cuando se desea comparar la variabilidad de varios grupos cuando las unidades de los datos no son las mismas. c) Calcular los coeficientes de sesgo y de curtosis Solución: + Para el cálculo del coeficiente de sesgo de Pearson tenemos que:
CSP=0.979, como el valor de CSP >0, significa que la curva es asimétrica con sesgo a la derecha.
Vázquez, H. 2009
11
+ Para el cálculo de la curtosis, tenemos que calcular previamente los cuartiles 1 y 3 y percentiles 10 y 90, para lo cual es necesario manejar los datos ordenados ascendentemente, nota que se está indicando la posición de cada uno de ellos: 1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11° 12° 11 13 16 17 18 19 20 27 28 29 32 34 ++ Para el cálculo del Q1, primero determinamos la posición de dicho valor:
Como el valor de la posición NO ES ENTERO, aplicamos la interpolación, es decir, el valor del Q 1 está ubicado entre la 3ª y 4ª posición: DPm es la 3ª posición: 16 DPM es la 4ª posición: 17 f: 0.75 por lo que la fórmula de interpolación queda:
Significa que el 25% de las ventas mensuales más bajas del agente están por debajo de los $ 16,750.
Vázquez, H. 2009
12
++ Para el cรกlculo del Q3, P10 y P90 el procedimiento es el mismo:
Significa que hasta $28,250 estรกn el 75% de las ventas del agente, o dicho de otra manera, a partir de $28,250, estรกn el 25% de las mejores ventas del agente.
Significa que el 10% de las ventas mรกs bajas son menores de $13,300.
Vรกzquez, H. 2009
13
Significa que el 90% de las ventas mensuales del agente son menores a $31,700. De otra forma se puede decir que arriba de $31,700 están el 10% de las mejores ventas mensuales del agente. Sustituyendo las medidas de posición en la fórmula de la curtosis, tenemos:
K=0.313, como el valor de K>0.26, tenemos que la población de los ventas mensuales del agente tiene un CORTE PLATICÚRTICO. d) Aplica la regla empírica ó Teorema de Chebyshev, según sea el caso: Se debe tomar en consideración la simetría de la población para determinar cual es la regla que se aplica basados en que si es simétrica, se aplica la Regla Empírica y si la población es Asimétrica, se emplea el Teorema de Chebyshev. Para el caso de este ejercicio, de acuerdo al coeficiente de sesgo podemos notar que la población es asimétrica por lo que se aplicará el Teorema de Chebyshev: Sabemos que la media aritmética es de 22 y la desviación estándar es de 7.663, por lo que: Si K=1, el intervalo queda como:
x± S
22 ± 7.663 2
A = 1-1/k A = 1-1/1 A = 0%
Es decir, al menos el 0% de las ventas mensuales están entre $14,337 y $29,663.
Vázquez, H. 2009
14
Si K=2, el intervalo queda como:
x ±2S
22 ± 2(7.663)=22 ± 15.326
A = 1-1/22 A = 1-1/4 A = 75% Es decir, al menos el 75% de las ventas mensuales están entre $6,674 y $37,326. Si K=3, el intervalo queda como:
x ±3S
22 ± 3(7.663)=22 ± 22.989
A = 1-1/32 A = 1-1/9 A = 88.89% Es decir, al menos el 88.89% de las ventas mensuales están entre $ -989 y $44,989. e) Aplicando el teorema de Chebyshev, ¿Qué porcentaje de las ventas están entre los $14,000 y $30,000? Se sabe que K es el número de veces que hay que sumar y restar la desviación estándar a la media, por lo que los límites quedan como sigue:
Significa que al menos el 8.25% de las ventas mensuales están entre $14,000 y $30,000. Nota: es importante que notes que la distancia en los intervalos a la media aritmética necesariamente debe ser la misma para poder aplicar este teorema.
Vázquez, H. 2009
15
1.5.5.2. Ejercicios Propuestos: I. La siguiente tabla, proporcionada por Marketing Intelligence Service, es una lista de las compañías con los más nuevos productos en un año reciente: Compañía
N° de Nuevos Productos
Avon
215
L’Oreal Unilever Revlon Garden Botanika Philips Procter & Gamble Nestlé Paradiso Tsumara
429 323 306 286 262 468 429 319 277
Calcular: a) Medidas de Centralización b) Medidas de Dispersión c) P30 y P84 d) Medidas de Forma e) Aplica la regla empírica, suponiendo que la población es simétrica f) Aplicando el Teorema de Chebyshev, que porcentaje de las compañías están entre los 171.4 y 491.4 productos
II. Una muestra de 15 pequeños despachos de contadores deja ver los siguientes números de profesionistas por oficina: 7 5 12
10 11 14
9 8 15
14 3 8
11 13 6
Calcular: a) La moda y de que tipo es la población b) La desviación estándar absoluta c) La desviación estándar relativa d) Que corte tiene la distribución de los datos. e) Según el teorema de Chebyshev, que porcentaje de la población está en el intervalo x ± 1.8 S
Vázquez, H. 2009
16
III. Según el Teorema de Chebyshev, ¿Cuántas desviaciones estándar desde la media incluirán por lo menos el 80% de los datos?
IV. Si un conjunto de datos se distribuye simétricamente, y la media es de 125 y la desviación estándar es de 12, ¿entre cuáles números caería aproximadamente el 68% de los valores?, entre cuales dos números caería el 95% de los valores?, ¿entre cuales dos valores caería el 99.7% de los valores?.
Vázquez, H. 2009
17