EstadĂstica descriptiva
La mayor parte de la información estadística que aparece en los diarios, revistas, informes de compañías y demás publicaciones consiste en datos resumidos y presentados en forma comprensible para el lector. Esos resúmenes de datos, que pueden ser tabulares, gráficos o numéricos se llaman estadísticas descriptivas.
Ejemplo En la tabla 1.4 hay un resumen tabular de los datos de la variable cualitativa bolsa. En la figura 1.5 se representa un resumen de los mismos datos conocidos como gráfica de barras. El objeto de los resúmenes tabulares y gráficos como éstos es facilitar la interpretación de los datos. Si se observa la tabla 1.4 o la figura 1.5 se puede percibir con facilidad que la mayoría de las acciones se negocian en ventanilla, 24% en American Stock Exchange (AMEX) y sólo 20% en la bolsa de valores de Nueva York (NYSE)
Tabla 1.4: Frecuencias y frecuencias porcentuales para la variable bolsa
Bolsa
Frecuencia
Porcentaje
NYSE
5
20
AMEX
6
24
OTC
14
56
25
100
Total
Figura 1.5: Grรกfica de barras para la variable bolsa Grรกfica de barras para la variable bolsa 60
50
porcentaje
40
30
20
10
0
NYSE
AMEX Bolsa
OTC
Inferencia estadĂstica
Uno de los mayores aportes de la estadística es que los datos de una muestra pueden emplearse para elaborar estimaciones y probar hipótesis acerca de las características de una población. A este proceso se le denomina inferencia estadística.
Poblaci贸n Una poblaci贸n es el conjunto de todos los elementos de inter茅s en determinado estudio.
Muestra Una muestra es un subconjunto de la poblaci贸n
Ejemplo de inferencia estadĂstica
Veamos el estudio de Norris Electronics. Esta empresa fabrica una bombilla de gran intensidad, que se emplea en varios productos eléctricos. Al tratar de aumentar la vida útil de sus bombillas, los diseñadores del producto desarrollaron un nuevo filamento. En este caso, se define la población como todas las bombillas que se pueden producir con el nuevo filamento. Para evaluar las ventajas del producto mejorado se fabricaron y se puso a prueba una muestra de 200 bombillas con el nuevo filamento. Se reunieron los datos sobre la cantidad de horas que funcionó cada uno de ellos hasta fundirse.
Suponga que a Norris le interesa usar los mismos datos para hacer una inferencia acerca de las horas promedio de vida 煤til para la poblaci贸n de todas las bombillas que se puedan producir con el nuevo filamento. Al sumar los 200 valores y dividir el total entre 200 se determina la vida media para la muestra: 76 horas. Podemos usar este resultado para estimar que la vida promedio de las bombillas es 76 horas
La siguiente figura es un resumen grĂĄfico del proceso de inferencia estadĂstica en el caso de Norris Electronics
Proceso de inferencia estadística en el ejemplo de Norris Electronics
1. La población es igual a todas las bombillas fabricadas con el nuevo filamento. Se desconoce la duración promedio
4.4 El valor del promedio de la muestra se emplea para estimar el promedio de la población
2. Se fabrica una muestra de 200 bombillas con el nuevo filamento
3.El resumen de los datos de la muestra da como resultado una duración promedio de 76 horas por bombilla
Resumen de datos cualitativos
Primero describiremos cómo se pueden emplear métodos tabulares y gráficos para resumir datos cualitativos a partir de la definición de distribución de frecuencias
Distribuci贸n de frecuencias
Una distribuci贸n de frecuencias es un resumen tabular de un conjunto de datos que muestra el n煤mero (frecuencia) de art铆culos en cada una de varias clases que no se traslapan.
Ejemplo Suponga que se tiene un resumen de c贸mo se distribuyen las 50 compras de una bebida carbonatada. Mediante este resumen se tiene una visi贸n m谩s clara de las preferencias
Distribuci贸n de frecuencias de compras de bebidas carbonatadas Marca Coke Classic Diet Coke Dr. Pepper Pepsi-Cola Sprite Total
Frecuencia 19 8 5 13 5 50
Distribuci贸n de frecuencias relativas La frecuencia relativa de una clase es la fracci贸n o proporci贸n de elementos que pertenecen a esa clase. Para un conjunto de datos con n observaciones, la frecuencia relativa de cada clase es como sigue:
Frecuencia de la clase Frecuencia relativa de una clase  n
Frecuencia porcentual
Es la frecuencia relativa multiplicada por 100
Distribuciones de frecuencias relativas y procentuales de compras de bebidas carbonatadas Frecuencia relativa
Coke Classic
0.38
Frecuencia porcentual 38
Diet Coke
0.16
16
Dr. Pepper
0.10
10
Pepsi-Cola
0.26
26
Sprite
0.10
10
1.00
100
Marca
Total
Gráficas de barras Es una forma gráfica de representar datos cualitativos que se han resumido en una distribución de frecuencias, de frecuencias relativas o de porcentuales. En uno de los ejes de la gráfica (por lo común el eje horizontal), especificamos las etiquetas que se utilizan para las clases (categorías) de los datos. Para el otro eje de la gráfica (por lo general el eje vertical), se puede usar una escala de frecuencias, de frecuencias relativas o de frecuencias porcentuales. Entonces, con una barra de un ancho fijo trazada sobre cada indicador de clase llegamos a la altura que corresponda a la frecuencia, a la frecuencia relativa o a la porcentual de la clase. Para los datos cualitativos, las barras deben estar separadas para enfatizar el hecho de que cada clase (categoría) es separada
Grรกfica de Barras de las frecuencias relativas para las 50 compras de refresco
Frecuencia relativa
0,4
0,3
0,2
0,1
0,0
Coke Classic
Diet Coke
Dr. Pepper Marca
Pepsi Cola
Sprite
Diagrama de pastel Es otra forma de representar las distribuciones de frecuencias relativas y de frecuencias porcentuales. En la construcci贸n de un diagrama de pastel primero se traza un c铆rculo para representar todos los datos. A continuaci贸n, con las frecuencias relativas, se divide el c铆rculo en sectores o partes, que corresponden a la frecuencia relativa de cada clase
Ejemplo Como hay 360 grados en un círculo, y como Coke Classic tiene 0.38 de frecuencia relativa, el sector de la gráfica de pastel que le corresponde debe tener 0.38(360) = 136.8 grados. El sector del diagrama etiquetado como Diet Coke consiste en 0.16(360) = 57.6 grados. Se efectúan cálculos semejantes para las demás clases, obteniéndose el diagrama de pastel correspondiente. Los valores numéricos que se ven en cada sector pueden ser frecuencias, frecuencias relativas o frecuencias porcentuales
Diagrama de pastel de las frecuencias relativas para las 50 compras de refresco
C ategory 0,10 0,26 0,36 0,38
Resumen de datos cuantitativos
Distribución de frecuencias Como ya hemos señalado anteriormente, una distribución de frecuencias es un resumen tabular que muestra el número (frecuencia) de elementos en cada una de varias clases que no se traslapan. Esta definición es válida para datos cuantitativos y cualitativos. Sin embargo, debemos tener más cuidado con los datos cuantitativos al definir las clases no traslapantes que se usan en la distribución de frecuencias.
Ejemplo Veamos los datos cuantitativos de la siguiente tabla. Estos muestran el tiempo requerido, en días, para terminar auditorías de fin de año en una muestra de 20 clientes de Sanderson y Clifford, pequeño bufete de contadores públicos
Tiempo de auditorias de fin de aĂąo (dĂas) 12
14
19
18
15
15
18
17
20
27
22
23
22
21
33
28
14
18
16
13
Los tres pasos necesarios para definir las clases en una distribuci贸n de frecuencias con datos cuantitativos son: 1.-Determinar la cantidad de clases no traslapantes. 2.- Determinar el ancho de cada clase. 3.-Determinar los l铆mites de clase.
Número de clases Las clases se forman al especificar los intervalos que se utilizarán para agrupar los datos. Como regla general, se recomienda usar entre 5 y 20 clases. Para un número pequeño de elementos, se podrían usar cinco o seis clases para resumir los datos. Para una cantidad más grande de elementos se requiere un número mayor de clases. El propósito es emplear suficientes clases para mostrar la variación de los datos, pero no tantas que varias contendrían unos cuantos elementos. Debido a que el número de elementos en la tabla es relativamente pequeño (n = 20), optaremos por formar una distribución de frecuencias con cinco clases.
Ancho de clase El segundo paso en la formaci贸n de una distribuci贸n de frecuencias para datos cuantitativos es elegir un ancho de las clases. Como regla general recomendamos igual ancho para todas las clases. As铆, las opciones de la cantidad de clases y el ancho de ellas no son decisiones independientes. Una mayor cantidad de clases se traduce en un menor ancho de clase, y viceversa.
Para determinar un ancho aproximado de clase se comienza por identificar los valores mĂĄximo y mĂnimo. Una vez especificada la cantidad deseada de clases, podemos aplicar la siguiente ecuaciĂłn para determinar el ancho aproximado de clase:
Ancho aproximado de clase
valor máximo en los datos valor mínimo en los datos Cantidad de clases
El ancho de clase obtenido con la ecuación puede ajustarse a un valor conveniente con base en la preferencia de quien desarrolla la distribución de frecuencias. Por ejemplo, un ancho de clase calculado de 9.28 se podría ajustar a 10, simplemente porque 10 es un valor más conveniente para trazar y representar una distribución de frecuencias.
Para el conjunto de datos de los tiempos de auditoría, el valor máximo es 33 y el mínimo es 12. Como hemos decidido resumir ese conjunto con cinco clases, al aplicar la ecuación se obtiene un ancho aproximado de clase de (3312)/5 = 4.2. En consecuencia, optamos por usar un ancho de clase de cinco para la distribución de frecuencias.
Límites de clase Se deben escoger los límites de clase de tal manera que cada valor de dato pertenezca a una clase y sólo una. El límite inferior de clase es el valor mínimo posible de los datos que se asignan a la clase. El límite superior de clase es el valor máximo posible de los datos que se asignan a la clase.
Para los datos de tiempo de auditoría definimos los límites de clase como 10-14; 15-19; 20-24; 25-29 y 3034. El valor mínimo de los datos que es 12, se incluye en la clase de 10-14, 10 es el límite inferior de clase y 14 es el límite superior. La diferencia entre los límites inferiores de clase adyacentes es igual al ancho de clase. Al usar los primeros límites inferiores de clase, que son 10 y 15, vemos que el ancho de clase es 15-10 = 5.
Una vez determinada la cantidad de clases, el ancho de clase y los l铆mites de clase, se puede obtener la distribuci贸n de frecuencias contando la cantidad de datos que pertenecen a cada clase. En la siguiente tabla se presentan estos datos:
Tiempo de auditoría (días) 10-14 15-19 20-24 25-29 30-34 Total
Frecuencia 4 8 5 2 1 20
En la tabla vemos que: 1.- Las duraciones más frecuentes de auditoría están en la clase de 15 a 19 días. Ocho de los 20 tiempos de auditoría pertenecen a esa clase. 2.- Sólo una auditoría requirió de 30 días o más.
Punto medio de clase O MARCA DE CLASE
Este punto medio de clase es el valor promedio entre los lĂmites inferior y superior de clase. Para los datos de tiempo de auditorĂa, los puntos medios de las cinco clases son 12, 17, 22, 27 y 32.
Distribuciones de frecuencias relativas Recordamos que la frecuencia relativa simplemente es la proporción de la cantidad total de artículos que pertenece a una clase. Con n observaciones:
Frecuencia de clase Frecuencia relativa de clase n
Frecuencia porcentual Es la frecuencia relativa multiplicada por 100 Tiempo de auditoría (días) 10-14 15-19 20-24 25-29 30-34 Total
Frecuencia relativa 0.20 0.40 0.25 0.10 0.05 1.00
Frecuencia porcentual 20 40 25 10 5 100
Observe que 0.40, o 40% de las auditorías requirieron de 15 a 19 días. Sólo el 0.05 o 5%, requirió de 30 o más días. Hay otras interpretaciones que también se pueden obtener revisando la tabla.
Grรกfica de puntos Uno de los grรกficos mรกs sencillos para los datos es una grรกfica de puntos. Un eje horizontal muestra el intervalo de los valores para los datos. A continuaciรณn, el valor de cada dato se representa con un punto colocado sobre el eje.
Grífica de puntos
para los tiempos de auditoría
12
15
18
21 24 Tiempo de auditoría
27
30
33
En la gráfica: los tres puntos localizados arriba de 18 en el eje horizontal indican que hay tres observaciones con un valor de 18. Las gráficas de puntos muestran los detalles de los datos, y son útiles para comparar la distribución de los datos para dos o más variables.
Histogramas Otra representación gráfica común de datos cuantitativos es el histograma. Este resumen gráfico se puede preparar con datos que se han resumido anteriormente en una distribución de frecuencias, de frecuencias relativas o de frecuencias porcentuales. Un histograma se traza colocando la variable de interés sobre el eje horizontal y la frecuencia, la frecuencia relativa o la frecuencia porcentual en el eje vertical. Cada frecuencia de clase se representa trazando un rectángulo cuya base es el intervalo de clase sobre el eje horizontal, y cuya altura es la frecuencia correspondiente. Los rectángulos adyacentes de un histograma se tocan entre sí
Como los límites de clase de los datos de tiempo de auditoría se definieron como 10 a 14, 15 a 19, 20 a 24, 25 a 29 y de 30 a 34, parece haber intervalos de una unidad, de 14 a 15, de 19 a 20, de 24 a 25 y de 29 a 30 entre las clases. Esos espacios se eliminan trazando las líneas verticales del histograma a medio camino entre los límites de clase. Las líneas verticales que separan las clases en el histograma están en los valores 9.5, 14.5, 19.5, 24.5, 29.5 y 34.5. Este pequeño ajuste para eliminar los espacios entre las clases ayuda a mostrar que, aunque los datos están redondeados, son posibles todos los valores entre el límite inferior de la primera clase y el límite superior de la última.
Histograma del tiempo de auditorĂa de fin de aĂąo 9 8
8 7
Frequency
6 5
5 4
4 3
2
2
1
1 0
10
15
20
25 Tiempo
30
35
Distribuciones acumuladas Una variación de la distribución de frecuencias, que proporciona otro resumen tabular de datos cuantitativos, es la distribución de frecuencias acumuladas. En ella se usa el número de clases, anchos de clase y límites de clase que fueron definidos para la distribución de frecuencias. Sin embargo, más que mostrar la frecuencia de cada clase, la distribución de frecuencias acumuladas muestra la cantidad de elementos con valores menores que, o iguales al límite superior de clase para cada clase.
Las dos primeras columnas de la siguiente tabla, muestran la distribución de frecuencias acumuladas de los datos de tiempo de auditoría. Frecuencia relativa acumulada
Frecuencia porcentual acumulada
Tiempo de auditoría (días)
Frecuencia acumulada
Menor que o igual a 14
4
0.20
20
Menor que o igual a 19
12
0.60
60
Menor que o igual a 24
17
0.85
85
Menor que o igual a 29
19
0.95
95
Menor que o igual a 34
20
1.00
100
Se puede interpretar en la tabla, que se terminaron cuatro auditorías en 14 días o menos, y que 19 auditorías se terminaron en 29 días o menos
Ojiva Una grรกfica de una distribuciรณn acumulada se llama ojiva. Los valores de los datos estรกn en el eje horizontal y las frecuencias acumuladas, frecuencias relativas acumuladas o frecuencias porcentuales acumuladas se muestran en el eje vertical.
Ojiva de la distribución acumulada del tiempo de auditoría 20,0
Frecuencia acumulada
17,5 15,0 12,5 10,0 7,5 5,0 15
20
25 Tiempo (días)
30
35