Tablas y grรกficas de frecuencias STA 2000
Tablas de frecuencias
• En el módulo anterior presentamos algunas técnicas básicas para describir conjuntos de datos, tanto muestras como poblaciones. Una vez que se hayan recolectado los datos, queremos presentarlos en una forma clara, entendible y fácil de leer. • Cuando trabajamos con grandes conjuntos de datos, a menudo es útil organizarlos y resumirlos al construir una tabla llamada distribución de frecuencias. Esta tabla nos ayuda a entender la naturaleza del conjunto de datos.
• La tabla de distribución de frecuencias contiene una serie de columnas.
• Depende de la información que necesite el investigador o creador de la tabla, es la cantidad de columnas que debe establecer. • Podemos entonces definir la tabla de distribución de frecuencias como una tabla que lista valores de los datos (ya sea de manera individual o por grupos de intervalos), junto con sus frecuencias (o conteos) correspondientes. (Mendenhall, 2015)
โ ข Las distribuciones de frecuencias se construyen por las siguientes razones: 1) Es posible resumir conjuntos grandes de datos. 2) Se logra cierta comprensiรณn sobre la naturaleza de los datos. 3) Se tiene una base para construir grรกficas importantes (como los histogramas, que se estudiarรกn en este mรณdulo).
โ ข Veamos una tabla de distribuciรณn de frecuencias lo mรกs completa posible.
¿Estás preparado(a) para realizar esta tabla? Fronteras
Límites
Marca clase
Frecuencia
Frecuencia acumulada
Frecuencia relativa
Frecuencia porcentual
Frecuencia acumulada relativa
Frecuencia acumulada porcentual
31.5-37.5
32 - 37
34.5
3
3
0.12
12%
0.12
12%
37.5-43.5
38 - 43
40.5
4
7
0.16
16%
0.28
28%
43.5-49.5
44 - 49
46.5
8
15
0.32
32%
0.60
60%
49.5-55.5
50 - 55
52.5
6
21
0.24
24%
0.84
84%
55.5 -61.5
56 - 61
58.5
4
25
0.16
16%
1
100%
1
100%
Total
25
VEAMOS los pasos para prepararla…
• Lo primero es tener los datos para realizar la tabla de distribución de frecuencias. • Para realizar esta tabla usaremos los datos que corresponden a las edades de un grupo de personas que visitaron el Departamento de Hacienda el pasado lunes: 32, 48, 54, 56, 39, 49, 46, 41, 55, 60, 44, 48, 51, 56, 42, 49, 49, 52, 55, 59, 37, 35, 43, 44, 54 • Si cuentas los datos, tenemos 25, por lo tanto, N=25.
• Una vez tienes los datos, entonces debes seguir los siguientes pasos: 1) Se determina el Rango o Recorrido (R) a) Se determina restando el dato mayor(valor máximo) y el dato menor (valor mínimo). En ese caso R = 60 – 32 = 28
32, 48, 54, 56, 39, 49, 46, 41, 55, 60, 44, 48, 51, 56, 42, 49, 49, 52, 55, 59, 37, 35, 43, 44, 54
2) Se determina el número de las clases (K) a) Hay varias formas de encontrar este valor como por ejemplo la Regla de Sturges pero, hay que trabajar con logaritmos y quizás muchos de ustedes no conocen este concepto. Por lo tanto, vamos a usar un método sencillo para hallar K.
b) Para hallar K, de forma sencilla, se le extrae la raíz cuadrada al total de los datos (N) y ese valor si da un número decimal, se lleva al próximo entero. En este caso del ejemplo, 25 = 5. Por lo tanto, voy a tener en mi tabla 5 clases. (En otro caso, si tienes 40 = 6.32 = 6). c) Se recomienda que el valor de K, no sea ni menor de 5 ni mayor de 15. d) En muchas ocasiones para realizar una tabla de distribución de frecuencias ya nos van a ofrecer el número de clases (K) y no hay que determinarlo (valor dado).
3) Se determina la anchura (tamaĂąo) de clase (A) Anchura de la clase =
đ??ˇđ?‘Žđ?‘Ąđ?‘œ đ?‘šđ?‘Žđ?‘Śđ?‘œđ?‘&#x;−đ??ˇđ?‘Žđ?‘Ąđ?‘œ đ?‘šđ?‘’đ?‘›đ?‘œđ?‘&#x; đ?‘ Ăşđ?‘šđ?‘’đ?‘&#x;đ?‘œ đ?‘?đ?‘™đ?‘Žđ?‘ đ?‘’đ?‘
=
60−32 5
=
28 5
Observe que 5.6 se lleva al próximo entero. • En resumen, para este ejercicio, tenemos: N = 25(total de datos) R = 28 (rango) K = 5 (número de clases) A = 6 (anchura o tamaùo de clases)
= 5.6 = 6
• Comencemos a construir la tabla de distribución de frecuencias de los datos anteriores (edades de las personas que visitaron el Departamento de Hacienda).
Primero establezco los límites comenzando con el dato menor que es 32. Voy de 32 a 37porque A = 6, la anchura o el tamaño de la clase es de 6. Hay 6 valores entre 32 – 37 que son : 32, 33, 34, 35, 36, 37. Fronteras
Límites
32 - 37
K = 5, tengo 5 clases.
38 - 43 44 - 49 50 - 55 56 - 61
Marca clase
Frecuencia
Frecuencia acumulada
Frecuencia relativa
Frecuencia porcentual
Frecuencia acumulada relativa
Frecuencia acumulada porcentual
Luego, de los límites, estableces las fronteras: para hallar la frontera inferior, le restas 0.5 al límite inferior y para hallar la frontera superior, le sumas 0.5 al límite superior. Fronteras
Límites
31.5-37.5
32 - 37
37.5-43.5
38 - 43
43.5-49.5
44 - 49
49.5-55.5
50 - 55
55.5 -61.5
56 - 61
Marca clase
Frecuencia
Frecuencia acumulada
Frecuencia relativa
Frecuencia porcentual
Frecuencia acumulada relativa
Frecuencia acumulada porcentual
Para determinar la marca de clase o punto medio se suman los dos lĂmites(inferior y superior) o las dos fronteras y se divide entre 2. Fronteras
LĂmites
Marca clase
31.5-37.5
32 - 37
34.5
37.5-43.5
38 - 43
40.5
43.5-49.5
44 - 49
46.5
49.5-55.5
50 - 55
52.5
55.5 -61.5
56 - 61
58.5
Total
Frecuencia
Frecuencia acumulada
Frecuencia relativa
Frecuencia porcentual
Frecuencia acumulada relativa
Frecuencia acumulada porcentual
La frecuencia se determina contando cuántos datos hay en cada clase. Por ejemplo: en la primera clase hay 3 datos que caen en los valores entre 32 – 37. Fronteras
Límites
Marca clase
Frecuencia
31.5-37.5
32 - 37
34.5
3
37.5-43.5
38 - 43
40.5
4
43.5-49.5
44 - 49
46.5
8
49.5-55.5
50 - 55
52.5
6
55.5 -61.5
56 - 61
58.5
4
Total
Frecuencia acumulada
Frecuencia relativa
Frecuencia porcentual
Frecuencia acumulada relativa
Frecuencia acumulada porcentual
25 32, 48, 54, 56, 39, 49, 46, 41, 55, 60, 44, 48, En rojo están marcados los 3 51, 56, 42, 49, 49, 52, 55, 59, 37, 35, 43, 44, 54 valores que caen en la primera
clase que va de 32 – 37.
La primera frecuencia acumulada es la misma que la primera frecuencia. Luego, se suma la frecuencia de la primera clase con la frecuencia de la segunda clase para obtener la frecuencia acumulada de la segunda clase y asĂ sucesivamente vas acumulando los valores hasta llegar a la Ăşltima frecuencia acumulada que es igual al total de datos (N= 25). Fronteras
LĂmites
Marca clase
Frecuencia
Frecuencia acumulada
31.5-37.5
32 - 37
34.5
3
3
37.5-43.5
38 - 43
40.5
4
7
43.5-49.5
44 - 49
46.5
8
15
49.5-55.5
50 - 55
52.5
6
21
55.5 -61.5
56 - 61
58.5
4
25
Total
25
Frecuencia relativa
Frecuencia porcentual
Frecuencia acumulada relativa
Frecuencia acumulada porcentual
Se divide la frecuencia entre el total de datos. Por ejemplo la primera es 3 á 25 = 0.12 Fronteras
LĂmites
Marca clase
Frecuencia
Frecuencia acumulada
Frecuencia relativa
31.5-37.5
32 - 37
34.5
3
3
0.12
37.5-43.5
38 - 43
40.5
4
7
0.16
43.5-49.5
44 - 49
46.5
8
15
0.32
49.5-55.5
50 - 55
52.5
6
21
0.24
55.5 -61.5
56 - 61
58.5
4
25
0.16
Total
25
1
Frecuencia porcentual
Frecuencia acumulada relativa
Frecuencia acumulada porcentual
Se cambia la frecuencia relativa a porciento, multiplicando por 100. La primera es 0.12 x 100 = 12%. Fronteras
LĂmites
Marca clase
Frecuencia
Frecuencia acumulada
Frecuencia relativa
Frecuencia porcentual
31.5-37.5
32 - 37
34.5
3
3
0.12
12%
37.5-43.5
38 - 43
40.5
4
7
0.16
16%
43.5-49.5
44 - 49
46.5
8
15
0.32
32%
49.5-55.5
50 - 55
52.5
6
21
0.24
24%
55.5 -61.5
56 - 61
58.5
4
25
0.16
16%
1
100%
Total
25
Frecuencia acumulada relativa
Frecuencia acumulada porcentual
Se divide la frecuencia acumulada entre el total de datos. Fronteras
LĂmites
Marca clase
Frecuencia
Frecuencia acumulada
Frecuencia relativa
Frecuencia porcentual
Frecuencia acumulada relativa
31.5-37.5
32 - 37
34.5
3
3
0.12
12%
0.12
37.5-43.5
38 - 43
40.5
4
7
0.16
16%
0.28
43.5-49.5
44 - 49
46.5
8
15
0.32
32%
0.60
49.5-55.5
50 - 55
52.5
6
21
0.24
24%
0.84
55.5 -61.5
56 - 61
58.5
4
25
0.16
16%
1
1
100%
Total
25
Frecuencia acumulada porcentual
Se cambia la frecuencia acumulada relativa a porciento, multiplicando por 100. Fronteras
LĂmites
Marca clase
Frecuencia
Frecuencia acumulada
Frecuencia relativa
Frecuencia porcentual
Frecuencia acumulada relativa
Frecuencia acumulada porcentual
31.5-37.5
32 - 37
34.5
3
3
0.12
12%
0.12
12%
37.5-43.5
38 - 43
40.5
4
7
0.16
16%
0.28
28%
43.5-49.5
44 - 49
46.5
8
15
0.32
32%
0.60
60%
49.5-55.5
50 - 55
52.5
6
21
0.24
24%
0.84
84%
55.5 -61.5
56 - 61
58.5
4
25
0.16
16%
1
100%
1
100%
Total
25
Fronteras
LĂmites
Marca clase
Frecuencia
Frecuencia acumulada
Frecuencia relativa
Frecuencia porcentual
Frecuencia acumulada relativa
Frecuencia acumulada porcentual
31.5-37.5
32 - 37
34.5
3
3
0.12
12%
0.12
12%
37.5-43.5
38 - 43
40.5
4
7
0.16
16%
0.28
28%
43.5-49.5
44 - 49
46.5
8
15
0.32
32%
0.60
60%
49.5-55.5
50 - 55
52.5
6
21
0.24
24%
0.84
84%
55.5 -61.5
56 - 61
58.5
4
25
0.16
16%
1
100%
1
100%
Total
25
Se suman siempre esas tres columnas.
Fronteras
Límites
Marca clase
Frecuencia
Frecuencia acumulada
Frecuencia relativa
Frecuencia porcentual
Frecuenci a acumulada relativa
Frecuencia acumulada porcentual
31.5-37.5
32 - 37
34.5
3
3
0.12
12%
0.12
12%
37.5-43.5
38 - 43
40.5
4
7
0.16
16%
0.28
28%
43.5-49.5
44 - 49
46.5
8
15
0.32
32%
0.60
60%
49.5-55.5
50 - 55
52.5
6
21
0.24
24%
0.84
84%
55.5 -61.5
56 - 61
58.5
4
25
0.16
16%
1
100%
1
100%
Total
25
Completadala tabla, puedes hacer muchas conclusiones de los datos presentados en ella. Por ejemplo, conteste: 1)¿Cuántas personas hay entre 44 y 49 años? 8 personas 2)¿Cuántas personas hay hasta 55 años? 21 personas 3)Porciento personas entre 38 y 43 años. 16%
Grรกficas de frecuencias
• Una vez terminas la tabla de distribución de frecuencias, puedes realizar el histograma ya que esa gráfica es, básicamente, una versión gráfica de dicha tabla.
• Un histograma es una gráfica de barras unidas donde la escala horizontal representa clases de valores de datos y la escala vertical representa frecuencias. Las alturas de las barras corresponden a los valores de frecuencia.
• En la escala horizontal se marca cada barra del histograma con su frontera de clase inferior a la izquierda, y su frontera de clase superior a la derecha. • En vez de utilizar las fronteras de clase a lo largo del eje horizontal, a menudo es más práctico el uso de los valores de la marca de clase en el centro de las barras correspondientes. El uso de los valores de la marca de clase es muy común en los programas de cómputo que generan histogramas de manera automática.
• Un histograma tiene esta forma y para realizarla en Excel debes consultar el libro de texto.
• Hay otras gráficas que se usan en estadística tanto para datos categóricos (cualitativos) como para datos cuantitativos. • Para variables o datos categóricos: • Gráfica de barras - muestra la misma distribución de medidas en las categorías; la altura de la barra mide la frecuencia observada de una categoría en particular. • Gráfica circular o de pastel - muestra la forma en que están distribuidas las medidas entre las categorías.
• Aquí un ejemplo de las gráficas mencionadas pero, el proceso para construirlas, debes ver el libro de texto.
Barras
Circular
• Para variables o datos cuantitativos: • PolĂgono de frecuencia - utiliza segmentos lineales conectados a puntos que se localizan directamente por encima de los valores de las marcas de clase.
• Otras gráficas • Pareto - es una gráfica de barras para datos cualitativos, donde las barras se ordenan de acuerdo con las frecuencias. La barra más alta se coloca a la izquierda y las más pequeñas a la derecha. Al ordenar las barras por frecuencias, esta gráfica enfoca la atención en las categorías más importantes.
• Otras gråficas • De puntos - es aquella donde se marca cada valor de un dato como un punto a lo largo de una escala de valores. Los puntos que representan valores iguales se apilan o juntan.
• Otras gráficas • De tallo y hoja - representa datos que separan cada valor en dos partes: el tallo (el dígito ubicado en el extremo izquierdo) y la hoja (el dígito del extremo derecho).
• Otras gráficas • Pictóricas – utilizan imágenes para ofrecer una visión general más atractiva de pequeños conjuntos de datos discretos. Por lo general, las imágenes representan el tema de los datos o categoría