UNIDAD 2. Organización y representación de los datos 2.1. PARA RECORDAR: Lenguaje de la estadística Población: Conjunto de individuos o elementos que son de interés para un estudio, a los cuales se les puede medir una característica u observar un atributo. Muestra: es un subconjunto de la población. Datos: son números o denominaciones que se pueden asignar a un individuo. Parámetro: Es una medida usada para describir alguna característica de una población. Estadístico: Medida usada para describir alguna característica de una muestra. Estadística descriptiva: Conjunto de técnicas utilizadas para organizar y describir en forma concisa la información recolectada, ya sea mediante tablas, gráficos o a través de unas cuantas medidas descriptivas de manera informativa. Estadística Inferencial: Conjunto de técnicas utilizadas para generalizaciones, predicciones, estimaciones sobre poblaciones a partir de muestras Inducción: Consiste en razonar desde los ejemplos específicos a los casos generales. Deducción: Consiste en razonar desde el caso general hasta los ejemplos específicos Inferencia: Es una generalización obtenida mediante una inducción
“L o s datos se obtienen a través de un proceso llamado medición, el cual asigna una categoría o un valor a una variable, para determinar su unidad de análisis “.
2.2. Tipos de datos El aspecto fundamental de la estadística es la información que se puede obtener de una situación; ahora bien, sin datos que recabar, organizar, analizar e interpretar, no habrá razón para usar o estudiar estadística. Para que dicha información sea útil en la toma de decisiones debe organizarse y mostrarse apropiadamente. Los datos pueden clasificarse de la siguiente manera:
Datos Cuantitativos: Se refieren a información numérica (Representan todo lo que se puede contar o medir)
Los datos discretos son los obtenidos de un proceso de conteo. Ejemplo: Número de personas en una playa el fin de semana, número de niño en una familia, cantidad de autos en un parqueadero etc.
Los datos continuos son los obtenidos de un proceso de medición. Ejemplo: El peso en kilogramos, la estatura en metros, el tiempo que tarda usted en desplazarse de un lugar a otro, etc.
NOTA: no confundir medir con contar
Datos Categóricos (cualitativos): Se refieren a categorías o atributos que pueden clasificarse de acuerdo a determinado criterio. Ejemplo: tipo de sangre de una persona, la marca favorita de un auto, el sexo etc.
NOTA: Algunos datos cualitativos son expresados como números, por ejemplo: los códigos de estudiantes, cédulas de ciudadanía y los grados de escolaridad; Por otro lado, algunos datos pueden representar los dos tipos, ejemplos de ellos son: La estatura y la calificación en una prueba.
RESÚMEN GRÁFICO
Imagen 1. Clasificación de los datos.
2.3. Escalas de medición Las escalas de medición indican que cálculos se pueden realizar para resumir y presentar los datos y qué pruebas estadísticas se pueden llevar a cabo. 1. Nominal. Se utilizan para datos categóricos (cualitativos), Las observaciones se pueden clasificar o contar, no existe un orden particular para las clases o categorías. Ejemplo: tipo de autos, género, empresas de servicio de agua, etc.
2. Ordinal. Son datos medidos en una escala nominal, pero ordenada de alguna manera. En esta escala la distancia o diferencia entre valores no tiene ningún significado. Ejemplo: clasificación por letra, clasificación por productos, grados de escuela, la numeración de las casas en una calle. 3. De intervalo. Son datos medidos en una escala ordinal, pero de tipo cuantitativo, la distancia entre valores tiene sentido. Esta escala no siempre tiene un punto cero que indique la ausencia de medida; Además no se pueden establecer razones entre dos valores. Ejemplo: Temperatura, puntaje en un parcial, etc. 4. De razón. Son datos medidos en una escala de intervalo, donde el punto cero indica la ausencia de medida. Se pueden establecer razones entre valores Ejemplo: Tiempo, peso, dinero, etc.
2.4. Tipos de tablas o distribuciones de frecuencia. El objetivo de la organización de datos es acomodar un conjunto de datos en forma útil para revelar sus características esenciales y simplificar ciertos análisis. Los datos que no están organizados se denominan datos no agrupados La frecuencia de una medida o de una categoría, es el número de veces que aparece en una colección de datos. El uso de frecuencia es más conveniente para datos cualitativos o discretos. Existen dos tipos generales de tablas para reportar datos usando frecuencias, éstas son: Tablas de frecuencia agrupadas y tablas de frecuencia no agrupadas Un pequeño resumen de clasificación sería:
No agrupadas (Datos cualitativos y cuantitativos discretos cuando el rango de valores no es muy amplio) Agrupadas (Cuantitativos continuos y discretos cuando el rango de valores es muy amplio) Acumuladas (Cuantitativos) Bivariadas (Cualitativos) 2.4.1. Tablas de frecuencias La distribución de frecuencias es un método utilizado para organizar y resumir datos. Bajo este método los datos que componen una serie se clasifican y ordenan, indicándose el número de veces que se repite. La FRECUENCIA ABSOLUTA de un dato, es el número de veces que se repite dicho dato en un conjunto dado.
Tabla de frecuencias no agrupadas Son aquellas donde se encuentran los datos y sus respectivas frecuencias, dichos datos se denominan no agrupados. Ejemplo A: La tabla de frecuencia para el conjunto de datos 3,6,3,12,12,12,3,6,12,9,3,12 es: Dato 3 Frecuencia 4
6 2
9 1
12 5
Tabla de frecuencias agrupadas. Son aquellas donde se encuentran los datos organizados por medio de clases, en las cuales se especifica su respectiva frecuencia. Ejemplo B: En la siguiente tabla de frecuencias se presenta la tabla de frecuencia de los pesos en Kilogramos de 20 estudiantes, escogidos al azar, de un colegio. Peso (Kg) Frecuencia 46,5 - 54,5 2 54,5 - 62,5 4 62,5 - 70,5 5 70,5 - 78,5 4 78,5 - 86,5 3 86,5 - 94,5 2 Elaboración de tablas de frecuencias agrupadas para datos discretos Es importante tener presente lo las siguientes convenciones para la elaboración de tablas.
fi
Fi hi Hi yi N
frecuencia absoluta frecuencia absoluta acumulada frecuencia relativa frecuencia relativa acumulada Valores que toma la variable número total de datos
Ejemplo C: Supongamos que se tiene una población constituida por 2000 cajas y deseamos examinarlas, con el fin de determinar el número de piezas defectuosas que contiene cada caja. Por diferentes razones, se desea que la investigación no sea exhaustiva; por tanto se selecciona una muestra de tamaño n 20 3 1 4 4
2 1 4 2
0 0 3
2 1 2
3 3 4
3 3 2
NOTA: Resolver ejemplo.
yi
fi
hi
Fi
Hi
0 1 2 3 4
Elaboración de tablas de frecuencias agrupadas para datos continuos. Para este caso se ampliará el cuadro de simbologías así: Es importante tener presente lo las siguientes convenciones para la elaboración de tablas fi Fi hi Hi Yi 1 Yi N m c
frecuencia absoluta frecuencia absoluta acumulada frecuencia relativa frecuencia relativa acumulada Valores que toma la variable continua en el número total de datos número de intervalos en la variable continua amplitud del intervalo
Para realizar la tabla de frecuencias para datos continuos es importante tener presente los siguientes 4 pasos: 1. Recorrido o rango.
xmáx xmín , es decir, 94 47 47
2. El valor m 1 3, 3log 20 5, 29 6 , tendremos entonces 6 intervalos para esta Distribución. (Fórmula de Sturges) 3.
Rango 47 , al reemplazar los respectivos valores se tiene que C 7, 83 . Esta 6 m cantidad siempre se aproxima por exceso; es decir, C 8. C
4. Como la unidad de medida es 1, entonces, se toma en punto medio de la unidad de medida para generar la primera frontera de clase y a partir de ahí se suma el rango. Lo anterior se realiza con el objetivo de que quede expresamente claro que el valor inferior del intervalo está incluido.
Ejemplo D: C onsideremos que se seleccionó una muestra de 20 trabajadores de una empresa fin de conocer su peso en kilos. 74 71 65 72
67 79 88 66
94 47 52
70 85 58
69 82 76
61 55 57
NOTA: Resolver ejemplo.
La tabla de frecuencias agrupada es: Yi '1 Yi'
fi
hi
Fi
Hi
Yi
46,5 - 54,5 54,5 - 62,5
70,5 - 78,5
86,5 - 94,5
2.5. Tipos de gráficas Una gráfica es una forma ilustrada de representar y resumir datos; a menudo, una representación de datos mediante ilustraciones hace más evidentes ciertas características que una tabla de frecuencia; Es común para nosotros toparnos con gráficas de pastel, de barras, lineal, ojiva, histograma etc. Sin embargo no son las únicas representaciones estadísticas de datos. A continuación se presentan un conjunto de representaciones estadísticas, es decir, de tipos de gráficas.
Diagrama de barras univariados y bivariados, circular (Datos cualitativos y cuantitativos discretos de tablas no agrupadas) Diagrama de puntos (Datos cuantitativos discretos de tablas no agrupadas) Histograma (Datos cuantitativos de tablas agrupadas y no agrupadas) Polígono (Datos cuantitativos de tablas agrupadas y no agrupadas) Ojiva (Datos cuantitativos de tablas acumuladas) Diagrama de tallo y hoja (Datos cuantitativos) Diagrama de Pareto (Datos cualitativos) Diagrama de cajas (Datos cuantitativos)
2.6. Ejemplos 2.6.1. Ejemplo 1 (Datos cualitativos). Se pidi贸 a un grupo de clientes de un banco clasificar la atenci贸n prestada como excelente (E), buena (B), regular (R) o mala (M), los resultados se muestran a continuaci贸n.
Imagen 2. Ejemplo tablas de frecuencia no agrupadas.
Construya una tabla de frecuencias no agrupadas. Soluci贸n: Tabla de frecuencias no agrupadas Ejemplo 1.
Imagen 3. Tabla de frecuencias no agrupadas.
Donde f: frecuencia absoluta, fr : frecuencia relativa, %: porcentaje. Diagrama de Barras Ejemplo 1 (Datos cualitativos).
Imagen 4. Diagrama de barras Ejemplo 1.
Diagrama Circular Ejemplo 1 (Datos cualitativos). Se considera que el número total de datos se distribuye de manera uniforme en un giro completo (360°); se determina qué ángulo ocupa cada categoría.
Imagen 5. Cálculo de valores para diagrama Circular Ejemplo 1.
Imagen 6. Diagrama Circular Ejemplo 1.
2.6.2. Ejemplo 2 (Datos cuantitativos discretos). Al final de un semestre, se contabilizó el número de fallas de un grupo de estudiantes en una asignatura, los resultados se muestran a continuación:
Imagen 7. Ejemplo 2 tablas de frecuencia no agrupadas.
Construya una tabla de frecuencias no agrupadas. Solución:
Tabla de frecuencias no agrupadas Ejemplo 2.
Imagen 8. Tabla de frecuencia no agrupada Ejemplo 2.
Diagrama de Puntos Ejemplo 2.
Imagen 9. Diagrama de puntos Ejemplo 2.
Diagrama de Barras Ejemplo 2
Imagen 10. Diagrama de Barras Ejemplo 2.
Histograma Ejemplo 2.
Imagen 11. Diagrama de Histograma Ejemplo 2.
Polígono de frecuencias o gráfico lineal Ejemplo 2.
Imagen 11. Polígono de frecuencias Ejemplo 2.
BIBLIOGRAFIA
LLINAS SOLANO, Humberto. Estadística Descriptiva. 1ª.ed. Barranquilla. Ediciones Uninorte, 2005. 408 p. ISBN: 958-825-208-3
MARTINEZ BENCARDINO, Ciro. Estadística y Muestreo. 12ª. Ed. Bogotá, D.C. Ediciones Ecoe, 2008. 1100p. ISBN 958-648-411-4
Walpole, Ronald E.; Raymond H. Myers; Sharon L. Myers y Keying Ye. 8ª. México. Pearson Educación, 2007. 840p. ISBN 978-970-26-0936-0
SOLUCIÓN EJEMPLOS. 1. Ejemplo: Supongamos que se tiene una población constituida por 2000 cajas y deseamos examinarlas, con el fin de determinar el número de piezas defectuosas que contiene cada caja. Por diferentes razones, se desea que la investigación no sea exhaustiva; por tanto se selecciona una muestra de tamaño n 20 3 1 4 4
2 1 4 2
0 0 3
2 1 2
3 3 4
3 3 2
2
hi 2/20= 0.1
Fi 2
0.1
1
3
3/20=0.15
5
0.25
2
5
5/20=0.25
10
0.5
3
6
6/20=0.3
16
0.8
4
4
4/20=0.2
20
1
n= 20
hi = fi/n
yi
fi
0
Hi
Hi = Fi/n
2. Ejemplo: C onsideremos que se seleccionó una muestra de 20 trabajadores de una empresa fin de conocer su peso en kilos. 74 67 94 70 69 61 71 79 47 85 82 55 65 88 52 58 76 57 72 66 Para realizar la tabla de frecuencias para datos continuos es importante tener presente los 4 pasos mencionados en el contenido. . ' Y' Yi 1 i 46,5 - 54,5
fi 2
hi 2/20=0.1
Fi 2
0.1
Yi 47, 52.
54,5 - 62,5
4
4/20=0.2
6
0.3
55, 57, 58, 61.
62,5 - 70,5
5
6/20=0.25
11
0.55
65,66,67,70,69.
70,5 - 78,5
4
4/20=0.2
15
0.75
74, 71, 72, 76.
78,5 - 86,5
4
4/20=0.2
19
0.95
79, 88, 85, 76, 82.
86,5 - 94,5
1
1/20=0.05
20
1
94.
20
hi = fi/n
Hi
Hi = Fi/n