ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA DESCRIPTIVA • Los orígenes de la estadística, aunque no se sabe con exactitud cuándo se comenzó a utilizar, pueden estar ligados al antiguo Egipto como a los censos chinos que se realizaron hace unos 4.000 años, aproximadamente. • Sin duda, fueron los romanos, romanos maestros de la organización política, quienes mejor supieron ocupar la estadística. Cada cinco años realizaban un censo de la población, cuyos datos de nacimientos, defunciones y matrimonios eran esenciales para estudiar los avances del imperio; sin olvidar los recuentos de ganancias y las riquezas que dejaban las tierras.
ESTADÍSTICA DESCRIPTIVA • Para poder comprender mejor este tipo de estudio es importante que conozcas los siguientes términos básicos: Población: Es un conjunto de personas, eventos o cosas de las cuales se desea hacer un estudio, y tienen una característica en común.
ESTADÍSTICA DESCRIPTIVA Muestra: Es un subconjunto cualquiera de la población; es importante escoger la muestra en forma aleatoria (al azar), pues así se logra que sea representativa y se puedan obtener conclusiones más a fines acerca de las características de la población.
ESTADĂ?STICA DESCRIPTIVA Todo estudio estadĂstico debe considerar diferentes tipos de variables:
Variables
Variables cualitativas Variables Cuantitativas
ESTADÍSTICA DESCRIPTIVA Variables cualitativas: Relacionadas con características no numéricas de un individuo (por ejemplo: atributos de una persona, nacionalidad, color de la piel, sexo).
ESTADÍSTICA DESCRIPTIVA Variables Cuantitativas: Relacionadas con características numéricas del individuo por ejemplo: edad, precio de un producto, ingresos anuales. Las variables cuantitativas se dividen en discretas (aquellas que pueden tomar solo algunos valores en un intervalo y no valores intermedio, ejemplo: edad, número de hermanos que puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podrá ser 3,45) o continuas (aquellas que pueden tomar cualquier valor en un intervalo real, ejemplo: alturas, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.).
Estadística Descriptiva: Es la parte de la estadística que trata solamente de describir y analizar un grupo dado sin sacar conclusiones o inferencias de un grupo mayor, a partir de ella. La estadística descriptiva incluye las técnicas que se relacionan con el resumen y la descripción de datos numéricos. Estos datos pueden ser gráficos o pueden incluir análisis computacional. Estadística Inferencial: Cuando una muestra es representativa de una población se pueden deducir importantes conclusiones acerca de esta, a partir de su análisis. La inferencia estadística comprende aquellas técnicas por medio de las cuales se toma decisiones sobre una población estadística basadas solo en la muestra observada. Debido a que dichas decisiones se toman en condiciones de incertidumbre, entonces estas serán confiables con cierto grado de probabilidad. Considerando que las características medidas de una muestra se denominan estadísticas de la muestra, las características medidas de una población estadística, o universo se llaman parámetros de la población.
ESTADÍSTICA DESCRIPTIVA Ordenando la Información Al ordenar datos muy numerosos, es usual agruparlos en clases o categorías. Al determinar cuántos pertenecen a cada clase, establecemos la frecuencia. Construimos así una tabla de datos llamada tabla de frecuencias.
ESTADÍSTICA DESCRIPTIVA ¿Para qué se construyen las tablas de frecuencias ? 1.
ORDENAR
2. AGRUPAR 3. RESUMIR información
ESTADÍSTICA DESCRIPTIVA El formato general de una tabla estadística , llamada también TABLA DE FRECUENCIAS O TABLA DE DISTRIBUCIÓN DE FRECUENCIAS es la siguiente:
Nombre de la variable
Frecuencia
Categorías o Recorrido de la variable
Frecuencias Observadas
TOTAL
n
ESTADÍSTICA DESCRIPTIVA En la siguiente tabla se presenta el motivo de la consulta médica, durante una semana. Motivo Consulta
Número de pacientes
Bronquitis
19
Otitis
13
Heridas
7
Fracturas
18
Vacunas
20
ESTADÍSTICA DESCRIPTIVA TIPOS DE FRECUENCIAS a) Frecuencia o Frecuencia Absoluta: Es el número de veces que se presenta un valor o categoría de una variable. Se representa por fi. b) Frecuencia Relativa: La frecuencia relativa se puede expresar
en términos de porcentaje o de proporción y se representa por fr. (Es la razón entre la frecuencia absoluta y el total de datos)
ESTADÍSTICA DESCRIPTIVA Los siguientes datos corresponden a las notas obtenidas por un curso de 24 alumnos en un trabajo de matemáticas: 3,2 4,2 5,0 3,9 3,2 6,0
5,6 3,9 4,2
6,0 3,2 5,0
2,8 3,2 5,6
3,9 4,2 5,0
4,2 5,6
4,2 6,0
5,0 6,0
Ordenemos estos datos en una tabla: Anota en tu cuaderno una tabla de frecuencias que considere • Nombre de variable: Notas • Frecuencia Absoluta • Frecuencia relativa (ambas) Si tu resultado es un decimal, usa 3 dígitos después de la coma
ESTADĂ?STICA DESCRIPTIVA Nota
2,8 3,2 3,9 4,2 5,0 5,6 6,0
Frecuencia Absoluta
Frecuencia Relativa
Frecuencia Relativa Porcentual (%)
ESTADÍSTICA DESCRIPTIVA Nota
Frecuencia Absoluta
Frecuencia Relativa
Frecuencia Relativa Porcentual (%)
2,8
1
0,041
4,166
3,2
4
0,166
16,666
3,9
3
0,125
12,500
4,2
5
0,208
20,833
5,0
4
0,166
16,666
5,6
3
0,125
12,500
6,0
4
0,166
16,666
¿Qué conclusiones puedes obtener de la tabla anterior?
ESTADÍSTICA DESCRIPTIVA Hasta el momento sólo hemos trabajado con una pequeña cantidad de datos. ¿Qué crees que deberíamos hacer si tenemos muchos datos? Tabla de Frecuencias de datos agrupados (tambien llamadas tabla de frecuencias con clase) En ocasiones, el agrupar los datos en intervalos, intervalos nos puede ayudar para realizar un mejor análisis de ellos.
ESTADÍSTICA DESCRIPTIVA Definiciones: •Rango: Diferencia entre el máximo y el mínimo valor de una variable. •Marca de clase: Representante de un intervalo, y corresponde al promedio entre los extremos de éste. •Tamaño de un intervalo: Es el cuociente entre el valor del rango y la cantidad de intervalos que se desea obtener. Se recomienda tomar como longitud de los intervalos un valor entero que sea mayor o igual al cuociente obtenido.
ESTADÍSTICA DESCRIPTIVA Para estas tablas debemos considerar cada intervalo con límites cerrado y abierto, o sea [ [ La tabla siguiente la vamos a elaborar con: frecuencias absolutas: estas frecuencias son las que se obtienen directamente del conteo frecuencias relativas: corresponden a los porcentajes de cada frecuencia absoluta. frecuencia absoluta acumulada: corresponde a la frecuencia absoluta del intervalo más la suma de las frecuencias absolutas de todos los valores anteriores. frecuencia relativa acumulada: corresponde al porcentaje de la frecuencia relativa del intervalo más la suma de las frecuencias relativas de todos los valores anteriores.
Nivel de colesterol en la sangre de una muestra de hombres estadounidenses que tienen entre 25 y 34 años de edad , que fueron atendidos en centros médicos de New York y sufren de hipertensión arterial , en el año 2001
Nivel de Colesterol (mg/100 ml)
Cantidad de hombres
80-120
13
120-160
15
160-200
44
200-240
29
240-280
9
¿Cuál es la variable de interés?
¿Qué se mide?
Observa: El rango de cada intervalo es de 40.
ESTADÍSTICA DESCRIPTIVA Ejemplo: Consideremos los siguientes datos, expresados en metros, correspondientes a las estaturas de 80 estudiantes de Cuarto año de Educación Media. 1,67 1,72 1,81 1,72 1,74 1,83 1,84 1,88 1,75 1,84 1,86 1,73 1,84 1,87 1,83 1,81 1,73 1,75 1,78 1,77 1,67 1,83 1,83 1,72 1,85 1,84 1,93 1,82 1,69 1,70 1,81 1,66 1,75 1,80 1,79 1,84 1,86 1,80 1,77 1,80 1,88 1,75 1,79 1,87 1,79 1,77 1,67 1,74 1,78 1,77 1,74 1,73 1,83 1,76 1,83 1,77 1,77 1,77 1,84 1,83 1,79 1,82 1,76 1,76 1,79 1,88 1,66 1,80 1,72 1,75 1,79 1,77
1,92 1,77 1,71 1,76 1,76 1,75 1,75 1,76
ESTADÍSTICA DESCRIPTIVA Estatura Mayor: 1,93 metros Estatura Menor: 1,66 metros Rango: 1,93 metros - 1,66 metros = 0,27 metros = 27 cm. Formaremos 6 intervalos. Para calcular el tamaño de intervalo de cada uno dividimos 27 y 6, obteniendo finalmente 4,5 ≈ 5 Luego los intervalos de la tabla son: Intervalo 1,65 – 1,69 1,70 – 1,74 1,75 – 1,79 1,80 – 1,84 1,85 – 1,89 1,90 – 1,94
Marca de Clase
Frecuencia Absoluta
ESTADÍSTICA DESCRIPTIVA Representaciones Gráficas Para hacer más clara y evidente la información que nos dan las tablas se utilizan los gráficos. Existen múltiples tipos de gráficos, pero aquí trataremos solamente de los usados más frecuentemente, que son: gráfico de barras, gráfico de sectores o circular (pastel), histograma, polígono de frecuencias, la ojiva y el pictograma.
Gráficos estadísticos
GRÁFICOS
La información contenida en las tablas de frecuencias resulta más accesible y fácil de interpretar si se representan por medio de gráficos estadísticos. Diagrama de barras Se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o cuantitativa discreta y, ocasionalmente, en la representación de series cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o relativas (%), y el otro para la escala de clasificación utilizada.
GRÁFICOS Histograma
Está formado por rectángulos, cuyas bases corresponden con los intervalos de clase y sus Áreas son iguales o proporcionales a sus frecuencias. Este gráfico se usa para representar una distribución de frecuencias de una variable cuantitativa continua. Habitualmente se representa la frecuencia observada en el eje Y, y en el eje X la variable
GRÁFICOS Polígono de frecuencias Es una línea poligonal que une los vértices superiores de las barras de un diagrama de barras, o los puntos medios de las bases superiores de los rectángulos de un histograma. Se utiliza, al igual que el histograma, para representar distribuciones de frecuencias de variables cuantitativas continuas, pero como no se utilizan barras en su confección sino segmentos de recta, de ahí el nombre de polígono. Habitualmente se usa cuando se quiere mostrar en el mismo gráfico más de una distribución.
GRÁFICOS Diagrama de sectores o gráfico circular Gráfico circular: Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de tres).
GRÁFICOS Pictogramas Los pictogramas son gráficos similares a los gráficos de barras, pero empleando un dibujo en una determinada escala para expresar la unidad de medida de los datos. Se utiliza un dibujo relacionado con el tema, para representar cierta cantidad de frecuencias. Este tipo de gráfica atrae la atención por los dibujos, pero la desventaja es que se lee en forma aproximada.
Gráfico de líneas u ojiva En este tipo de gráfico, al igual que el histograma y el polígono de frecuencias el objetivo es representar distribuciones de frecuencias de variables cuantitativas continuas, pero sólo para frecuencias acumuladas. se representan los valores de los datos en dos ejes cartesianos ortogonales entre sí. Se pueden usar para representar: una serie o más series
ESTADร STICA DESCRIPTIVA Ejercicios: 1)Construya una tabla de frecuencia de los siguientes grรกficos.
ESTADÍSTICA DESCRIPTIVA Días
N° Artículos
Frecuencia Relativa
Frecuencia relativa porcentual
Lunes
3
0,129
12,9
Martes
5,2
0,224
22,4
Miércoles
4,8
0,206
20,6
Jueves
6
0,258
25,8
Viernes
4,2
0,181
18,1
Total
23,2
0,998
99,8
ESTADĂ?STICA DESCRIPTIVA Edad
Frecuencia Absoluta
20-24
6
24-28
5
28-32
3
32-36
2
Total
16
Frecuencia Relativa
Frecuencia Relativa %
MEDIDAS DE RESUMEN Entre las medidas que permiten resumir informaci贸n proveniente de una poblaci贸n, podemos considerar las medidas de posici贸n, medidas de dispersi贸n y medidas de forma.
Medidas de Posición Tienen por objeto, obtener un valor que resuma en sí todas las mediciones. La mayoría de ellas trata de ubicar el centro de la distribución, razón por la cual, se llaman MEDIDAS DE TENDENCIA CENTRAL; estas son: Media, Mediana y Moda.
MEDIDAS DE TENDENCIA CENTRAL
Media aritmĂŠtica o promedio: Es una de las medidas de tendencia central de mayor uso. La media muestral se simboliza por X y la media poblacional de denota por Âľ.
PROMEDIO PARA DATOS NO TABULADOS
Sea X una variable cuantitativa y x1, x2,…, xn una muestra de tamaño "n" de valores de la variable, se define la media aritmética de X como:
X=
n
x ∑
x1 + x2 + x3 + ..... + xn
X =
n
i= 1
n
PROMEDIO PARA DATOS TABULADOS Para calcular la media aritmética de un conjunto de datos, se suma cada uno de los valores y se divide entre el total de casos. Sea X una variable estadística que toma los valores , con frecuencias absolutas , respectivamente, la media viene dada por: n
x1 f 1 + x 2 f 2 + ... + x n f n x= = f 1 + f 2 + ... + f n
∑x
i
⋅ fi
i =1
n
∑f i =1
i
i
Ejemplo N°1 Consideremos la edad en años de ocho personas 10
18
25
32
12
5
7
7
En este ejemplo el promedio , media o media aritmética de la edad de estas personas está dada por:
10 + 18 + 25 + 32 + 12 + 5 + 7 + 7 x= 8 Es decir la edad promedio de estas personas es de 14,5 años.
Mediana (Me) Sea X una variable por lo menos ordinal y sea x1, x2,…xn una muestra de tamaño n de observaciones de la variable, se define como Mediana "Me" un valor tal que supera a no más del 50% de las observaciones y es superado por no más del 50% de las observaciones, cuando estas han sido ordenadas según magnitud. MEDIANA PARA DATOS NO TABULADOS Ejemplo: Consideremos la edad en años de ocho personas 10
18
25
32
12
5
7
7
Para calcular la mediana , previamente se deben ordenar las observaciones. En este caso lo haremos en forma creciente:
5
7
7
10
12
18
25
32
Como la cantidad de datos es par, entonces la mediana corresponde al promedio de los datos centrales, por lo tanto la mediana es 11.
MEDIANA PARA DATOS TABULADOS
En casos de datos agrupado es un poco más complejo y requiere de la utilización de la siguiente fórmula
Li =
N − Fi −1 M = Li + c ⋅ 2 fi
límite inferior de la clase mediana c = amplitud del intervalo N = número total de datos Fi −1 = frecuencia absoluta acumulada de la clase anterior a la mediana f i = frecuencia absoluta de la clase mediana
Moda o Modo (Mo) para datos no tabulados La moda se identifica al observar el valor que se presenta con más frecuencia en la distribución. Si consideramos el ejemplo del peso de una muestra de personas: 65 76 48 48 68 78 90 87 67 72 78 Mo = 48 kilos Mo = 78 kilos. Esto significa que la mayoría de estas personas pesa 48 kilos y 78 kilos. Esta distribución es bimodal. Moda o Modo (Mo) para datos tabulados Ahora bien, en el caso de datos agrupados en intervalos, es fácil determinar la clase modal (clase con mayor frecuencia), pero el valor dentro del intervalo que se presume tenga mayor frecuencia se obtiene a partir de la siguiente expresión: límite inferior de la clase modal. amplitud de los intervalos. diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase anterior. diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase siguiente.
Cuantiles La mediana divide a la distribución en dos partes iguales, los cuantiles son parámetros que dividen los datos de la distribución en partes iguales. Los más usados son: Cuartiles: Se llaman cuartiles a tres valores que dividen a la serie de datos en cuatro partes iguales. ( cuartil primero, cuartil segundo y cuartil tercero ) Quintiles: Se llaman quintiles a cuatro valores que dividen a la serie en cinco partes iguales. ( quintil primero,... ) Deciles: Nueve valores iguales que dividen la distribución en 10 partes iguales. ( decil primero,...) Percentiles: Noventa y nueve valores que dividen la serie en 100 partes iguales. ( percentil primero,... ) El cálculo es análogo al de la mediana.