TEMA 11: ESTADÍSTICA
1
INTRODUCCIÓN Objetivo: La estadística tiene por objeto el desarrollo de técnicas para el conocimiento numérico de un conjunto de datos empíricos (recogidos mediante experimentos o encuestas). Población: Es el conjunto de todos los elementos cuyo conocimiento nos interesa y serán objeto de nuestro estudio. Muestra: Es un subconjunto, extraído de la población, cuyo estudio sirve para inferir características de toda la población. Individuo: Es cada uno de los elementos que forman la población o la muestra. Caracteres y variables: Caracteres son los aspectos que deseamos estudiar en los individuos de una población. Cada carácter puede tomar distintos valores o modalidades. Una variable estadística recorre todos los valores de un cierto carácter. Clasificación de las variables estadísticas: · Cualitativas: No toman valores numéricos · Cuantitativas discretas: Toman valores numéricos aislados · Cuantitativas continuas: Pueden tomar todos los valores de un intervalo.
DOS RAMAS DE LA ESTADÍSTICA · La estadística descriptiva: Trata de “describir” y analizar algunos caracteres de los individuos de un grupo dado, sin extraer conclusiones para un grupo mayor. Para este estudio, se siguen estos pasos: - Selección de caracteres que interese estudiar. - Análisis de cada carácter: diseño de la encuesta o del experimento y recogida de datos. - Clasificación y organización de los resultados en tablas de frecuencias. - Elaboración de gráficos, si conviene, para divulgarlos a un público amplio (no experto). - Obtención de parámetros: valores numéricos que resumen la información obtenida.
· La estadística inferencial: Trabaja con muestras y pretende, a partir de ellas, “inferir” características de toda la población. Es decir, se pretende tomar como generales propiedades que solo se han verificado para casos particulares. En ese proceso hay que operar con mucha cautela: ¿Cómo se elige la muestra?, ¿Qué grado de confianza se puede tener en el resultado obtenido?
2
ESTADÍSTICA DESCRIPTIVA TABLAS DE FRECUENCIAS Las tablas de frecuencias sirven para ordenar y organizar los datos estadísticos. Con ellas, una masa amorfa de datos pasa a ser una colección ordenada y perfectamente inteligible. Con los datos se construye la tabla de frecuencias: - En la primera columna, la variable xi, con todos sus posibles valores - En la segunda columna, la correspondiente frecuencia, ni: número de veces que aparece cada valor.
FRECUENCIAS RELATIVAS Cuando se desea comparar varias distribuciones similares con distinto número de elementos, se debe recurrir a las frecuencias relativas.Si N es el número de individuos:
FRECUENCIAS ACUMULADAS En una distribución de frecuencias, se llama frecuencia acumulada, Ni, correspondiente al valor iésimo, xi, a la suma de la frecuencia de ese valor con todas las anteriores: Ni = n1 + n2 + … + ni
TABLAS CON DATOS AGRUPADOS Cuando en una distribución estadística el número de valores que toma la variable es muy grande, conviene elaborar una tabla de frecuencias agrupándolos en intervalos. Para ello: - Se localizan los valores extremos, a y b, y se halla su diferencia, r = b–a - Se decide el número de intervalos que se quiere formar, teniendo en cuenta la cantidad de datos que se poseen. El número de intervalos no debe ser inferior a 6 ni superior a 15. El punto medio de cada intervalo se llama marca de clase. Es el valor que representa a todo el intervalo para el cálculo de algunos parámetros. Cuando se elabora una tabla con datos agrupados, se pierde algo de información (pues en ella se ignora cada valor concreto, que se difumina dentro de un intervalo). A cambio, se gana en claridad y eficacia.
3
GRÁFICOS ESTADÍSTICOS GRAFICOS PARA VARIABLES CUALITATIVAS O CUANTITATIVAS DISCRETAS Diagrama de barras: - En el eje de las X : Se representan los valores de la variable - En el eje de las Y : Se representan los valores de la frecuencia: - Se levanta para cada valor de la X una barra que representa la frecuencia de dicho valor. Si unimos mediante una poligonal los puntos más altos de cada barra obtenemos el polígono de frecuencias.
GRAFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS SI TODOS LOS INTERVALOS TIENEN LA MISMA AMPLITUD Histograma : - En el eje de las X : Se representan los valores de la variable - En el eje de las Y : Se representan los valores de la frecuencia - Se levanta para cada valor del intervalo de la X un rectángulo de altura la frecuencia de dicho intervalo. Si unimos mediante una poligonal los puntos medios de cada uno de dichos rectángulos el polígono de frecuencias. Las barras están pegadas unas a otras.
DIAGRAMAS DE SECTORES
Se dibuja un círculo y los porcentajes correspondientes a cada valor.
4
PARÁMETROS DE CENTRALIZACIÓN Los parámetros de centralización son medidas que sintetizan los valores e indican la tendencia de los datos a agruparse sobre un valor. Se llaman de centralización porque los datos se distribuyen alrededor de ellos. Las definiciones siguientes sirven tanto para datos aislados como para datos agrupados en intervalos: - Si los datos son aislados: los xi son los valores que toma la variable - Si los datos están agrupados en intervalos: los xi son las marcas de clase.
MEDIA La media de un conjunto de datos es el resultado que se obtiene al dividir la suma de todos los datos entre el número total de ellos:
MODA La moda de una distribución es el valor que tiene mayor frecuencia. Si hay dos valores que tienen la misma frecuencia máxima, se dice que es una distribución bimodal; si hay tres, trimodal; y si hay varios, multimodal.
MEDIANA Si los individuos de una población están colocados en orden creciente según la variable que estudiamos, el que ocupa el valor central se llama individuo mediano, y su valor, la mediana: Me La mediana, Me, está situada de modo que antes de ella está el 50% de la población y, detrás, el otro 50%. Si el número de individuos es par, la median es el valor medio de los dos centrales.
PARÁMETROS DE DISPERSIÓN Los parámetros de dispersión son unos valores que indican si los datos de la distribución estás más o menos cercanos a los parámetros centrales.
RECORRIDO El recorrido es la diferencia entre el valor mayor y el menor de la distribución.
VARIANZA La varianza es la media de las desviaciones al cuadrado.
-
DESVIACIÓN TÍPICA La desviación típica es la raíz cuadrada de la varianza. Se representa con la letra .
5
COEFICIENTE DE VARIACIÓN Sirve para comparar las dispersiones de poblaciones heterogéneas, pues indica la variación relativa. Es la comparación entre la desviación típica y la media aritmética.
Este coeficiente se suele multiplicar por 100 para expresarlo en forma de tanto por ciento %.
Si el tanto por ciento es menor de 30 los datos están centralizados Si el tanto por ciento es mayor o igual que 30 los datos están dispersos
EJEMPLO Al lanzar un dado se han obtenido los siguientes resultados: Resultado Nº de veces
1 5
2 9
3 14
4 7
5 9
6 6
Elabora la tabla estadística y calcula la media, moda, mediana, recorrido, varianza, desviación típica y coeficiente de variación.
xini
xi2 ni
1-5
5
5
14
6-14
18
36
14/50
28
15-28
42
126
7
7/50
35
29-35
28
112
5
9
9/50
44
36-44
45
225
6
6
6/50
50
45-50
36
216
174
720
xi
ni
fi
Ni
1
5
5/50
5
2
9
9/50
3
14
4
50
=
MEDIA: MODA:
3
MEDIANA:
6
RECORRIDO:
6–1=5
VARIANZA : DESVIACIÓN TÍPICA: COEFICIENTE DE VARIACIÓN:
EJEMPLO CON INTERVALOS La edad de los socios de un club de ajedrez juvenil se distribuye en los siguientes intervalos.
Edad Nº de socios
[10 , 12) 6
[12 ,14 ) 12
[14 ,16 ) 15
[16 ,18] 5
Elabora la tabla estadística y calcula la media, moda, mediana, recorrido, varianza, desviación típica y coeficiente de variación.
xini
xi2 ni
1-6
66
726
18
7-18
156
2028
15/38
33
19-33
225
3375
5/38
38
34-38
85
1445
532
7574
Intervalos
xi
ni
fi
Ni
[10 , 12)
11
6
6/38
6
[12 ,14 )
13
12
12/38
[14 ,16 )
15
15
[16 ,18 )
17
5 38
=
MEDIA: MODA:
15
MEDIANA: RECORRIDO: VARIANZA :
17 – 11 = 6
V=
DESVIACIÓN TÍPICA: COEFICIENTE DE VARIACIÓN:
7