Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017
1 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 UNIDAD N° 2 ESTADÍSTICA Y PROBABILIDAD ESTADÍSTICA La Estadística es la rama de la Matemática que se ocupa del estudio de los métodos y procedimientos para recoger, ordenar y clasificar datos, interpretarlos y realizar inferencias a partir de ellos (obtener conclusiones de una población). Inferir:
Obtener una conclusión de una cosa. TIPOS DE ESTADÍSTICAS
ESTADÍSTICA DESCRIPTIVA:
Recoge, tabula, representa, describe o explora una serie de datos sin sacar conclusiones.
ESTADÍSTICA INFERENCIAL:
Deduce conclusiones de una población a partir del análisis de un gran número de datos recogidos de la muestra.
ESTADÍSTICA DESCRIPTIVA – ETAPAS RECOLECCIÓN
ORGANIZACIÓN
ANÁLISIS Y MEDICIÓN
DE DATOS 1RA ETAPA:
RECOLECCIÓN DE DATOS:
Para razonar estadísticamente necesitamos datos. el objeto de la Estadística es el razonamiento a partir de datos empíricos, los datos no son sólo números sino números o elementos en un contexto. Podemos agregar que los datos son los valores que adoptan las variables en cada caso particular, y que las variables no son más que aquella característica que estudiamos en cada uno de los individuos o unidades bajo estudio.
CONCEPTOS BÁSICOS
POBLACIÓN O MUESTRA
ATRIBUTO O VARIABLE
2 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 POBLACIÓN O MUESTRA Definición: La población es el conjunto de individuos (personas, animales o cosas) objeto de estudio. Podemos reconocer la población por medio de la pregunta ¿de quién queremos obtener información? El tamaño de la población es el número de individuos que la componen. Cuando el mismo es muy grande, se trabaja con una parte de ella llamada muestra. Con la muestra se abaratan los costos y se acortan los tiempos del estudio estadístico, ya que, cuando las observaciones son demoradas, se obtienen resultados desactualizados. Para poder extraer conclusiones de una muestra, ésta debe ser representativa de la población, es decir, se deben obtener de ella resultados aproximados a los que se hubieran obtenido de la población. Por ejemplo: a) Si se quiere calcular el rating de un programa televisivo, la población es el conjunto de todas las personas que tienen acceso a la señal televisiva de dicho programa y la muestra es un determinado número de personaS de diferentes zonas. b) Se le encarga a una consultora hacer un estudio acerca de cuál es la intención del voto de los habitantes de una ciudad en las próximas elecciones. Para ello, la consultora toma un grupo representativo de 500 personas. La población es el conjunto de todos los ciudadanos en condiciones de votar y la muestra es el grupo de las 500 personas seleccionadas. ATRIBUTO O VARIABLE ESTADÍSTICA Definición: La variable es la característica investigada en la observación. Podemos reconocer la población por medio de la pregunta ¿qué información queremos obtener? La variable puede ser: Cualitativa: NO TOMA valores numéricos y describe cualidades. Por ejemplo: sexo, nacionalidad, religión, equipo de fútbol preferido, etc. Cuantitativa:
TOMA valores numéricos.
La variable cuantitativa puede ser: Discreta: se mide con números enteros, surge de un proceso de conteo. Por ejemplo: número de hijos, número de goles, número de asignaturas, etc. Continua: no se puede medir con números enteros, surge de un proceso de medición. Esto significa que puede tomar los infinitos valores comprendidos entre dos valores determinados. Por ejemplo: peso, tiempo, longitud.
3 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 ESCALAS DE MEDICIONES DE LAS VARIABLES. Los datos también pueden describirse de acuerdo con el nivel de medición que se logre. Las escalas se diferencian por propiedades de orden o de distancia. Los cuatro niveles de medición que adoptaremos son, del más débil al más fuerte, escala nominal, ordinal, de intervalo y de razón, aclarando que no es la única escala que existe. Escala Nominal: consiste en enumerar las categorías de una variable sin jerarquización. Por ejemplo: Lugar de nacimiento de una persona, sexo, color de cabello, afiliación política, etc. Ya que en las
variables mencionadas no hay ningún orden
preestablecido. Escala Ordinal: Es aquella que surge de ordenar todas las categorías de las variables según algún criterio. Se utiliza para variables cualitativas o categóricas en las que existe un cierto orden. Por ejemplo: clasificar a las personas por su máximo nivel de estudio alcanzado en primario, secundario, terciario, universitario, etc. En este caso sabemos que el nivel primario es menor que el secundario y a su vez el secundario es menor al terciario. Pero no obstante, no sabemos cuánto menor; lo que implica que hay una medición de orden, pero no de distancia. Cuando la variable es cuantitativa o numérica, se la mide con escala de intervalos o razón, que son los niveles más elevados de medición, ya que permiten diferenciar cuál es el mayor y por cuánto (es decir orden y distancia). Escala de intervalo: Se caracteriza por poseer una unidad de medida común y constante que asigna un número real a todas las observaciones, dando una relación de mayor, menor o igual, pero el punto cero, o sea dónde comienza la serie es arbitrario. Escala de razón: Similar a la escala de intervalo pero tiene cero absoluto. La escala de medición nos permitirá decidir qué tipos de tablas y gráficos nos conviene usar para razonar sobre nuestros datos. Ejemplos: 1) Te presentamos la cantidad de asignaturas desaprobadas por los alumnos de los dos 4tos Años de la Escuela Secundaria, al finalizar el ciclo lectivo 2016: 4to A: 3; 6; 2; 5; 2; 8; 2; 1; 1; 0; 0; 8; 2; 9; 2; 6; 1; 3; 7; 1; 5; 5; 2; 4; 1; 0; 6; 5. 4to B: 0; 6; 0; 6; 1; 2; 2; 0; 3; 2; 5; 5; 2; 3; 0; 2; 0; 3; 4; 1; 2; 0; 0; 0; 0; 3; 5; 3; 0; 3; 0; 4; 5; 6; 0; 5; 5; 2; 0.
2) Distribución por sexo de los alumnos de 5to año A y B, Ciclo Orientado, Colegio Santa Bárbara, año 2017.
4 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 Sexo de los alumnos de 5° A y B Colegio Santa Bárbara.-2017 (xi) Mujeres Varones Total
FRECUENCIA (hi)
5to “A”
5to “B”
17 10 27
21 15 36
Total
38 25 63
3º) Estas son las estaturas correspondientes a unos 40 jugadores de básquet de la liga profesional, expresadas en cm: 175 – 201 – 198 – 180 – 205 – 178 – 183 – 170 – 194 – 188 – 202 – 191 – 187 – 176 – 179 – 196 – 182 – 190 – 187 – 204 – 181 – 180 – 179 – 176 – 202 – 196 – 180 – 175 – 192 – 177 – 188 – 198 – 184 – 201 – 175 – 199 – 176 – 197 – 200 – 181 – Población o muestra estadística: Ejemplo 1: Población: Alumnos de 4to año “A” y “B” Escuela Secundaria - Colegio Santa Bárbara – 2016- Jujuy Ejemplo 2: Población: Alumnos de 5to año “A” y “B” Escuela Secundaria - Colegio Santa Bárbara – 2017- Jujuy Ejemplo 3: Muestra: 40 jugadores de básquet de la liga profesional Argentina Variable: Ejemplo 1: Cantidad de materias desaprobadas. Ejemplo 2: Sexo Ejemplo 3: Estatura Tipo de variable: Ejemplo 1: cuantitativa o numérica discreta Ejemplo 2: cualitativa o categórica Ejemplo 3: cuantitativa o numérica continua 2dª ETAPA:
ORGANIZACIÓN DE DATOS
Los datos sueltos no permiten obtener una buena información, por lo que es necesario explorarlos y organizarlos. Este proceso nos permite pasar de los datos brutos a una representación que puede ser en forma de tabla o gráfico.
5 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017
2º- ORGANIZACIÓN DE DATOS Diagrama de tallo y hoja
a- TABULACIÓN Intervalo de clase
Serie Simple
De puntos
De
b- GRAFICACIÓN Histograma
Barra
Polígono de frecuencia
TABULACIÓN A partir de los ejemplos anteriores, realizaremos la tabulación. Pero, para esto, es necesario manejar los conceptos básicos que se utilizan en la construcción de tablas. Frecuencia absoluta:
Frecuencia relativa:
Indica el número de veces que se repite cada variable. La suma total de las frecuencias absolutas es igual al número de elementos de la población estadística. Indica qué parte del total de la población le corresponde a cada variable. Es igual al cociente entre la frecuencia absoluta y el tamaño de la población o muestra.
frecuencia relativa
frecuencia absoluta total de la población
A la frecuencia relativa se la puede expresar como fracción, número decimal o porcentaje.
La suma de las frecuencias relativas es igual a la unidad si trabajamos con fracciones o decimales y al 100% si se trabaja con porcentajes.
Este año estudiaremos para distribuciones univariables las Series simples y los intervalos de clase (Tabulación adecuada para variables cuantitativas continuas), y tablas de contingencia para distribuciones bivariables. a-1) Series simples: Tabulación de datos recogidos en una tabla ordenada. Se usa serie simple cuando la variable es cualitativa o cuantitativa discreta (si los valores no son muy dispersos).
6 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 Ejemplo 1: Tabla nº 1: cantidad de materias desaprobadas por los alumnos de 4to año “A” y “B” Escuela Secundaria - Colegio Santa Bárbara – 2016- Jujuy
Variable Frecuencia Frecuencia relativa Cantidad de Nº de alumnos (hi) Materias desaprobadas (fi) fracción decimal porcentaje (xi) 0 17 17/69 0,246 25% 1 7 7/69 0,101 10% 2 13 13/69 0,188 19% 3 8 8/69 0,116 12% 4 3 3/69 0,043 4% 5 10 10/69 0,145 14% 6 7 7/69 0,101 10% 7 1 1/69 0,014 1% 8 2 2/69 0,029 3% 9 1 1/69 0,014 1% TOTAL 69 69/69 1,000 100% Fuente: Registro de calificaciones - Colegio Santa Bárbara
Ejemplo nº 2: Tabla nº 2: Sexo de los alumnos de 5to Año A y B Ciclo Orientado, escuela Secundaria. Colegio Santa Bárbara. San Salvador de Jujuy. 2017
Variable Frecuencia Frecuencia relativa Sexo de los Nº de alumnos (hi) Alumnos 3ro de Polimodal. (fi) fracción decimal porcentaje (xi) Varones 25 25/63 0,40 40 mujeres 38 38/63 0,60 60 TOTAL 63 63/63 1 100 Fuente: Registro de asistencia - Colegio Santa Bárbara
a-2) Intervalos de clase: Es una tabla reducida en la cual el número de observaciones aparece dividido en intervalos. Ejemplo nº 3: Como la variable no se puede medir con números enteros, es conveniente agrupar los datos en intervalos de determinada amplitud. Para ello determinamos la amplitud del intervalo conveniente:
amplitud
Rango valor mayor valor menor (de la var iable) nº de int ervalos nº de int ervalos
amplitud
Rango nº de int ervalos
2,05 1,70 7
0,35 7
0,05
Una vez determinada la amplitud, formamos los intervalos o clases, teniendo en cuenta que en los mismos se incluye el primer valor pero no el último, salvo en el último intervalo en el que sí se incluyen los dos.
7 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 Ejemplo 3. Tabla nº 3: Estatura de los 40 jugadores de básquet de la liga profesional.
Intervalo de clase Frecuencia
Frecuencia relativa fracción decimal porcentaje
[1,70 ; 1,75) [1,75 ; 1,80) [1,80 ; 1,85) [1,85 ; 1,90) [1,90 ; 1,95) [1,95 ; 2,00) [2,00 ; 2,05] TOTAL
1 10 8 4 4 6 7 40
1/40 10/40 8/40 4/40 4/40 6/40 7/40 40/40
0,025 0,25 0,2 0,1 0,1 0,15 0,175 1
2,5 25 20 10 10 15 17,5 100 Fuente: Desconocida
Observación: Los intervalos de clases, también se utilizan cuando la variable toma valores enteros, pero dispersos, en donde es conveniente agruparlos. a-3) Tablas de Contingencias ( para datos categóricos): Son tablas que se utilizan para distribuciones bivariables en donde por cada individuo o elemento de estudio se observan simultáneamente dos características en lugar de una. Muchas veces necesitamos examinar la respuesta a dos variables categóricas simultáneamente. Por ejemplo: La siguiente información corresponde a alumnos de la Facultad de Ciencias de la Salud clasificados según sexo y área de estudio de mayor interés. Esta tabla fue confeccionada a partir de una muestra aleatoria de 837 estudiantes. Tabla nº4: Alumnos de la Facultad de Ciencias de la Salud, según sexo y área de estudio de mayor interés. Cba. 2000
Alumnos según sexo y área de interés Sexo Área de interés Total Varones Mujeres Indecisos 51 29 80 Histología 268 145 413 Anatomía 107 42 149 Clínica general 65 21 86 Fisiología 29 13 42 Epidemiología 36 25 61 Otros 5 1 6 Total 561 276 837 Fuente: Cátedra Estadística. U.N.C 2000
Estas tablas de dos direcciones, de clasificación cruzada, se conocen como tablas de contingencias. En donde, 837 representa el total global. Las filas totales corresponden a 80, 413, etc. Y las columnas totales a varón y mujer.
8 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 b) GRAFICACIÓN: La información que brinda una tabla es más fácil de entender si se presenta en forma gráfica. Existen muchos gráficos estadísticos pero solamente estudiaremos, este año, los gráficos de barras, de puntos y circular. b-1) Gráfico de barras: Para construir los gráficos de barras, se trazan dos ejes perpendiculares, uno horizontal y otro vertical. Si la variable es cuantitativa, en el eje horizontal se ubica la variable y en el vertical la frecuencia. Si la variable es cualitativa, se la escribe en el eje vertical y la frecuencia en el eje horizontal. Para trazar las barras (rectángulos), se tiene en cuenta que las bases son los segmentos iguales que representan a cada variable y las alturas son las respectivas frecuencias (pueden ser frecuencias absolutas, frecuencias relativas o relativas porcentuales).
9 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 b-2) Gráfico de puntos: Para construir un gráfico de puntos, la variable y la frecuencia se ubican de igual forma que en un gráfico de barras.
b-3) Gráfico circular: Para construir gráficos circulares, seguimos los siguientes pasos: 1) Representamos, con un círculo, el número total de la población o muestra. 2) Representamos, con un sector circular, la frecuencia correspondiente a cada variable. Para trazar el sector circular, primero calculamos el ángulo central de la siguiente manera A la totalidad de la población............le corresponde 360º A la frecuencia de cada variable................. x IMPORTANTE: Tanto el gráfico de barras, el de puntos, como el circular se utilizan para representar atributos cualitativos o bien cuantitativos discretos.
10 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 4) Histogramas y Polígonos de frecuencias: Estos gráficos son empleados para representar variables organizadas en intervalos de clase. Histograma: Es un conjunto de barras verticales, cada una de las cuales representa un intervalo de agrupación o clase. Sus bases son iguales a las amplitudes de los intervalos y las alturas determinan las frecuencias (pueden ser frecuencias absolutas, frecuencias relativas o relativas porcentuales) Polígono de frecuencia: Se obtiene un polígono de frecuencia al asumir que los puntos medios de cada clase representan a los datos de esa clase y unimos los puntos correspondientes secuencialmente con segmentos de rectas. Estos polígonos son particularmente útiles, cuando se comparan dos o más conjuntos de datos y en ese caso es más conveniente trabajar con frecuencias porcentuales.
Polígono de frecuencia
11 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 b-5) Barras Adosadas o apiladas Este tipo de gráficos se utiliza para distribuciones bivariadas, con datos agrupados en tablas de contingencia.
Area de interes de los alumnos 300 250 200 150 100 50 0 En lugar de utilizar barras adyacentes para cada grupo como en el ejemplo anterior, se podrían utilizar barras seccionadas como en la siguiente situación: El número de personas que asisten a la guardia del hospital Pablo Soria se ha distribuido, durante una semana, según la siguiente tabla. Varones Mujeres Lunes 26 12 Martes 20 21 Miércoles 18 22 Jueves 30 21 Viernes 35 20 Sábado 27 22 Domingo 30 23
Lu ne s M ar te s M ié rc ol es Ju ev es Vi er ne s Sá ba do Do m in go
60 50 40 30 20 10 0
12 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 Diagrama de Caja y sesgo: También conocida como resúmen de los cinco números.
X min 0
Q1 0
Me 1
Q3 2,5
X Max 8
Diagrama de Tallo y hojas: Este diagrama organiza los datos numéricos de dos o más dígitos, cuando la muestra es grande, de forma tal que permite simultáneamente realizar el análisis más detallado y brinda una presentación en forma tanto tabular como gráfica. Este diagrama es muy útil, debido a que: • Es de construcción manual muy sencilla. • Permite un fácil ordenamiento de los datos. • Puede también utilizarse cuando los datos están distribuidos en intervalos de clase, contando simplemente las hojas correspondientes a cada tallo, ya que cada uno de los tallos define una clase. • Si se gira 90º este esquema, se observaría un gráfico de puntos, de barra o histograma. Por ejemplo: Supongamos que se han contabilizado las llamadas telefónicas por hora de una telecabina y los resultados obtenidos son los siguientes. Ordenar en un diagrama de tallo y hojas los siguientes datos: 116 – 118 – 77 – 116 – 162 – 108 – 119 – 129 – 111 – 102 – 132 162 – 116 – 139 – 125 – 117 – 151 – 165 – 130 – 96 – 129 – 108 172 – 115 – 139 – 146 – 120 – 122 – 158 – 125 – 117 – 95 – 162 120 – 152 – 148 – 80 – 161 – 152 – 104 – 139 – 116 – 146 – 145
13 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017
tallo 7 8 9 10 11 12 13 14 15 16 17
7 0 5 8 6 9 2 6 1 2 2
6 2 8 5 9 8 8 2
8 6 9 0 6 2 5
4 9 0 9 5 2 2
1 6 7 5 7 6 2 5 0 9
1
7 8 9 10 11 12 13 14 15 16 17
7 0 5 2 1 0 0 5 1 1 2
6 4 5 0 2 6 2 2
8 6 2 9 6 2 2
8 6 5 9 8 8 2
6 6 7 5 9 9 9
5
7 8 9
(1) (1) (2) (4) (10) (7) (5) (4) (4) (5) (1)
hojas
En síntesis: Al igual que las tablas, los gráficos se clasifican según el tipo de variable que pueden describir, el tipo de datos y el tipo de frecuencias que permiten presentar. Utilizando esos criterios, en la siguiente tabla resumimos la función que cada gráfico puede cumplir.
14 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 Tabla. Tipos de gráficos y sus funciones Gráfico Tipo de Forma en variable que presentan datos Barras simples Cualitativa Datos presentados frecuencias simples
Barras adosadas
la Tipo de Función del Gráfico se frecuencias que los puede utilizarse Frecuencias en absolutas, relativas porcentuales
Datos presentados en Tablas de contingencia
Barras apiladas
Sectores Torta
o
Datos presentados en frecuencias simples Puntos Cuantitativa Datos Discreta presentados en Bastones frecuencias simples Histograma Cuantitativa Datos o agrupados en Polígono de Continua Discreta con intervalos frecuencias diversidad de valores Ojiva
De Tallo y hojas De Caja
Cuantitativa Datos simples Continua o Discreta
Frecuencias porcentuales
Comparar entre categorías. Como caso o particular se utiliza con una variable cuantitativa cuando se tiene algún carácter cualitativo de comparación Comparar las categorías en dos o más grupos de comparación y para dos variables Mostrar qué parte del total representa cada carácter de comparación Comparar entre categorías
Frecuencias absolutas, relativas o porcentuales Frecuencias absolutas, relativas o porcentuales Frecuencias acumuladas, acumuladas relativas o acumuladas porcentuales No se utilizan frecuencias porque los datos aparecen uno a uno (en el caso del diagrama de tallo y hojas)
Permite mostrar la distribución de frecuencias de los datos Permite mostrar la distribución de frecuencias de los datos Mostrar la distribución acumulada. Calcular medidas de posición
Mostrar la distribución de frecuencias Analizar y comparar variación, simetría y valores atípicos entre dos o más distribuciones.
15 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 3º ETAPA – ANÁLISIS DE DATOS: En todo análisis estadístico se pueden usar diversas medidas o propiedades que describen un conjunto de datos, generalmente numéricos y ellas son: las medidas de tendencia central, de dispersión y la forma. Si se las calcula a partir de los datos de una muestra se denominan estadísticos, si se las calcula de una población se los denomina parámetros.
3º- ANÁLISIS ooDEDDATOS PARÁMETROS O ESTADÍSTICOS 3ºa - DE TENDENCIA CENTRAL I-Media o Promedio
II-Mediana
III-Moda
3ºb - DE DISPERSIÓN
I-Varianza II-Desviación estándar III-Coeficiente de variación
3º a- Medidas de Tendencia Central: La mayor parte de un conjunto de datos muestran una tendencia a agruparse alrededor de un punto al que se llama central y, por lo general, es posible elegir algún valor que describa todo el conjunto de datos. Algunos de esos valores son: el promedio o media aritmética, la mediana y la moda. 3a-I) Media aritmética: La media aritmética, o media, es la medida de posición que se usa con mayor frecuencia. Es el valor representativo de un conjunto de datos, cuando la variable es cuantitativa y no hay valores extremos que influyan excesivamente en él. La media o promedio es el cociente entre la suma de los datos y el número de datos. Se la simboliza: X Media aritmética de una población N
16 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 X
X Media aritmética de una muestra n
Para variables cuantitativas discretas:
x
x1 x 2 x 3 ... x n x i n n
letra griega que significa suma de varios sumandos.
INTERPRETACIÓN DE LA MEDIA Se puede tener una representación de la media x , si se piensa en una regla numérica equilibrada sobre un punto de apoyo, sobre la cual se colocan pesas iguales en el número correspondiente a cada observación. La media actúa como el punto de apoyo que mantiene el equilibrio de las pesas. Por ejemplo: Los alumnos de tercer año se separaron en grupos de cinco personas. La profesora les pide que hallen el promedio de las notas del trimestre de Matemática del grupo. Dos de ellos obtienen el mismo promedio: 7,40. Podríamos suponer que la situación de ambos grupos es la misma, pero veamos la realidad Grupo A: 8 –7 – 8 – 7 – 7
Grupo B: 10 – 4 – 10 – 4 – 9
|1 |2 |3 |4 |5 |6 |7 |8 |9 |10
|1 |2 |3 |4 |5 |6 |7 |8 | 9 |10
x A 7,40
x B 7,40
Podemos observar que la nota media de cada uno de los grupos es la misma, no obstante, como se observa gráficamente, los dos grupos tienen características diferentes. Para el grupo A la media es una medición descriptiva apropiada para caracterizar al conjunto de datos observados, ya que no se presentan observaciones extremas. Mientras que para el grupo B, la media aritmética presenta una representación algo distorsionada de lo que los datos están transmitiendo y puede que no sea el mejor promedio a usarse. Cálculo de la media en distribuciones de frecuencias. Cuando conocemos las frecuencias absolutas correspondientes a los datos, la calculamos de una manera más sencilla.
17 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017
x
x1 f1 x 2 f2 x 3 f3 ... x n fn x f i i n n
Volvemos al primer ejemplo: (Para facilitar el cálculo de la media anexamos una columna) Tabla nº 1: cantidad de materias desaprobadas por los alumnos de 4to Año A y B, Ciclo Orientado, Colegio Santa Bárbara. San Salvador de Jujuy. 2016.
Variable (xi)
Frecuencias (fi)
Frecuencia relativa (hi)
Media
Cantidad de Materias desaprobadas
Nº de alumnos
fracción decimal porcentaje
xi.fi
0
17
17/69
0,246
25%
0
1
7
7/69
0,101
10%
7
2
13
13/69
0,188
19%
26
3
8
8/69
0,116
12%
24
4
3
3/69
0,043
4%
12
5
10
10/69
0,145
14%
50
6
7
7/69
0,101
10%
42
7
1
1/69
0,014
1%
7
8
2
2/69
0,029
3%
16
9
1
1/69
0,014
1%
9
TOTAL
69
69/69
1,000
100%
193
x
xi f i 193 2,797 2,80 n 69
Cuando la variable está agrupada en intervalos de clase, tomamos como valor representativo de cada intervalo a su punto medio, al que llamamos: Marca de Clase.
Ejm nº3: Variable [1,70 – 1,75) [1,75 – 1,80) [1,80 – 1,85) [1,85 – 1,90) [1,90 – 1,95) [1,95 – 2,00) [2,00 – 2,05) TOTAL
frecuencia 1 10 8 4 4 6 7 40
Frec. relativa 0,025 0,25 0,2 0,1 0,1 0,15 0,175 1
Marca de clase 1,725 1,775 1,825 1,875 1,925 1,975 2,025
Xim . f 1,725x 1=1,725 17,75 14,6 7,5 7,7 11,85 14,175 75,3
3a-II) Mediana: La mediana es el dato que ocupa el lugar central (cuando los datos se encuentran ordenados de menor a mayor). Es decir, la mediana es el valor que deja la misma cantidad de datos por debajo y por encima de él.
18 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 Si la cantidad de datos es impar, la mediana es el valor central. Si la cantidad de datos es par, la mediana es el promedio de los dos valores centrales. Ejm: Se presentan las notas de una alumna de 3º año, al finalizar el primer trimestre. 8 – 4 – 7 – 9 – 8 – 10 – 6 – 8 – 8 – 7 – 6 – 8 – 7 . Para calcular la mediana primero debemos ordenar los datos de menor a mayor 4 – 6 – 6 –7 – 7 – 7 – 8 – 8 – 8 – 8 – 8 – 9 – 10 . Como el número de datos es impar la mediana es el valor central. 4 – 6 – 6 – 7 – 7 – 7 – 8 – 8 – 8 – 8 – 8 – 9 – 10 . Me = 8 Si el número de datos es par. Por ejemplo: 4 – 6 – 6 – 7 – 7 – 7 – 7 – 8 – 8 – 8 – 8 – 8 – 9 – 10. Me =
78 7,50 . 2
Cuando trabajamos con muchos datos, resulta poco práctico encontrar la mediana de esta manera, entonces es conveniente aumentar una nueva columna a la tabla con las frecuencias absolutas acumuladas, para facilitar el cálculo. Tabla nº 1: cantidad de materias desaprobadas por los alumnos de 4to Año A y B, Ciclo Orientado, Colegio Santa Bárbara. San Salvador de Jujuy. 2016.
Variable (xi)
Frecuencias (fi)
Cantidad de Materias desaprobadas
Nº de alumnos
0
17
17/69
0,246
1
7
7/69
2
13
3
Frecuencia relativa (hi)
Media
Mediana
xi.fi
Frecuencia Acumulada (Fi)
25%
0
17
0,101
10%
7
24
13/69
0,188
19%
26
37
8
8/69
0,116
12%
24
45
4
3
3/69
0,043
4%
12
48
5
10
10/69
0,145
14%
50
58
6
7
7/69
0,101
10%
42
65
7
1
1/69
0,014
1%
7
66
8
2
2/69
0,029
3%
16
68
9
1
1/69
0,014
1%
9
69
TOTAL
69
69/69
1,000
100%
193
fracción decimal porcentaje
19 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 La mediana es el valor de la variable, al que le corresponde una frecuencia acumulada mayor que la mitad del número de datos.
N 1 69 1 70 35 2 2 2
Frec. Acumulada >
Me =2
Para calcular la mediana cuando trabajamos con intervalos de clases, procedemos de la siguiente manera: Por definición de mediana, ésta debe encontrarse en la clase que contenga el elemento N/2, por ello podemos encontrar el intervalo mediano.
Variable
frecuencia
Frec. Marca de Xim . f Relativa clase 1 0,025 1,725 1,725x 1=1,725 [1,70 – 1,75) 10 0,25 1,775 17,75 [1,75 – 1,80) 8 0,2 1,825 14,6 [1,80 – 1,85) 4 0,1 1,875 7,5 [1,85 – 1,90) 4 0,1 1,925 7,7 [1,90 – 1,95) 6 0,15 1,975 11,85 [1,95 – 2,00) 7 0,175 2,025 14,175 [2,00 – 2,05) 40 1 75,3 TOTAL O a través de la siguiente fórmula de interpolación:
Frec. acumulada 1 11 19 23 27 33 40
N fa1 2 Me L 1 C fme en donde: L1= límite inferior de la clase mediana. N = número total de datos. fa1= Frecuencia acumulada de la clase anterior. Fme= Frecuencia absoluta de la clase mediana. C = Amplitud del intervalo Me =..1,85...+
40 / 2 19 4
.0,05 1,85
1 4
0,05 1,86
Se utiliza la mediana en lugar de la media, cuando hay valores extremos que influyen demasiado en la media o cuando trabajamos con intervalos en los que el primero o el último elemento no está bien definido. Por ejemplo: “menos de” o “más de”, es decir no podemos determinar el valor real de la variable o de la marca de clase. Se puede utilizar la mediana si trabajamos con caracteres cualitativos, si las modalidades son ordenables. Por ejemplo: “malo”, “regular”, “bueno”, “muy bueno”
20 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 3a–III ) Moda: Es el o los valores de los datos que tiene mayor frecuencia. Cuando trabajamos con datos agrupados en intervalos, podemos encontrar el intervalo modal, o sea el intervalo al que le corresponde la mayor frecuencia, a través de la siguiente fórmula de interpolación:
Mo L1
f1 C (f1 f2 )
En donde: L1= límite inferior de la clase modal. f1= Frecuencia del intervalo modal menos frecuencia del intervalo anterior f2= Frecuencia del intervalo modal menos frecuencia del intervalo posterior. C = Amplitud del intervalo.
Mo 1,75
9 0,05 1,75 0,04 1,79 (9 2)
La moda es el único parámetro de posición central que podemos utilizar para representar un conjunto de datos cualitativos, cuyas modalidades no podemos ordenar Ejercicio. Calcular la moda para los tres ejercicios presentados con anterioridad: Ej. 1: Mo=0
Ej. 2: Mo= mujeres
Ej. 3: Mo= 1,79
No siempre los tres parámetros nos brindan la misma información, por lo que debemos analizar cuándo es conveniente calcular cada uno de ellos.
En conclusión: Las Medidas de tendencia central, nos permiten identificar los valores más representativos de los datos, de acuerdo a la manera como se tienden a concentrar. La Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana por el contrario nos informa el valor que separa los datos en dos partes iguales, cada una de las cuales cuenta con el cincuenta por ciento de los datos. Por último la Moda nos indica el valor que más se repite dentro de los datos.
3º b- Medidas de Dispersión: A veces no nos alcanza con conocer un valor central de un conjunto de datos para sacar una conclusión, por eso también se utilizan los parámetros o estadísticos de dispersión que nos
21 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 permite saber si los datos están muy agrupados o no respecto de un valor central. Algunas de las medidas que son muy útiles para conocer esa variabilidad son: la varianza, la desviación estándar y el coeficiente de variación. Para una mayor comprensión estudiaremos las medidas de dispersión a partir de los ejemplos trabajados con anterioridad. Los alumnos de tercer año se separaron en grupos de cinco personas. La profesora les pide que hallen el promedio de las notas del primer parcial de Estadística del grupo. Dos de ellos obtienen el mismo promedio: 7,40. Podríamos suponer que la situación de ambos grupos es la misma, pero veamos la realidad Grupo A: 8 –7 – 8 – 7 – 7
|1 |2 |3 |4 |5 |6 |7 |8 |9 |10
Grupo B: 10 – 4 – 10 – 4 – 9
|1 |2 |3 |4 |5 |6 |7 |8 |9 |10
x A 7,40
x B 7,40
Como podemos observar, el promedio no nos brinda información acerca de la variabilidad de los datos por lo que es necesario encontrar medidas de
variabilidad o de
dispersión para los dos grupos: La muestra A es menos variable que la muestra B. Algunas de las medidas que son muy útiles para conocer esa variabilidad son: la varianza, la desviación estándar y el coeficiente de variación. 3ºb I - Varianza: Es la suma de las desviaciones con respecto a la media aritmética Para el grupo A
Sx 2
(8 7,40) 2 (7 7,40) 2 (8 7,40) 2 (7 7,40) 2 (7 7,40) 2 1,2 0,24 5 5
Para el grupo B Sx 2
(10 7,40) 2 (4 7,40) 2 (9 7,40) 2 (4 7,40) 2 (10 7,40) 2 39,2 7,84 5 5
Varianza de población: Esta dada por el símbolo griego sigma
22 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017
x
2
X
2
SX
2
i
x
en donde x la media de una población
n
x
i
x
2
en donde x la media de una muestra
n 1
o bien, la fórmula reducida para el cálculo de la varianza es: 2
S
x =
2 i
f x n 2
x
n 1
2
x
2 i
f x n 2
n
3ºb II – Desviación estándar: Es la raíz cuadrada positiva de la varianza. Es la medida de dispersión más utilizada, pues se expresa en la misma unidad que la variable de estudio.
S= S
S
2
x
x
i
x
2
n 1
o bien, la fórmula reducida para el cálculo es:
f x n
x
2
2 i
n 1
Muestra ò
S GA=
S 2 GA 0,24 0,49
S GB=
S 2 GB 7,84 2,8
x
2 i
f x n 2
n
Población
De dos distribuciones con igual promedio, la que tenga menor varianza (o desviación estándar) será menos dispersa, es decir que su media será más representativa. Las desviaciones estándar halladas nos indican que las notas de los alumnos del grupo B, se alejan mucho más del promedio que las notas de los alumnos del grupo A. Eso indica que para el grupo B, el promedio no es un valor representativo de los datos, mientras que para el grupo A, como la desviación estándar es pequeña, el promedio es representativo de los datos.
23 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 Tabla nº 1: cantidad de materias desaprobadas por los alumnos de 4to Año A y B, Ciclo Orientado, Colegio Santa Bárbara. San Salvador de Jujuy. 2016.
Variable
Frec.
(xi)
(fi)
Frecuencia relativa (hi)
Media
Mediana Varianza Frec. Acum.
xi2.fi
Cantidad de Materias desaprobadas
Nº de alumnos
fracción
decimal
%
xi.fi
0
17
17/69
0,246
25%
0
17
0
1
7
7/69
0,101
10%
7
24
7
2
13
13/69
0,188
19%
26
37
52
3
8
8/69
0,116
12%
24
45
72
4
3
3/69
0,043
4%
12
48
48
5
10
10/69
0,145
14%
50
58
250
6
7
7/69
0,101
10%
42
65
252
7
1
1/69
0,014
1%
7
66
49
8
2
2/69
0,029
3%
16
68
128
9
1
1/69
0,014
1%
9
69
TOTAL
69
69/69
1,000
100%
193
81 939
x
xi2 f x 2 n n
(Fi)
939 2,82 69 398,04 5,769 2,4 69 69
3 b III - Coeficiente de variación: Es el cociente entre la desviación estándar y el promedio de un mismo conjunto de datos. El coeficiente de variación no tiene unidad de medida; por lo tanto, permite comparar poblaciones con distintos promedios y también con distintas unidades de medida:
C.V.( x )
x x
En general, se considera que un coeficiente de variación aproximadamente menor que 0,2 indica que la distribución de datos es poco dispersa, o sea que su promedio será representativo de todo el conjunto de datos. Se dice entonces que la distribución es homogénea. Calculamos los coeficientes de variación para los ejemplos 1 y 3. Ej 1: C.V.( x )
x x
=
2,4 2,8
0,86 . Como es mayor a 0,2 implica que la media no es
representativa de los datos.
24 Prof. Mariana Bovi
Bibliografía – 5to Año A y B – Escuela Secundaria – COLEGIO SANTA BÁRBARA -2017 Ej 3: C.V.( x )
x x
=
2,8 7,4
0,38 . Como es mayor a 0,2 implica que la media no es
representativa de los datos. Bibliografía Consultada •
Blanch, N y Joekes, S. (1993) Curso de Posgrado. Estadística aplicada a la Investigación. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Córdoba.
•
Priemer, N. (2000). Curso de actualización y Perfeccionamiento: Estadística Descriptiva y Probabilidad. Universidad Nacional de Jujuy. Facultad de Ingeniería. Jujuy.
•
Instituto Nacional de Formación Docente. (2015). Clase 1: Contextualización de la Educación Estadística y de sus conceptos claves. Enseñanza de la Probabilidad y la Estadística. Especialización docente de Nivel Superior en la enseñanza de la matemática en la Escuela Secundaria. Buenos Aires: Ministerio de Educación de la Nación.
•
Instituto Nacional de Formación
Docente. (2015). Clase 2: Ideas estocásticas
fundamentales en la enseñanza de probabilidad y estadística. Enseñanza de la Probabilidad y la Estadística. Especialización docente de Nivel Superior en
la
enseñanza de la matemática en la Escuela Secundaria. Buenos Aires: Ministerio de Educación de la Nación. •
Instituto Nacional de Formación Docente. (2015). Clase 3: Ideas estocásticas fundamentales en la enseñanza de probabilidad y estadística (Parte 2). Enseñanza de la Probabilidad y la Estadística. Especialización docente de Nivel Superior en la enseñanza de la matemática en la Escuela Secundaria. Buenos Aires: Ministerio de Educación de la Nación.
25 Prof. Mariana Bovi