Estadística descriptiva libro digital

Page 1

Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015

“ESTADÍSTICA”

1 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 UNIDAD N° 4 ESTADÍSTICA Y PROBABILIDAD ESTADÍSTICA La Estadística es la rama de la Matemática que se ocupa del estudio de los métodos y procedimientos para recoger, ordenar y clasificar datos, interpretarlos y realizar inferencias a partir de ellos (obtener conclusiones de una población). Inferir:

Obtener una conclusión de una cosa. TIPOS DE ESTADÍSTICAS

ESTADÍSTICA DESCRIPTIVA:

Recoge, tabula, representa, describe o explora una serie de datos sin sacar conclusiones.

ESTADÍSTICA INFERENCIAL:

Deduce conclusiones de una población a partir del análisis de un gran número de datos recogidos de la muestra.

ESTADÍSTICA DESCRIPTIVA – ETAPAS RECOLECCIÓN

ORGANIZACIÓN

ANÁLISIS Y MEDICIÓN

DE DATOS 1RA ETAPA: RECOLECCIÓN DE DATOS: Para razonar estadísticamente necesitamos datos, el objeto de la Estadística es el razonamiento a partir de datos empíricos, los datos no son sólo números sino números o elementos en un contexto. Podemos agregar que los datos son los valores que adoptan las variables en cada caso particular, y que las variables no son más que aquella característica que estudiamos en cada uno de los individuos o unidades bajo estudio.

CONCEPTOS BÁSICOS

POBLACIÓN O MUESTRA

ATRIBUTO O VARIABLE POBLACIÓN O MUESTRA

Definición:

2 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 La población es el conjunto de individuos (personas, animales o cosas) que es el objeto de estudio. Podemos reconocer la población por medio de la pregunta ¿de quién queremos obtener información? El tamaño de la población es el número de individuos que la componen. Cuando el mismo es muy grande, se trabaja con una parte de ella llamada muestra. Con la muestra se abaratan los costos y se acortan los tiempos del estudio estadístico, ya que, cuando las observaciones son demoradas, se obtienen resultados desactualizados. Para poder extraer conclusiones de una muestra, ésta debe ser representativa de la población, es decir, se deben obtener de ella resultados aproximados a los que se hubieran obtenido de la población. Por ejemplo: a) Si se quiere calcular el rating de un programa televisivo, la población es el conjunto de todas las personas que tienen acceso a la señal televisiva de dicho programa y la muestra es un determinado número de persona de diferentes zonas. b) Se le encarga a una consultora hacer un estudio acerca de cuál es la intención del voto de los habitantes de una ciudad en las próximas elecciones. Para ello, la consultora toma un grupo representativo de 500 personas. La población es el conjunto de todos los ciudadanos en condiciones de votar y la muestra es el grupo de las 500 personas seleccionadas. ATRIBUTO O VARIABLE ESTADÍSTICA Definición: La variable es la característica investigada en la observación. Podemos reconocer la población por medio de la pregunta ¿qué información queremos obtener? La variable puede ser: Cualitativa: NO TOMA valores numéricos y describe cualidades. Por ejemplo: sexo, nacionalidad, religión, equipo de fútbol preferido, etc. Cuantitativa:

TOMA valores numéricos.

La variable cuantitativa puede ser: Discreta: se mide con números enteros, surge de un proceso de conteo. Por ejemplo: número de hijos, número de goles, número de asignaturas, etc. Continua:

no se puede medir con números enteros, surge de un proceso de

3 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 medición. Esto significa que puede tomar los infinitos valores comprendidos entre dos valores determinados. Por ejemplo: peso, tiempo, longitud. ESCALAS DE MEDICIONES DE LAS VARIABLES. Los datos también pueden describirse de acuerdo al nivel de medición que se logre. Las escalas se diferencian por propiedades de orden o de distancia. Los cuatro niveles de medición que adoptaremos, son del más débil al más fuerte, escala nominal, ordinal, de intervalo y de razón, aclarando que no es la única escala que existe. Escala Nominal: consiste en enumerar las categorías de una variable sin jerarquización. Por ejemplo: Lugar de nacimiento de una persona, sexo, color de cabello, afiliación política, etc. Ya que en las

variables mencionadas no hay ningún orden

preestablecido. Escala Ordinal: Es aquella que surge de ordenar todas las categorías de las variables según algún criterio. Se utiliza para variables cualitativas o categóricas en las que existe un cierto orden. Por ejemplo: clasificar a las personas por su máximo nivel de estudio alcanzado en primario, secundario, terciario, universitario, etc. En este caso sabemos que el nivel primario es menor que el secundario y a su vez el secundario es menor al terciario. Pero no obstante, no sabemos cuánto menor; lo que implica que hay una medición de orden, pero no de distancia. Cuando la variable es cuantitativa o numérica, se la mide con escala de intervalos o razón, que son los niveles más elevados de medición, ya que permiten diferenciar cual es el mayor y por cuanto (es decir orden y distancia). Escala de intervalo: Se caracteriza por poseer una unidad de medida común y constante que asigna un número real a todas las observaciones, dando una relación de mayor, menor ó igual, pero el punto cero, o sea donde comienza la serie es arbitrario. Escala de razón: Similar a la escala de intervalo pero tiene cero absoluto. La escala de medición nos permitirá decidir qué tipos de tablas y gráficos nos conviene usar para razonar sobre nuestros datos.

Actividad 2:

A continuación se presentan tres ejemplos. Si los conceptos básicos en la recolección de datos han sido interpretados correctamente se podrán completar (en caso contrario, no dudes en consultar).

Ejemplos:

4 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 1) Te presentamos la cantidad de asignaturas desaprobadas por los alumnos de los dos 3ros de Polimodal , al finalizar el primer trimestre 2015: 3ro A 2; 5; 1; 4; 1; 0; 2; 0; 2; 3; 4; 4; 5; 2; 1; 6; 2; 8; 2; 0; 1; 2; 2; 2; 6; 0; 0; 3; 5; 3; 2. 3ro B: 1; 0; 1; 0; 3; 0; 0; 0; 0; 0; 3; 3; 0; 0; 1; 0; 1; 1; 0; 1; 1; 2; 0; 0; 3; 0; 0; 0; 2; 1; 0; 6; 0; 1; 0; 3; 0; 0; 2; 0; 3; 1; 2; 0; 0. 2)

A continuación te presentamos la distribución por sexo de los alumnos de este curso: Sexo de los alumnos de 3 Año Ay B Polimodal.-2015 Varones Mujeres Total

Frecuencia

20 56 76

3º) He aquí las alturas correspondientes a unos 40 jugadores de básquet de la liga 1,75 – 2,01 – 1,98 – 1,80 – 2,05 – 1,78 – 1,83 – 1,70 – 1,94 – 1,88 –

profesional:

2,02 – 1,91 – 1,87 – 1,76 – 1,79 – 1,96 – 1,82 – 1,90 – 1,87 – 2,04 – 1,81 – 1,80 – 1,79 – 1,76 – 2,02 – 1,96 – 1,80 – 1,75 – 1,92 – 1,77 – 1,88 – 1,98 – 1,84 – 2,01 – 1,75 – 1,99 – 1,76 – 1,97 – 2,00 – 1,81 – Población o muestra estadística: Ejemplo 1: ........................................................................................... Ejemplo 2: ............................................................................................ Ejemplo 3: ............................................................................................ Variable: Ejemplo 1: ........................................................................................... Ejemplo 2: ............................................................................................ Ejemplo 3: ............................................................................................ Tipo de variable: Ejemplo 1: ........................................................................................... Ejemplo 2: ............................................................................................ Ejemplo 3: ............................................................................................ 2dª ETAPA:

ORGANIZACIÓN DE DATOS

5 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 Los datos sueltos no permiten obtener una buena información, por lo que es necesario explorarlos y organizarlos. Este proceso nos permite pasar de los datos brutos a una representación que puede ser en forma de tabla o gráfico.

2º- ORGANIZACIÓN DE DATOS Diagrama de tallo y hoja

a- TABULACIÓN Intervalo de clase

Serie Simple

De puntos

De

b- GRAFICACIÓN Histograma

Barra

Polígono de frecuencia

TABULACIÓN A partir de los ejemplos anteriores, realizaremos la tabulación. Pero, para esto, es necesario manejar los conceptos básicos que se utilizan en la construcción de tablas. Frecuencia absoluta:

Indica el número de veces que se repite cada variable. La suma total de las frecuencias absolutas es igual al número de elementos de la población estadística.

Frecuencia relativa: cada

Indica qué parte del total de la población le corresponde a variable. Es igual al cociente entre la frecuencia absoluta y

el tamaño de la población o muestra.

frecuencia relativa 

frecuencia absoluta total de la población

A la frecuencia relativa se la puede expresar como fracción, número decimal o porcentaje.

La suma de las frecuencias relativas es igual a la unidad si trabajamos con fracciones o decimales y al 100% si se trabaja con porcentajes.

6 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 Este año estudiaremos para distribuciones univariables las Series simples y los intervalos de clase (Tabulación adecuada para variables cuantitativas continuas). y tablas de contingencia para distribuciones bivariables. a-1) Series simples: Tabulación de datos recogidos en una tabla ordenada. Se usa serie simple cuando la variable es cualitativa o cuantitativa discreta (si los valores no son muy dispersos). Ejemplo 1: Tabla nº 1: cantidad de materias desaprobadas por los alumnos de 3er Año A y B Polimodal. Colegio Santa Bárbara. San Salvador de Jujuy. 2015

Variable Frecuencia Frecuencia relativa Cantidad de Nº de alumnos Materias desaprobadas fracción decimal porcentaje 0 1 2 3 4 5 6 7 8 TOTAL

29 14 14 9 3 3 3 0 1 76

29/76 14/76 14/76 9/76 3/76 3/76 3/76 0/76 1/76 76/76

0,38 0,18 0,18 0,12 0,04 0,04 0,04 0 0,01 0,99

38 18 18 12 4 4 4 0 1 99

Fuente: Registro de calificaciones - Colegio Santa Bárbara

Ejemplo nº 2: Tabla nº 2: Sexo de los alumnos de 3er Año A y B Polimodal. Colegio Santa Bárbara. San Salvador de Jujuy. 2015

Variable Frecuencia Frecuencia relativa Sexo de los Nº de alumnos Alumnos 3ro de Polimodal.... fracción decimal porcentaje Varones mujeres TOTAL

20 56 76

20/76 56/76 76/76

0,26 0,74 1

26 74 100

Fuente: Registro de asistencia - Colegio Santa Bárbara

a-2) Intervalos de clase: Es una tabla reducida en la cual el número de observaciones aparece dividido en intervalos. Ejemplo nº 3: Como la variable no se puede medir con números enteros, es conveniente agrupar los datos en intervalos de determinada amplitud. Para ello determinamos la amplitud del intervalo conveniente:

amplitud 

Rango valor mayor  valor menor (de la var iable)  nº de int ervalos nº de int ervalos

7 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015

amplitud 

Rango  nº de int ervalos

2,05  1,70 7

0,35 7

 0,05

Una vez determinada la amplitud, formamos los intervalos o clases, teniendo en cuenta que en los mismos, se incluye el primer valor pero no el último, salvo en el último intervalo que si se incluyen los dos. Ejemplo 3. Tabla nº 3: Estatura de los 40 jugadores de básquet de la liga profesional.

Intervalo de clase Frecuencia

Frecuencia relativa fracción decimal porcentaje

[1,70 ; 1,75) [1,75 ; 1,80) [1,80 ; 1,85) [1,85 ; 1,90) [1,90 ; 1,95) [1,95 ; 2,00) [2,00 ; 2,05] TOTAL

1 10 8 4 4 6 7 40

1/40 10/40 8/40 4/40 4/40 6/40 7/40 40/40

0,025 0,25 0,2 0,1 0,1 0,15 0,175 1

2,5 25 20 10 10 15 17,5 100 Fuente: Desconocida

Observación: Los intervalos de clases, también se utilizan cuando la variable toma valores enteros, pero dispersos, en donde es conveniente agruparlos. a-3) Tablas de Contingencias ( para datos categóricos): Son tablas que se utilizan para distribuciones bivariables en donde por cada individuo o elemento de estudio se observan simultáneamente dos características en lugar de una. Muchas veces necesitamos examinar la respuesta a dos variables categóricas simultáneamente. Por ejemplo: La siguiente información corresponde a alumnos de la Facultad de Ciencias de la Salud clasificados según sexo y área de estudio de mayor interés. Esta tabla fue confeccionada a partir de una muestra aleatoria de 837 estudiantes. Tabla nº4: Alumnos de la Facultad de Ciencias de la Salud, según sexo y área de estudio de mayor interés. Cba. 2000

Alumnos según sexo y área de interés Sexo Área de interés Total Varones Mujeres Indecisos 51 29 80 Histología 268 145 413 Anatomía 107 42 149 Clínica general 65 21 86 Fisiología 29 13 42 Epidemiología 36 25 61 Otros 5 1 6 Total 561 276 837 Fuente: Cátedra Estadística. U.N.C 2000

8 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 Estas tablas de dos direcciones, de clasificación cruzada se conocen como tablas de contingencias. En donde 837 representa el total global. Las filas totales corresponden a 80, 413, etc. Y las columnas totales a varón y mujer. b) GRAFICACIÓN: La información que brinda una tabla es más fácil de entender si se presenta en forma gráfica. Existen muchos gráficos estadísticos pero solamente estudiaremos, este año, los gráficos de barras, de puntos y circular. b-1) Gráfico de barra: Para construir los gráficos de barras, se trazan dos ejes perpendiculares, uno horizontal y otro vertical. Si la variable es cuantitativa, en el eje horizontal se ubica la variable y en el vertical la frecuencia. Si la variable es cualitativa, se la escribe en el eje vertical y la frecuencia en el eje horizontal. Para trazar las barras (rectángulos), se tiene en cuenta que las bases son los segmentos iguales que representan a cada variable y las alturas son las respectivas frecuencias (pueden ser frecuencias absolutas, frecuencias relativas o relativas porcentuales).

Sexo alumnos 3ro Polimodal mujeres

varones

0

10

20

30

40

50

60

9 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 b-2) Gráfico de puntos: Para construir un gráfico de puntos, la variable y la frecuencia se ubican de igual forma que en un gráfico de barras.

b-3) Gráfico circular: Para construir gráficos circulares, seguimos los siguientes pasos: 1) Representamos, con un círculo, el número total de la población o muestra. 2) Representamos, con un sector circular, la frecuencia correspondiente a cada variable. Para trazar el sector circular, primero calculamos el ángulo central de la siguiente manera: A la totalidad de la población ..................le corresponde360º A la frecuencia de cada variable.................

x

IMPORTANTE: Tanto el gráfico de barra, el de puntos como el circular se utilizan para representar atributos cualitativos o bien cuantitativos discretos.

10 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015

Sexo alumnos 3ro polimodal

varones 26%

mujeres 74%

b-4) Histogramas y Polígonos de frecuencias: Estos gráficos son empleados para representar variables organizadas en intervalos de clase. Histogramas: Es un conjunto de barras verticales, cada una de las cuales representa un intervalo de agrupación o clase. Sus bases son iguales a las amplitudes de los intervalos y las alturas determinan las frecuencias (pueden ser frecuencias absolutas, frecuencias relativas o relativas porcentuales) Polígono de frecuencia: Se obtiene un polígono de frecuencia al asumir que los puntos medios de cada clase representan a los datos de esa clase y unimos los puntos correspondientes secuencialmente con segmentos de rectas. Estos polígonos son particularmente útiles, cuando se comparan dos o más conjuntos de datos y en ese caso es más conveniente trabajar con frecuencias porcentuales.

11 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 Polígono de frecuencia

b-5) Barras Adosadas o apiladas Este tipo de gráficos se utilizan para distribuciones bivariadas, con datos agrupados en tablas de contingencia.

Area de interes de los alumnos 300 250 200 150 100 50 0 En lugar de utilizar barras adyacentes para cada grupo como en el ejemplo anterior, se podrían utilizar barras seccionadas como en la siguiente situación: El número de personas que asisten a la guardia del hospital Pablo Soria se ha distribuido, durante una semana, según la siguiente tabla. Varones Lunes Martes Miércoles Jueves Viernes Sábado Domingo

Mujeres 26 20 18 30 35 27 30

12 21 22 21 20 22 23

12 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015

Lu ne s M ar te s M ié rc ol es Ju ev es Vi er ne s Sá ba do Do m in go

60 50 40 30 20 10 0

Diagrama de Caja y sesgo: También conocida como resúmen de los cinco números.

X min 0

Q1 0

Me 1

Q3 2,5

X Max 8

Diagrama de Tallo y hojas: Este diagrama organiza los datos numéricos de dos o más dígitos, cuando la muestra es grande, de forma tal que permite simultáneamente realizar el análisis más detallado y brinda una presentación en forma tanto tabular como gráfica. Este diagrama es muy útil, debido a que:  Es de construcción manual muy sencilla.  Permite un fácil ordenamiento de los datos.

13 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 

Puede también utilizarse cuando los datos están distribuidos en intervalos de clase, contando simplemente las hojas correspondientes a cada tallo, ya que cada uno de los tallos define una clase.  Si se gira 90º este esquema, se observaría un gráfico de puntos, de barra o histograma. Por ejemplo: Supongamos que se han contabilizado las llamadas telefónicas por hora de una telecabina y los resultados obtenidos son los siguientes. Ordenar en un diagrama de tallo y hojas los siguientes datos: 116 – 118 – 77 – 116 – 162 – 108 – 119 – 129 – 111 – 102 – 132 162 – 116 – 139 – 125 – 117 – 151 – 165 – 130 – 96 – 129 – 108 172 – 115 – 139 – 146 – 120 – 122 – 158 – 125 – 117 – 95 – 162 120 – 152 – 148 – 80 – 161 – 152 – 104 – 139 – 116 – 146 – 145

tallo 7 8 9 10 11 12 13 14 15 16 17

7 0 5 8 6 9 2 6 1 2 2

6 2 8 5 9 8 8 2

8 6 9 0 6 2 5

4 9 0 9 5 2 2

1 6 7 5 7 6 2 5 0 9

1

7 8 9 10 11 12 13 14 15 16 17

7 0 5 2 1 0 0 5 1 1 2

6 4 5 0 2 6 2 2

8 6 2 9 6 2 2

8 6 5 9 8 8 2

6 6 7 5 9 9 9

5

7 8 9

(1) (1) (2) (4) (10) (7) (5) (4) (4) (5) (1)

hojas

En síntesis. Al igual que las tablas, los gráficos se clasifican según el tipo de variable que pueden describir, el tipo de datos y el tipo de frecuencias que permiten presentar. Utilizando esos criterios, en la siguiente tabla, resumimos la función que cada gráfico puede cumplir.

14 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 Tabla. Tipos de gráficos y sus funciones Gráfico Tipo de Forma en variable que presentan datos Barras simples Cualitativa Datos presentados frecuencias simples

Barras adosadas

la Tipo de Función del Gráfico se frecuencias que los puede utilizarse Frecuencias en absolutas, relativas porcentuales

Datos presentados en Tablas de contingencia

Barras apiladas

Sectores Torta

o

Datos presentados en frecuencias simples Puntos Cuantitativa Datos Discreta presentados en Bastones frecuencias simples Histograma Cuantitativa Datos o agrupados en Polígono de Continua Discreta con intervalos frecuencias diversidad de valores Ojiva

De Tallo y hojas De Caja

Cuantitativa Datos simples Continua o Discreta

Frecuencias porcentuales

Comparar entre categorías Como caso o particular, se utiliza con una variable cuantitativa cuando se tiene algún carácter cualitativo de comparación Comparar las categorías en dos o más grupos de comparación y para dos variables Mostrar qué parte del total representa cada carácter de comparación Comparar entre categorías

Frecuencias absolutas, relativas o porcentuales Frecuencias absolutas, relativas o porcentuales Frecuencias acumuladas, acumuladas relativas o acumuladas porcentuales No se utilizan frecuencias porque los datos aparecen uno a uno (en el caso del diagrama de tallo y hojas)

Permite mostrar la distribución de frecuencias de los datos Permite mostrar la distribución de frecuencias de los datos Mostrar la distribución acumulada. Calcular medidas de posición

Mostrar la distribución de frecuencias Analizar y comparar variación, simetría y valores atípicos entre dos o más distribuciones.

15 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 3º ETAPA – ANÁLISIS DE DATOS: En todo análisis estadístico se pueden usar diversas medidas o propiedades que describen un conjunto de datos, generalmente numéricos y ellas son: las medidas de tendencia central, de dispersión y la forma. Si se las calculan a partir de los datos de una muestra se denominan estadísticos, si se las calcula de una población se los denomina parámetros. Las tres propiedades que describen o resumen un conjunto de datos, generalmente datos numéricos, son: las medidas de posición o tendencia central, las de dispersión y la forma En primer lugar aprenderemos a calcularlas y luego veremos la posibilidad y conveniencia del uso de cada una de acuerdo al tipo de variable y /o a la forma de la distribución de frecuencias. PROPIEDADES

PARÁMETROS Ó ESTADÍSTICOS

DE DISPERSIÓN

DE TENDENCIA CENTRAL

I-Media o Promedio

IV-Moda

III- Mediana

V-Rango medio

FORMA

VI-Eje medio

I-Varianza II-Desviación estándar III-Coeficiente de variación

3º A- MEDIDAS DE TENDENCIA CENTRAL: La mayor parte de un conjunto de datos muestran una tendencia a agruparse alrededor de un punto al que se llama central y, por lo general, es posible elegir algún valor que describa todo el conjunto de datos. Algunos de esos valores son: el promedio o media aritmética, la mediana y la moda. 3a-I) Media aritmética: La media aritmética o media, es la medida de posición que se usa con mayor frecuencia, es el valor representativo de un conjunto de datos, cuando la variable es cuantitativa y no hay valores extremos, que influyan excesivamente en él.

16 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 La media o promedio es el cociente entre la suma de los datos y el número de datos. Se la simboliza con X . Para variables cuantitativas discretas:

x

x1  x 2  x 3  ...  x n x  i n n

letra griega que significa suma de varios sumandos.

Interpretación de la Media Se puede tener una representación de la media x , si se piensa en una regla numérica equilibrada sobre un punto de apoyo, sobre la cual se colocan pesas iguales en el número correspondiente a cada observación. La media actúa como el punto de apoyo que mantiene el equilibrio de las pesas. Por ejemplo: Los alumnos de tercer año se separaron en grupos de cinco personas. La profesora les pide que hallen el promedio de las notas del trimestre de Matemática del grupo. Dos de ellos obtienen el mismo promedio: 7,40. Podríamos suponer que la situación de ambos grupos es la misma, pero veamos la realidad Grupo A: 8 –7 – 8 – 7 – 7

Grupo B: 10 – 4 – 10 – 4 – 9

X A  7,40

X B  7,40

|1 |2 |3 |4 |5 |6 |7 |8 |9 |10

|1 |2 |3 |4 |5 |6 |7 |8 |9 |10

x A  7,40

x B  7,40

Podemos observar que la nota media de cada uno de los grupos es la misma, no obstante, como se observa gráficamente, los dos grupos tienen características diferentes. Para el grupo A la media es una medición descriptiva apropiada para caracterizar al conjunto de datos observados, ya que no se presentan observaciones extremas. Mientras que para el grupo B, la media aritmética presenta una representación algo distorsionada de lo que los datos están transmitiendo y puede que no sea el mejor promedio a usarse.

17 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 Calculo de la media en distribuciones de frecuencias. Cuando conocemos las frecuencias absolutas correspondientes a los datos, la calculamos de una manera más sencilla.

x

x1  f1  x 2  f2  x 3  f3  ...  x n  fn x f  i i n n

Volvemos al primer ejemplo: (Para facilitar el cálculo de la media anexamos una columna)

Variable 0 1 2 3 4 5 6 7 8 Total

frecuencia 29 14 14 9 3 3 3 0 1 76

x  f 122 x  i i   1,6 n 76

Frec. relativa 38 18 18 12 4 4 4 0 1 99

x.f 0.29= 0 1.14= 14 2.14= 28 3.9= 27 4.3= 12 5.3= 15 6.3=18 7.0= 0 8.1= 8 122

Cuando la variable está agrupada en intervalos de clase, tomamos como valor representativo de cada intervalo a su punto medio, al que llamamos: Marca de Clase.

Ejm nº3: Variable [1,70 – 1,75) [1,75 – 1,80) [1,80 – 1,85) [1,85 – 1,90) [1,90 – 1,95) [1,95 – 2,00) [2,00 – 2,05) TOTAL

frecuencia 1 10 8 4 4 6 7 40

Frec. relativa 0,025 0,25 0,2 0,1 0,1 0,15 0,175 1

Marca de clase 1,725 1,775 1,825 1,875 1,925 1,975 2,025

Xim . f 1,725x 1=1,725 17,75 14,6 7,5 7,7 11,85 14,175 75,3

3a-II) Mediana: La mediana es el dato que ocupa el lugar central (cuando los datos se encuentran ordenados de menor a mayor). Es decir, la mediana es el valor que deja la misma cantidad de datos por debajo y por encima de él. Si la cantidad de datos es impar, la mediana es el valor central. Si la cantidad de datos es par, la mediana es el promedio de los dos valores centrales. Ejm: Se presentan las notas de una alumna de 3º año, al finalizar el primer trimestre. 8 – 4 – 7 – 9 – 8 – 10 – 6 – 8 – 8 – 7 – 6 – 8 – 7 .

18 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 Para calcular la mediana primero debemos ordenar los datos de menor a mayor 4 – 6 – 6 –7 – 7 – 7 – 8 – 8 – 8 – 8 – 8 – 9 – 10 . Como el número de datos es impar la mediana es el valor central. 4 – 6 – 6 – 7 – 7 – 7 – 8 – 8 – 8 – 8 – 8 – 9 – 10 . Me = 8 Si el número de datos es par. Por ejemplo: 4 – 6 – 6 – 7 – 7 – 7 – 7 – 8 – 8 – 8 – 8 – 8 – 9 – 10. Me =

78  7,50 . 2

Cuando trabajamos con muchos datos, resulta poco práctico encontrar la mediana de esta manera, entonces es conveniente aumentar una nueva columna a la tabla con las frecuencias absolutas acumuladas, para facilitar el cálculo.

Variable

frecuencia

Frec. relativa

0 1 2 3 4 5 6 7 8 Total

29 14 14 9 3 3 3 0 1 76

38 18 18 12 4 4 4 0 1 99

x.f

Frec. acumulada

0.29= 0 1.14= 14 2.14= 28 3.9= 27 4.3= 12 5.3= 15 6.3=18 7.0= 0 8.1= 8 122

29 43 57 66 69 72 75 75 76

La mediana es el valor de la variable, al que le corresponde una frecuencia acumulada mayor que la mitad del número de datos. Frec. Acumulada >

N  1 77  2 2

 38,5 

Me =1

Para calcular la mediana cuando trabajamos con intervalos de clases, procedemos de la siguiente manera: Como por definición de mediana, ésta debe encontrarse en la clase que contenga el elemento N/2. Podemos encontrar el intervalo mediano.

19 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 Variable

frecuencia

Frec. Marca de Xim . f Relativa clase 1 0,025 1,725 1,725x 1=1,725 [1,70 – 1,75) 10 0,25 1,775 17,75 [1,75 – 1,80) 8 0,2 1,825 14,6 [1,80 – 1,85) 4 0,1 1,875 7,5 [1,85 – 1,90) 4 0,1 1,925 7,7 [1,90 – 1,95) 6 0,15 1,975 11,85 [1,95 – 2,00) 7 0,175 2,025 14,175 [2,00 – 2,05) 40 1 75,3 TOTAL O a través de la siguiente fórmula de interpolación:

Frec. acumulada 1 11 19 23 27 33 40

N    fa1 2 Me  L 1    C fme en donde: L1= limite inferior de la clase mediana. N = número total de datos. fa1= Frecuencia acumulada de la clase anterior. Fme= Frecuencia absoluta de la clase mediana. C = Amplitud del intervalo

40 / 2  19 4

Me =..1,85...+

.0,05  1,85 

1 4

 0,05  1,86

Se utiliza la mediana en lugar de la media, cuando hay valores extremos que influyen demasiado en la media o cuando trabajamos con intervalos en los que el primero o el último elemento no está bien definido. Por ejemplo: “menos de” o “más de”, es decir no podemos determinar el valor real de la variable o de la marca de clase. Se puede utilizar la mediana si trabajamos con caracteres cualitativos, si las modalidades son ordenables. Por ejemplo: “malo”, “regular”, “bueno”, “muy bueno” 3a–III ) Moda: Es el o los valores de los datos que tiene mayor frecuencia. Cuando trabajamos con datos agrupados en intervalos, podemos encontrar el intervalo modal, o sea el intervalo al que le corresponde la mayor frecuencia o a través de la siguiente fórmula de interpolación:

Mo  L1 

f1 C (f1  f2 )

En donde:

20 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 L1= límite inferior de la clase modal. f1= Frecuencia del intervalo modal menos frecuencia del intervalo anterior f2= Frecuencia del intervalo modal menos frecuencia del intervalo posterior. C = Amplitud del intervalo. La moda es el único parámetro de posición central que podemos utilizar para representar un conjunto de datos cualitativos, cuyas modalidades no podemos ordenar Ejercicio. Calcular la moda para los tres ejercicios presentados con anterioridad: Ej. 1: Mo=

Ej. 2: Mo=

Ej. 3: Mo=

No siempre los tres parámetros nos brindan la misma información, por lo que debemos analizar cuándo es conveniente calcular cada uno de ellos.

En conclusión las Medidas de tendencia central, nos permiten identificar los valores más representativos de los datos, de acuerdo a la manera como se tienden a concentrar. La Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana por el contrario nos informa el valor que separa los datos en dos partes iguales, cada una de las cuales cuenta con el cincuenta por ciento de los datos. Por último la Moda nos indica el valor que más se repite dentro de los datos.

3º B - MEDIDAS DE POSICIÓN NO CENTRALES CUARTILES Son mediciones útiles de posición pero “no central” que se emplean para resumir o describir las propiedades de datos numéricos. Los cuartiles son los valores de la variable que dividen al lote ordenado en cuatro partes que contienen la misma cantidad de datos. El primer cuartil Q1, deja el 25% de las observaciones por debajo y el 75% por encima. El segundo cuartil Q2, deja el 50% de las observaciones por debajo y el 50% por encima. Coincide con la mediana. El tercer cuartil Q3, deja el 75% de las observaciones por debajo y el 25% por encima.  Cálculo de los cuartiles para datos sin agrupar Para calcular los cuartiles se procede de la misma manera que en el caso de la mediana, excepto que se divide a la distribución de frecuencia en cuatro partes en vez de dos. Buscamos los puntos de posicionamiento.

21 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 Para: Q1=

n 1 4

Para Q2 =

2 n  1 n  1  4 2 2

Para Q3=

3  n  1 4

Analizamos los ejemplos trabajados cuando estudiamos la mediana. a) 4 – 6 – 6 – 7 – 7 – 7 – 7 – 7 - 8 – 8 – 8 – 9 – 9 – 9 - 10 . 4 – 6 – 6 – 7 – 7 – 7 – 7 – 7 – 8 – 8 – 8 - 9 – 9 – 9 – 10 . Q1

Q2=Me

Q3

Para Q1=

n  1 15   3,75 4 4

Q 1=

67  6 ,5  7 2

Para Q2 =

n 1 8 2

Q2=7

Para Q3=

3  n  1 3.15   11,5 4 4

Q3=

89  8 ,5  9 2

3º C- MEDIDAS DE DISPERSIÓN A veces no nos alcanza con conocer un valor central de un conjunto de datos para sacar una conclusión, por eso también se utilizan los parámetros o estadísticos de dispersión que nos permite saber si los datos están muy agrupados o no respecto de un valor central. Algunas de las medidas que son muy útiles para conocer esa variabilidad son: la varianza, la desviación estándar y el coeficiente de variación.

Para una mayor comprensión estudiaremos las medidas de dispersión a partir de los ejemplos trabajados con anterioridad. Los alumnos de tercer año se separaron en grupos de cinco personas. La profesora les pide que hallen el promedio de las notas del primer parcial de Estadística del grupo. Dos de ellos obtienen el mismo promedio: 7,40. Podríamos suponer que la situación de ambos grupos es la misma, pero veamos la realidad Grupo A: 8 –7 – 8 – 7 – 7

x A  7,40

|1 |2 |3 |4 |5 |6 |7 |8 |9 |10

x A  7,40

Grupo B: 10 – 4 – 10 – 4 – 9

x B  7,40

|1 |2 |3 |4 |5 |6 |7 |8 |9 |10

x B  7,40

22 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015

Como podemos observar, el promedio no nos brinda información acerca de la variabilidad de los datos por lo que es necesario encontrar medidas de variabilidad o de dispersión para los dos grupos: La muestra A es menos variable que la muestra B. Algunas de las medidas que son muy útiles para conocer esa variabilidad son: la varianza, la desviación estándar y el coeficiente de variación. 3ºc I - Varianza: Es la suma de las desviaciones con respecto a la media aritmética Para el grupo A

(8  7,40)2  (7  7,40)2  (8  7,40)2  (7  7,40)2  (7  7,40)2 V(x)   5

Para el grupo B

V(x) 

(10  7,40)2  (4  7,40)2  (9  7,40)2  (4  7,40)2  (10  7,40)2  5

3º c II – Desviación estándar Es la raíz cuadrada positiva de la varianza. Es la medida de dispersión más utilizada, pues se expresa en la misma unidad que la variable de estudio. 2

S= S

S 

x i  x 2  

x

n 1

2 i

o bien la fórmula reducida para el cálculo es:

 f  x n 2

n 1

De dos distribuciones con igual promedio, la que tenga menor varianza (o desviación estándar) será menos dispersa, es decir que su media será más representativa. Las desviaciones estándar halladas nos indican que las notas de los alumnos del grupo B, se alejan mucho más del promedio que las notas de los alumnos del grupo A. Eso indica que para el grupo B, el promedio no es un valor representativo de los datos, mientras que para el grupo A, como la desviación estándar es pequeña, el promedio es representativo de los datos.

23 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 3 c III - Coeficiente de variación: Es el cociente entre la desviación estándar y el promedio de un mismo conjunto de datos. El coeficiente de variación no tiene unidad de medida; por lo tanto, permite comparar poblaciones con distintos promedios y también con distintas unidades de medida

C.V.( x ) 

x  x

En general, se considera que un coeficiente de variación aproximadamente menor que 0,2 indica que la distribución de datos es poco dispersa, o sea que su promedio será representativo de todo el conjunto de datos. Se dice entonces que la distribución es homogénea. Calculamos los coeficientes de variación para los ejemplos 1 y 3.

Ej 1: C.V.( x )  Ej 2: C.V.( x ) 

x  x x  x

=

=

3 d - FORMA La tercera propiedad importante de un conjunto de datos es su forma, la manera en que se distribuyen los datos. La distribución puede ser simétrica o sesgada. Para describir la forma sólo necesitamos comparar la media y la mediana, si ambas coinciden, los datos son simétricos o de sesgo cero. Si la media es mayor que la mediana los datos presentan un sesgo positivo o sesgado a la derecha. Si la media es menor que la mediana, los datos presentan un sesgo negativo o sesgado a la izquierda. Esto es, Media > Mediana: sesgo positivo o derecho. Media = Mediana: simétrico o sesgo cero. Media < Mediana: sesgo negativo o izquierdo. El sesgo negativo se presenta cuando la media se ve reducida por algunos valores extremadamente bajos.

x  80  Me  90

40 50 60 70 80 90 100

24 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 El sesgo positivo se presenta cuando la media se ve afectada por algunos valores extremadamente grandes.

x  60  Me  50 40 50 60 70 80 90 100

El sesgo cero muestra el desempeño normal del conjunto de datos. Los valores altos y bajos se equilibran.

x  70  Me  70

40 50 60 70 80 90 100

Para los siguientes datos, resulta que x  Me  25 y sin embargo la distribución no es simétrica.

0 10 20 30 40 50 60 70

Bibliografía Consultada 

BLANCH, Nidia y JOEKES, Silvia. Curso de Posgrado. Estadística aplicada a la Investigación. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Córdoba. 1993  PRIEMER, Nélida. Curso de actualización y Perfeccionamiento: Estadística Descriptiva y Probabilidad. Universidad Nacional de Jujuy. Facultad de Ingeniería. Jujuy. 2000.  Instituto Nacional de Formación Docente. Clase 1: Contextualización de la Educación Estadística y de sus conceptos claves. Enseñanza de la Probabilidad y la Estadística. Especialización docente de Nivel Superior en la enseñanza de la matemática en la Escuela Secundaria. Buenos Aires: Ministerio de Educación de la Nación.

25 Prof. Mariana Bovi


Bibliografía – 3er Año A y B Polimodal – COLEGIO SANTA BÁRBARA -2015 

Instituto Nacional de Formación Docente. Clase 2: Ideas estocásticas fundamentales en la enseñanza de probabilidad y estadística. Enseñanza de la Probabilidad y la Estadística. Especialización docente de Nivel Superior en la enseñanza de la matemática en la Escuela Secundaria. Buenos Aires: Ministerio de Educación de la Nación.  Instituto Nacional de Formación Docente. Clase 3: Ideas estocásticas fundamentales en la enseñanza de probabilidad y estadística (Parte 2). Enseñanza de la Probabilidad y la Estadística. Especialización docente de Nivel Superior en la enseñanza de la matemática en la Escuela Secundaria. Buenos Aires: Ministerio de Educación de la Nación.

26 Prof. Mariana Bovi


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.