LECCIÓN 1 PRESENTACIÓN DE DATOS Cuando se realiza la recopilación de antecedentes con fines estadísticos, se obtiene una gran cantidad de datos, algunas veces estos están en su forma natural o empírica y otras ya están organizadas en tablas, cuadros y gráficos. En el trabajo
estadístico siempre se
definitivamente tienen
dispone de muchos datos que
que ser clasificados,
ordenados y presentados
adecuadamente, de tal manera que facilite la comprensión, descripción y análisis del fenómeno estudiado. La presentación de datos implica tener la información estadística organizada para proceder al análisis e interpretación de los resultados y de los aspectos considerados de la población en estudio. Existen dos formas de presentar ordenadamente los datos estadísticos: •
En forma tabular, como son los cuadros y tablas estadísticas.
•
Mediante gráficos y diagramas. Fundamentalmente se usa la forma tabular, los gráficos estadísticos se utilizan complementariamente para ¡lustrar el comportamiento de las variables y facilitar la comprensión de los fenómenos estudiados. LECCIÓN 2 TABLÁS DE DISTRIBUCIÓN DE FRECUENCIAS
Son tablas de trabajo estadístico, resultado de la operación de tabulación, que presentan la distribución de un conjunto de elementos de acuerdo a las categorías de la variable. En ellas se observa la frecuencia y los diversos tipos de frecuencias.
2.1.
TABULACIÓN: Consiste en distribuir los elementos de la población o muestra en la respectiva categoría o intervalo de la variable. Aquí se contabiliza cuántos elementos hay cada categoría, es decir, determinar cuántas veces se repite (frecuencia) cada valor distinto o categorías de las variables.
2.2.
FRECUENCIA: Es la repetición de cada uno de los valores de la variable, que se obtiene después de realizar la operación de tabulación
2.2.1. TIPOS DE FRECUENCIA •
RECUENCIA ABSOLUTA: Es el número de incidencias o repeticiones
de un valor o .conjunto de valores de una variable. Estas a su vez pueden ser: a) Frecuencia Absoluta Simple (fi ) : Es aquella que corresponde a cada valor individual de la variable. Se cumple que: m
∑ fi = n
o ≤ fi ≤ n y Donde:
i =1
n: Tamaño de la muestra o cantidad total de
datos m: Número total de valores distintos que tiene la variable (o el
número de intervalos),
b) Frecuencia Absoluta Acumulada (Fi): Para un valor Xi de la variable, la frecuencia absoluta acumulada representa la cantidad de datos menores o iguales a dicho valor. Se cumple: j
Fi = ∑ fi i =1
o FRECUENCIA RELATIVA: Es un indicador del porcentaje de un valor o conjunto de valores de una variable. . A se vez, se divide en: a) Frecuencia Relativa Simple (hi): Indica el porcentaje de un valor específico de la variable. Se determina dividiendo cada unos de los valores de la frecuencia absoluta simple entre el total de datos. Se cumple
0 ≤ hi ≤ 1
hi = fi / n
m
∑ hi = 1 i =1
b) Frecuencia Relativa Acumulada (Hi): Para un valor xi de la variable, la frecuencia relativa acumulada es un indicador del porcentaje de datos menores o iguales a dicho valor. Se obtiene dividiendo cada valor de la frecuencia absoluta acumulada en el total1 de datos. Se cumple.
Hi = Fi / n
j
tambien Hi ∑ hi i =1
• FRECUENCIA PORCENTUAL (Pi): Indica el porcentaje de los valores de cada variable. Se obtiene multiplicando por 100 cada una de las frecuencias relativas simples. Es decir Pi = hix100%
Cabe mencionar que toda tabla de distribución de frecuencias debe presentar como partes esenciales de referencia: •
TÍTULO: Es la descripción resumida del contenido de la tabla. La redacción del título debe ser breve, clara y completa.
•
FUENTE: Es la indicación al pie de la tabla, que sirve para nombrar la entidad, estudio o fuente de donde se obtuvieron los datos utilizados para elaborar la tabla.
2.3.
Distribución de frecuencias para variables cualitativas. Se
presenta
cuando
las
observaciones
no
son
medibles
cuantitativamente. MODELO DE TABLA DE DISTRIBUCIÓB DE FRECUENCIAS PARA VATIABLES CUALITATIVAS Valores de la Frecuencia, variable Absoluta Simple x f
X1 X2 x3 . . XR TOTAL
Frecuencia Frecuencia Frecuencia Absoluta Relativa Relativa Acumulada Simple Acumulada F h H
Frecuencia Porcentual P
f1
F1
h1
H1
P1
f2 f3 . .
F2 F3 . .
h2
H2
P2
h3 . .
H3 . .
P3 . .
hx 100
Hx
Px
fx n
F„ = n
Ejemplo 1: Se seleccionó una muestra aleatoria de 30 profesores de un Centro Educativo del distrito de San Miguel y se les preguntó como calificarían la gestión del Director de la Unidad de Gestión Educativa Local (UGEL); obteniéndose las siguientes respuestas: EXCELENTE
REGULAR
REGULAR
MALA
REGULAR
BUENA
BUENA
MALA
MALA
MALA
BUENA
REGULAR
REGULAR
REGULAR
BUENA
BUENA
MALA
MALA
REGULAR
MALA
REGULAR
REGULAR
MALA
REGULAR
BUENA
BUENA
BUENA
REGULAR
REGULAR
REGULAR
Los datos se presentan en la siguiente tabla de distribuci贸n: TABLA 1: OPINION DE 30 PROFESORES SOBRE LA GESTION DEL DIRECTOR DE LA UGEL N掳 5 Calificaci贸n X1 EXCELENTE BUENA REGULAR MALA TOTAL
f 1 8 13 8 30
F1 1 9 12 30
Fuente: Encuesta de opini贸n
h 0,03 0,27 0,43 0,27 1.00
H, 0,03 0,3 0,73 1,00
P 3% 27% 43% 27 100%
EJERCICIO Ns1 1. De una encuesta aplicada a 60 habitantes de la ciudad de Huaraz, sobre el grado de credibilidad de su alcalde, se obtuvieron las siguientes respuestas. c
d
e
a
a
b
b
c
c
c
a
d
b
b
a
c
c
c
d
e
b
c
b
b
b
c
a
d
a
c
c
d
c
d
a
d
e
b
b
b
c
c
b
d
d
a
b
c
d
c
a
d
c
b
c
d
d
b
c
d
Las letras representan las siguientes alternativas de respuesta: a: Siempre dice la verdad
b: Casi siempre dice la verdad
c: A veces dice la verdad
d: Casi nunca dice la verdad
e. Nunca dice la verdad Se pide: a) Determine el tipo de variable y la unidad de análisis. b) Elabore la tabla de distribución de frecuencia. c) ¿Qué opina la mayoría de habitantes y con qué porcentaje? 2. Para un trabajo de investigación sobre Programas Televisivos, se aplicó una encuesta a 55 estudiantes universitarios de la carrera de Administración, donde las respuestas a la pregunta ¿Qué tipo de programa prefiere?, fueron las siguientes: D 0
C
M
D
0
1
D
0
T
I
C
M 0
D
T
I
I
D
C
T
I
M
I
0 D
T
0
T
T
D
T
I
M
M
M
C T
I
0
M
C
M
I
0
T
I
T
M
C
I
T
M
C
I
Donde: C: Ciencia - Cultural
M: Musical
T: Talk-Show
I: Informativo
D: Deportivo
O: Otro tipo.
Se pide: a. Determine el tipo de variable y la unidad de análisis. b. Elabore la Tabla de distribución de frecuencias. c. ¿Qué programa televisivo tiene mayor preferencia y con qué porcentaje? CLAVE DE RESPUESTA – EJERCICIO N° 1 1. a. Tipo de variable: Cualitativa ordinal Unidad de Análisis: Habitante de la ciudad de Huaraz b. Tabla de distribución de frecuencia. Programa de credibilidad siempre dice la verdad Casi siempre dice la verdad A veces dice la verdad Casi nunca dice la verdad Nunca dice la verdad Total
fi 9 15 19 14 3 60
Fi 9 24 43 57 60
hi 0,15 0,25 0,32 0,23 0,05 1,00
Pi 15 % 25 % 32 % 23 % 5% 100%
c. La mayoría de habitantes opina que el alcalde a veces dice la verdad, lo que representa el 32% de la población. 2. a. Tipo de variable: Cualitativa nominal Unidad de análisis: Estudiante universitario Administración. b. Tabla de Distribución de Frecuencia
de
la
carrera
de
Programa de televisión preferido Ciencia - Cultural Musical Talk - Show Informativo Deportivo Otro tipo Total
fi 7 10 11 12 7 8 55
Fi 7 17 28 40 47 55
hi 0,13 0,18 0,2 0,22 0,13 0,14 1,00
P 13% 18% 20% 22 % 13% 14% 100%
c. El programa con mayor preferencia es el informativo con un 22%
2.4.
Distribución
de
frecuencias
para variables cuantitativas
discretas. La variable discreta es aquella cuyo valor sólo se puede expresar por números enteros; los valores corresponden a puntos aislados de la recta numérica. En este caso se utiliza el mismo modelo de tabla de distribución de frecuencias para variables cualitativas, pues es posible ordenar los valores de la primera columna en forma ascendente, siempre y cuando el tamaño de la muestra presentada no sea muy grande. EJEMPLO
1:
Considerando
la
siguiente
toma
de
datos
correspondientes a la cantidad de goles a favor que tuvo un equipo de fútbol en el Torneo Clausura de Fútbol. 2
0
1
2
4
1
2
3
2
1
2
3
2
1
5
0
1
1
,
i)
Elabore una tabla de distribución de frecuencias.
ii)
¿Qué porcentaje de partidos de fútbol, tuvieron más de 2 goles? Solución
Los datos se presentan en la siguiente tabla:
TABLA N 1 CANTIDAD DE GOLES A FAVOR DE UN EQUIPO DE FUTBOL EN EL TORNEO CLAUSURA CANTIDAD DE GOLES Xi 0 1 2 3 4 5 TOTAL
fi
FI
fi
Hi
Pi
2 6 6 2 l 1 18
2 8 14 16 17 18
0,11 0,33 -0,33 0,11 0,06 0,06 1,00
0,11 0,44 0,77 0,88 0,94 1,00
11 % 33% 33% 11 % 6% 6% 100%
Fuente: Federación de Futbol Peruano iii)
El porcentaje de partidos de fútbol con más de 2 goles fue : 11 % +6 % + 6% = 23%
EJEMPLO 2: Los datos mostrados a continuación representan la cantidad de alumnos de la sección "C" que asistieron a cada una de las 25 clases del curso de matemática, durante el semestre 2006 – I 45
48
51 49 46 51
42
45 51 45 49
42
47 49 48 43
43
51
46 44 44 47
42
48
46
i)
Elabore la tabla de distribución de frecuencias.
ii)
¿Qué porcentaje de clases tuvieron una cantidad de asistentes superior a 46?
Solución
i)
Los datos corresponden a la siguiente tabla
TABLA 2: CANTIDAD DE ASISTENTES A 25 CLASES DE MATEMĂ TICA DEL SEMETRE 2006 Cantidad de asistentes 42 43 44 45 46 47 48 49 51 TOTAL
f1
F1
H1
H1
P1
3 2 2 3 3 2 3 3 4 25
3 5 7 10 13 15 18 21 "25
0,12 0,08 0,08 0,12 0,12 0,08 0,12 0,12 0,16 1,00
0,12 0,20 0,28 0,40 0,52 0,60 0,72 0,84 1,00
12% 8% 8% 12% 12% 8% 12% 12% 16% 100%
Fuente: Registro de asistencia ii)
El porcentaje de clases que tuvieron una cantidad de asistentes superior a 46 fue: 8 % + 12 % + 12 % + 16 % = 48 %
EJERCICIO N9 2. 1. Los siguientes datos se refieren al númerode
libros
de
Estadística
consultados por estudiantes para rendir el examen parcial del curso.
2 0 1 0 3
0 1 5 0 1
4 1 2 3 3
4 1 2 0 1
1 0 5 1 2
4 1 3 2 0
0 2 4 2 5
3 4 0 1 6
2 0 4 2 3
0 1 0 0 2
Se pide: a.
Elabore la Tabla de Distribución de Frecuencia.
b.
¿Qué porcentaje de alumnos consultó de 5 a 6 libros?
c.¿Qué porcentaje de alumnos no consultó ningún libro para el examen? 2. A continuación se muestra el número de días que permanecieron 38 familias en un centro de esparcimiento de Chosica durante las vacaciones del mes de enero.
Se pide:
1
2
3
3
4
3
2
5
2
5
2
5
6
1
1
3
2
4
1
1
4
1
2
3
4
4
3
2
3
2
2
2
6
6
4
2
6
5
a. Elaborar la Tabla de Distribución de Frecuencia. b. ¿Cuáles son los valores de x3 y F4 respectivamente? c. ¿Cuáles son los valores de h2 y H5 respectivamente? CLAVE DE RESPUESTAS - EJERCICIO N° 2 1. a. Tabla de Distribución de Frecuencia Numero de libros 0 1 2 3 4 5 6 Total
fi 13 11 9 6 7 3 1 50
hi 0,26 0,22 0,18 0,12 0,14 0,06 0,02 1,00
Pi 26% 22% 18% 12% 14% 6% 2% 100 %
b. El 8% de estudiantes consultó entre 5 y 6 libros de Estadística. c. El 26% de estudiantes no consultó ningún libro. 2. a. Tabla de-Distribución de Frecuencia" Numero de dias 1 2 3 4 5 6 Total
b. x3 =3 y F4=30 c. h2 = 0,29 y H5=0,89
fi 6 11 7 6 4 4 38
Fi 6 17 24 3034 38
hi 0,16 0,29 0,18 0,16 0,11 0,11 1,00
Hi 0,16 0,45 0,63 0,79 0,89 1,00
2.5.
Distribución de frecuencias para variables cuantitativas continuas. Como mencionamos anteriormente, una variable continua puede tomar cualquier valor comprendido en un intervalo, es decir su valor puede ser un número entero o una fracción. Por este motivo, considerando que la variable continua toma valores racionales, y no es práctico representar un número grande de valores distintos, pues significaría tener una tabla con una gran cantidad de filas y columnas, se acostumbra a presentar los datos utilizando Intervalos de Clase en las tablas de frecuencia.
2.5.1. CONCEPTOS BÁSICOS. •
INTERVALOS
DE
CLASE:
Son
subconjuntos
numéricos,
conformados por todos aquellos números reales comprendidos entre dos extremos, conocidos como Límite Inferior y Límite Superior. En estadística, los tipos de intervalos de clase que mas se usan son: a) SEMIABIERTOS [a - b): En este caso, el intervalo contiene a todos los números comprendidos entre ambos extremos, incluyendo el límite inferior, pero sin incluir el límite superior. Por este motivo, se debe tener 'especial cuidado en que en la tabla de distribuciones él límite superior del último intervalo sea mayor que el valor máximo adoptado por la variable para garantizar cubrir la totalidad de datos. Se recomienda emplear este tipo de intervalos cuando la variable sea cuantitativa continua. b) CERRADOS [a - b]: A diferencia de los intervalos semiabiertos, los intervalos cerrados también incluyen a sus respectivos límites superiores. Generalmente se utilizan cuando la variable es cuantitativa discreta.
•
AMPLITUD DE CLASE: También se conoce como tamaño o ancho del intervalo. Es La diferencia que hay entre el límite superior y el límite inferior de un intervalo de clase. Es recomendables que en una tabla la amplitud de sus intervalos sea constant
•
LIMITE REAL DE
CLASE: Se denomina así a los extremos de
intervalos semiabiertos. •
LIMITE APARENTE DE CLASE: Se denomina así a los extremos de intervalos cerrados.
Cuando se tiene intervalos cerrados y se desea determinar los intervalos reales, estos se calculan añadiendo (para los límites reales superiores) o quitando (para los límites reales inferiores) la mitad de la unidad al límite aparente respectivo. EJEMPLO 1: Si la unidad es 1, determine los límites aparentes y reales del siguiente intervalo: [ 3 - 5 ] Solución: Límite Aparente Inferior (L.A.I.)
:3
Límite Aparente Superior (L.A.S.)
:5
Límite Real Inferior (L.R.I.)
: 3 - 0,5 = 2,5
Límite Real Superior (L.R.S.)
: 5 + 0,5 = 5,5
MARCA DE CLASE:
Es el punto medio de un intervalo de clase y por tanto aquel que representara en cualquier operación posterior. Se obtiene como resultado de la semisuma de los límites superior e inferior independientemente del tipo de límites.
EJEMPLO 2:
Del ejemplo anterior tenemos que: Marca de Clase
= (3 + 5) /2 = 4 ó
= (2,5 + 5,5) / 2 = 4
PROCEDIMIENTO
GENERAL
PARA
ELABORAR
TABLAS
DE
DISTRIGUCION FRECUENCIA CON INTERVALOS DE CLASE 1. ELECCIÓN DEL TIPO DE INTERVALO: Aunque no es una regla inquebrantable, se recomienda lo siguiente: Para variables cuantitativas •
Discretas: intervalos cerrados
•
Continuas: intervalos semiabiertos
2. DETERMINACION DEL RANGO o RECORRIDO (R) La unidad depende de la naturaleza de los datos originales. Es decir, si todos los datos son enteros la unidad será 1, bastara que uno de los datos tenga un decimal para que la unidad sea 0,1; si los datos poseen dos decimales o por lo menos uno de ellos tiene dos decimales, la unidad será 0,01, y así sucesivamente 3. DETERMINACIÓN DEL NUMERO DE INTERVALOS DE CLASE (m) : El número de intervalos de una tabla de frecuencias es un numero entero. Algunos de los criterios que pueden emplearse para determinarlo son los siguientes a) Regla de Sturges (criterio de Huntsberger) m ≥ 1 + 3,32 log n Si n < 100 m ≥ 3 + 3,32 log n Si n < 100 b) Regla de ingeniero (Criterio de Norciliffe) Si n < 25
m=5
Si n < 25
m≥ n
En cualquiera de los casos, se debe tener en cuenta que el valor elegido para m deberá ser el entero inmediato superior al resultado obtenido. Ejemplo: Si el total de datos es 36, bajo el criterio de Norcliffe (n > 25 ) se debe elaborar la tabla con un numero de intervalos entero superior o
36 igual a
es decir 6 intervalos.
Sin embargo, si se emplea el criterio de Hunstberge, el número de intervalos recomendado deberá ser el primer entero superior al resultado de ( 1+ 3,32 log 36), es decir superior a 6,17 , por lo tanto se recomendaría 7 intervalos. Nota: Es importante que se percate que no se debe redondear el resultado, lo que eventualmente podría dar una respuesta correcta, sino elegir siempre el entero inmediato superior. 4. DETERMINACION DEL TAMAÑO DE CLASE O AMPLITUD DEL INTERVALO (C): Se emplea la siguiente fórmula:
c = R/m
El valor de C debe ser de la misma naturaleza que los datos originales, es decir deberá tener la misma cantidad de decimales que estos, por lo que en algunos casos es preciso redondear el resultado. 5. DETERMINACIÓN DE LOS LÍMITES DE CLASE: El límite inferior del primer intervalo deberá ser el valor mínimo. El límite superior de cada intervalo depende del tipo de intervalo elegido para elaborar la tabla. Así tenemos que: INTERVALOS SEMIABIERTOS
En el caso de intervalos semiabiertos, el límite superior de un intervalo se obtiene sumando el tamaño de clase (C) al límite inferior del respectivo intervalo, es decir:
L.R.Si = L.R.I i + c
Otra característica de las tablas elaboradas son intervalos semiabiertos es que siempre el límite superior de un intervalo será igual al límite inferior del siguiente intervalo es decir, se cumple
L.R.Si = L.R.I i +1
INTERVALOS CERRADOS En el caso de tablas elaboradas con intervalos cerrados, se cumple que siempre el límite aparente superior de un intervalo será menor en una unidad que el límite aparente inferior del intervalo siguiente:
L. A.I .i + 1 = L. A.Si + unidad
6. DETERMINACIÓN DE LAS MARCAS DE CLASE Tal como se vio anteriormente, se calculara la marca de clase empleando la siguiente formula: MCi = ( L.I .i + L.S .i ) / 2
La fórmula es válida tanto para límites reales como para aparentes. 7. DETERMINACIÓN DE FRECUENCIAS: Se procede al conteo de la cantidad de observaciones que caen dentro de cada intervalo para determinar posteriormente las frecuencias absolutas y relativas. Nota: Recuerde que mientras que para los "intervalos cerrados" el extremo superior le pertenece, para los "intervalos semiabiertos a la derecha" el
extremo superior no le pertenece. Es decir en el intervalo cerrado [4 -7], se debe contar todos los datos entre 4 y 7 incluyendo ambos extremos, mientras que para el intervalo semiabierto [4 - 7[, se debe contar desde el valor 4 hasta los inferiores a 7, es decir el valor 7 no forma parte del intervalo.
MODELO DE TABLA DE FRECUENCIAS CON INTERVALOS SEMIABIERTOS A LA DERECHA PARA VARIABLE CUANTITATIVA CONTINUA O CUANTITATIVA DISCRETA DE "MUCHOS VALORES" Variable (Xยก) .
MCยก
fi
L.R.I.1 - L.R.S1
MC]
fi
Fl-f,
h,
Hi =hยก
L.R.I.2 - L.R.S.2
MC2
h
F2 = f 1 + f2
h2
H2 = hi + h2
L.R.I.3 - L.R.S.3
M.C3
13
F3 - f i + f 2 + f 3
h3
H3 = h) + h2 + h3
L.R.I.m - L.R.S.m
MCm
Fm=n
hm
Hm= 1,00
TOTAL
Fi
hi
n
Hi:
1,00
MODELO DE TABLA DE FRECUENCIAS CON INTERVALOS CERRADOS PARA VARIABLE CUANTITATIVA CONTINUA O CUANTITATIVA DISCRETA DE "MUCHOS VALORES" Variable (xยก) L.R.I.1 - L.R.S1 L.R.I.2 - L.R.S.2 L.R.I.3 - L.R.S.3
MC, MC1 MC2 MC3
fi fi h h
Fi F1-f1 F2 = f, + f2 F3 = f 1 + f2 + f 3
L.R.I.m - L.R.S.m TOTAL
MCm fm Fm =n n
hi h, h2 h3 hm 1,00
Hi Hi=hi H2 = hi + h2 H3 = h1 + h2 +h3 Hm= 1,00
EJEMPLO 1:
El tiempo que duran 40 baterías de fumadora ( en horas ) sin que sea recargado fueron los siguientes :
11,3 15,8 8,6 11,9 16,8 12,7
18,4 12,3 18,0
12,7 12,3 11,0
9,6 13,4 10,5
15,8 13,9 19,3
16,4 12,2 13,0
17,3 13,4 14,6
11,2 15,1 10,1
13,9 9,1 16,2
18,4 11,5
17,5
16,3
14,3
10,2
18,3
15,7
11,9
15,2
Se pide: a) Determine el tipo de variable b) Elabore la Tabla de Distribución de Frecuencias empleando intervalos semiabiertos y la Regla de Sturges. ( Nota: Redondee a dos decimales) c) ¿Cuantas baterías tuvieron duraciones mayores o iguales a 13,2 y menores a 16,4 horas d) ¿Qué porcentaje de baterías tuvieron duraciones superiores a 14,8 horas? Solución: a) Tipo de Variable
:
Cuantitativa Continua.
b) Procedimiento •
•
Tipo de intervalo
Rango
: Semiabierto.
:
R = Vmax- min + unidad => R = 19,3 - 8,6 R = 10,7 horas.
•
Ns de intervalos (Regla de Sturges): n = 40 < 100. o m> 1 + 3,32 log n =>m> 1 + 3,32 log 40 =>m> 6,318839171209 o =>m = 7
•
Tamaño de clase
:
C = R /m => C = 10,7/7 C = 1,5285714285... => C = 1,5 horas (datos con un decimal).
Duración (horas) 08,6-10,1
MCi 09,35
fi 3
10,1-11,6 11,6-13,1 13,1-14 ,6 14,6-16,1 16,1-17,6 17,6-19,1 TOTAL
10,85 12,35 13,85 15,34 16,85 18,35
7 8 5 6 6 4 39
Sin embargo, se ha presentado un inconveniente, el valor máximo 19,3 no pertenece al último intervalo, debido a que el límite superior del último intervalo es menor (19,1). Para evitar problemas como este, o para tener tablas "balanceadas" es necesario incorporar el cálculo del exceso en el procedimiento. EL EXCESO El exceso es la diferencia entre el límite superior del último intervalo antes de efectuar el balance y el valor máximo. Lo ideal es que estos valores coincidan, es decir que el exceso sea cero, pero se acepta hasta un exceso positivo igual a la unidad.
E = L.S .m − V max Simbólicamente: Un exceso positivo significara que el límite superior del último intervalo es superior que el valor máximo, mientras que un exceso negativo significara que el límite superior del último intervalo es menor que el valor máximo (tal como sucedió en el ejemplo 2), De ahora en adelante, para garantizar una tabla balanceada se deberá calcular el exceso antes de elaborar la tabla. Para ello deberá emplearse la siguiente fórmula: E = m.c - R Posteriormente se procede según el resultado obtenido: •
Si el exceso es positivo (E > 0) se determina si es :
o PAR
: Se divide en E1, y E2 cada uno de los cuales equivale a E/ 2
o IMPAR : También se divide en E1 y
E2, pero estos serán
números consecutivos, siendo siempre E1 < E2. En ambos casos se cumple: pi + E2 = E •
Si el exceso es negativo (E < 0) se probarán dos alternativas de solución: o 1a Alternativa: Incrementar un intervalo más manteniendo constante el tamaño de clase. Es decir en lugar de tener "m" intervalos se tendrá "m+1" En este caso el exceso es : E = (m + 1) . c - R o 23 Alternativa: Incrementar el tamaño de clase en una unidad manteniendo constante el números de intervalos originales. Es decir el nuevo tamaño de clase será. (C + unidad) En este caso el exceso es: E = m. ( c + unidad) - R
Luego de haber obtenido los excesos de cada alternativa se elige la alternativa qué tuvo un menor exceso positivo y posteriormente se continua como el primer caso (exceso positivo) Si el exceso es cero o igual a la unidad, la distribución estará balanceada o se considera como tal. Aquí: E 1 = 0 y E2 = 0 ( Si E = 0 ) ó E 2 = unidad (Si E = unidad) El límite inferior del primer intervalo se calculara en cualquier caso de la siguiente manera:
L.I .1 = V min − E1
De igual manera, el límite superior del último intervalo se calculara en cualquier caso de la siguiente manera:
L.S .m = V max + E2
Ahora continuemos con la solución del ejemplo 2: Calculo del exceso: E = (7)(1,5) - 10,7 = -0,2 (exceso negativo) Probamos con las dos alternativas: 1. Alternativa: m + 1 = 8 intervalos Exceso:
E = (8) (1,5) -10,7 = 1,3
2. Alternativa: c + unidad = 1,5 + 0,1 = 1,6 Exceso:
E = (7)(1,6) - 10,7 = 0,5
Luego, elegimos la 2a alternativa, pues es en la que se obtuvo un menor exceso positivo Como este exceso es impar, se dividirá en dos números consecutivos, de ia siguiente manera: E1 = 0,2 y E2 = 0,3 Luego, el límite inferior de la tabla será: Linf 1, = 8,6-0,2 = 8,4 Posteriormente comprobaremos que el limite superior el ultimo intervalo será: L.sup.7= 19,3 + 0,2 = 19,6 TABLA 2: TIEMPO DE DURACIÓN DE 40 BATERIAS DE UNA FILMADORA Duración ( Horas) 08,4- 10,0 10,0-11,6 11,6-13,2 13,2-14,8 14,8-16,4 16,4-18,0
MCi 9,2 10,8 12,4 ,.14,0 15,6 17,2
fi
F¡
h¡
Hi
3 7 8 6 7 4
3 10 18 24 31 35
0,08 0,18 0,20 0,15 0,18 0,10
0,08 0,25 0,45 0,60 0,78 0,88
18,0-19,6 TOTAL
18,8
5 40
40
0,12. 1,00 1,00
Fuente: Estudio de filmaciones c. Hay 13 baterías que tuvieron duraciones mayores o ¡guales a 13,2 y menores a 16,4 horas. d. El 40% de las baterías tuvieron duraciones superiores a 14,8 horas EJERCICIO N° 3. 1. Los ingresos semanales en soles de 45 personas que trabajan en una compañía textil, son los siguientes: 63 43 64 59 53
89 53 72 60 64
36 70 52 67 76
49 57 51 57 44
56 61 62 67 73
64 43 60 61 56
59 68 71 67 62
35 62 61 51 63
78 26 55 81 60
Se pide: a. Determine el tipo de variable y el tipo de intervalo que le corresponde. b. Elaborar la Tabla de Distribución de Frecuencia^ c. ¿Cuáles son los valores de F,y MC„ respectivamente. c. Los puntajes obtenidos por 50 postulantes en un examen de admisión a la universidad fueron los siguientes: 33 35 35 39
41 41 42 45
47 48 50 52
53 54 55 55
57 59 60 60
60 61 64 65
65 65 66 66
67 68 71 73
73 74 74 76
77 77 78 80
81 84 85 85
88 97 89 98 91 94
Se pide: a. Determine el tipo de variable y el intervalo que le corresponde. b. Elabore la Tabla de Distribución de Frecuencia
CLAVES DE RESPUESTA - EJERCICIO N° 3 a) Variable cuantitativa continua - Intervalos semiabiertos. b) Tabla de Distribución de Frecuencia. Ingresos 26-35 35-44 44-53 53-62 62-71 71-80 80-89 Total
fi 1 4 5 15 13 5 2 45
Fi 1 5 10_^ 25 38 43 45
MCi 30,5 39,5 48,5 57,5 66,5 75,5 84,5
c) F3= 19 y MC, = 57,5 2. a) Variable cuantitativa Discreta - Intervalos cerrados b) Tabla de Distribución de Frecuencias. Puntaje 31 -40 41-50 51-60 61 -70 71-80 81 -90 91 - 100 Total
MC 35,5 45,5 55,5 65,5 75,5 85,5 95,5
fi 4 7 10 9 10 6 4 50
FI 4 11 21 30 40 46 50
EXPLORACIÓN ON LINE
Hi 0,08 0,14 0,20 0,18 0,20 0,12 0,08 1,00
En las siguientes direcciones podrás encontrar información adicional sobre la segunda unidad: * http:// www. aulafacil.org/cursoEstadistica/Lecc-2-est.htm * http://www. aulafacil.org/cursoEstadistica/Lecc-3-est.htm • http:// thales.cica.es/rd/RECURSOS/rd98/Matemática/28/1 .html
LECTURA N9 2: TABLAS ESTADÍSTICAS
Las tablas estadísticas presentan ordenadamente los datos estadísticos en filas y columnas, clasificados y agrupados de acuerdo a un criterio específico. En las tablas, metodológicamente conviene distinguir las "tablas de frecuencia o de distribución de frecuencia" y los "cuadros estadísticos o de análisis" Los datos estadísticos presentados en las tablas o cuadros estadísticos constituyen no sólo un valore numérico sino que además merece una interpretación de tipo cualitativo según el contexto que lo originó. En le campo de la Dialéctica Estadística, todo dato o información estadística tiene historia o antecedentes, un contexto o realidad que provoca un dato y, por supuesto, una perspectiva porque es un elemento de referencia para la toma de decisiones. En general, la organización y presentación de los datos estadísticos, supone realizar los siguientes pasos. a) Evaluación y Crítica, que consiste en inspeccionar la validez y confiabilidad de los datos, para corregir errores y omisiones. b) Codificación, mediante el cual, los datos o respuestas se convierten en números, símbolos o lenguajes que permiten, su procesamiento. c) Clasificación, que consiste en establecer la categoría de las variables. d) Procesamiento o tabulación de datos, que es la contabilización o registro del número de casos en cada una efe las categorías de la variable. e) Presentación de datos, donde los resultados se presentan en cuadros, tablas y gráficos.
AUTOEVALUACIÓN N2 2
1. Es el número de Incidencias o repeticiones de un valor o conjunto de valores de una variable. a) Frecuencia acumulada b) Frecuencia relativa simple c) Frecuencia absoluta d) Frecuencia porcentual. e) N.A. 2. Se trabaja con intervalos cerrados, cuando se trata de: a) variables cualitativas b) variables cuantitativas discretas c) variables cuantitativas continuas d) todo tipo de variable e) N.A. 3. ¿Por qué se acostumbra trabajar con intervalos de clase en las tablas de distribución de frecuencia?. a) son más fáciles de trabajar b) Se aplican a todo tipo de variable c) No es práctico representar un número grande de valores distintos, pues significaría tener una tabla con una gran cantidad de filas y columnas. d) Permiten analizar mejor los valores de las variables. e) N.A. 4. Cuando el valor máximo de una variable no pertenece al último intervalo, debido a que el límite superior del último intervalo es menor . y para evitar problemas como este, o para tener tablas "balanceadas" es necesario incorporar en el procedimiento el cálculo de: a) El rango b) Las marcas de clase c) El tipo de intervalo
d) El exceso e) N.A. 5. Si el exceso es cero o igual a la unidad: a) La distribución estará balanceada o se considera como tal. b) Incrementar un intervalo más manteniendo constante el tamaño de clase. c) -Incrementar el tamaño de clase en una unidad manteniendo constante el números de intervalos original. d) Se elige la alternativa que tuvo un menor exceso positivo y posteriormente se continua como el primer caso (exceso positivo).