MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman
ANÁLISIS E INTERPRETACIÓN DE SERIES SIMPLES, O MUESTRAS PEQUEÑAS
16
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman
ANÁLISIS E INTERPRETACIÓN DE SERIES SIMPLES, O MUESTRAS PEQUEÑAS Los conjuntos de datos integrados por treinta (30) o menos elementos se conocen como muestras pequeñas o series simples, para llevar a cabo el análisis e interpretación de ellas, se utilizarán las medidas de Tendencia Central y de Dispersión, es necesario hacer notar que el significado de cada una de ellas es el mismo para series simples que para las muestras grandes, la diferencia es solamente la fórmula de cálculo para algunas.
Ejemplo: Una empresa, dedicada a la producción de bolsas de plástico, tiene en sus bodegas tres marcas distintas de esa materia prima y desea que usted como asesor administrativo le aconseje como utilizarlas, y que además le dé su opinión, si tiene la posibilidad de vender una de ellas. Según los datos estadísticos, los rendimientos son como sigue:
MARCA
RENDIMIENTO EN MILES DE BOLSAS POR ROLLO
Plastex
63
58
43
46
38
54
57
64
Syntel
45
46
49
49
50
54
55
62
Flexyl
44
44
48
49
51
53
53
61
El primer paso para proceder a efectuar el análisis e interpretación estadística de series simples, es ordenar las series de datos de acuerdo con la magnitud de los mismos así:
Plastex
Syntel
Flexyl
n
x
N
X
N
x
1
38
1
45
1
44
2
43
2
46
2
44
3
46
3
49
3
48
4
54
4
49
4
49
5
57
5
50
5
51
6
58
6
54
6
53
7
63
7
55
7
53
8
64
8
62
8
61
∑
423
∑
410
∑
403
17
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman
MEDIDAS DE TENDENCIA CENTRAL Son los índices numéricos que proporcionan al investigador información sobre la tendencia de los datos a agruparse generalmente hacia una posición central, las medidas de tendencia central, que se estudiarán son: la media aritmética, la mediana y la moda.
Media Aritmética: Es el valor que mejor representa a todos los datos de la serie estudiada. Cuando pertenece a una muestra se identifica como
(equis barra) y cuando pertenece a una población se
identifica como µ (mu). Para series simples se utiliza la fórmula siguiente:
=
∑
Substituyendo los datos del ejercicio anterior se tendrían:
Media Aritmética Plastex
=
423 = 52.875 8
Media Aritmética Syntel
=
410 = 51.25 8
Media Aritmética Flexyl
=
403 = 50.375 8
Lo que significa que Plastex tiene una media de rendimiento de 52.875 miles de bolsas por rollo; Syntel tiene una media de rendimiento de 51.25 miles de bolsas por rollo y Flexyl tiene una media de rendimiento de 50.375 miles de bolsas por rollo.
Mediana: Calculada a partir del conjunto de datos y mide la observación central de éstos. Valor que se encuentra exactamente a la mitad de la serie de datos, cuando estos han sido ordenados de acuerdo a su magnitud, del menor al mayor o viceversa, normalmente se ordenan de menor a mayor, se identifica como
. Para calcular la mediana de series simples, primero se calcula la posición en “n”
con la siguiente fórmula:
ó = Si se sustituyen los valores respectivos se tiene:
18
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman ó =
8+1 = 4.5 2
Debido a que las tres series de materia prima están integradas por 8 elementos, la posición (4.5) será la misma para todas. Lo siguiente es determinar el valor en “x”, cuando la serie es par, como en este caso, se necesita interpolar entre los dos valores (anterior y posterior a la posición determinada con la formula de posición) así:
Plastex
Syntel
Flexyl
n
x
n
x
n
x
1
38
1
45
1
44
2
43
2
46
2
44
3
46
3
49
3
48
4
54
4
49
4
49
← 4.5
← 4.5
← 4.5
5
57
5
50
5
51
6
58
6
54
6
53
7
63
7
55
7
53
8
64
8
62
8
61
De ello se tiene:
Mediana Plastex
!
=
54 + 57 = 55.5 2
Mediana Syntel
!
=
49 + 50 = 49.5 2
Mediana Flexyl
!
=
49 + 51 = 50.0 2
La información anterior significa que el valor que está a la mitad de la serie cuando ésta ha sido ordenada del menor al mayor valor, y por lo tanto sobre y bajo de él se encuentra el 50% de los valores, en cada uno de los casos estudiados es: Plastex 55.5 miles de bolsas por rollo, Syntel 49.5 miles de bolsas por rollo y Flexyl 50.0 miles de bolsas por rollo.
Moda: Es el valor que más se repite en el conjunto de datos, entre todos los valores de la serie, se identifica como
#.
De acuerdo a lo anterior, las series de datos pueden tener dos o más modas, por
lo que si existen dos números que se repiten la serie se considerará bimodal, más de dos modas se considerará polimodal y cuando ninguno de los datos se repita será amodal.
19
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman
Para el caso que estamos desarrollando debemos recurrir a la simple observación quedando de la siguiente manera:
Plastex
Syntel
Flexyl
n
x
n
x
n
x
1
38
1
45
1
44
←
2
43
2
46
2
44
←
3
46
3
49
←
3
48
4
54
4
49
←
4
49
5
57
5
50
5
51
6
58
6
54
6
53
←
7
63
7
55
7
53
←
8
64
8
62
8
61
Dados los resultados se puede decir que: Plastex es amodal (ya que ningún valor se repite), Syntel tiene una moda de 49 miles de bolsas por rollo y Flexyl es bimodal (ya que se repiten dos cantidades distintas).
MEDIDAS DE DISPERSIÓN Son los índices numéricos, que proporcionan al investigador, información sobre el grado de variación existente entre los valores de los datos de la serie objeto de estudio, las medidas de dispersión que se estudiarán son el rango o recorrido, varianza, desviación estándar, coeficiente de variación y coeficiente de oblicuidad.
Rango o Recorrido: Es la medida de dispersión que representa el valor absoluto de la diferencia entre el mayor valor y el menor valor de la serie de datos, se identifica como R (erre). Algunos autores le llaman “Alcance”. Para calcular el rango en todas las series de datos, se hace uso de la fórmula siguiente:
R = $ − $
Donde:
$ = Valor más alto de la serie $ = Valor más bajo de la serie
20
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman
Sustituyendo valores tenemos:
Plastex
R = 64 – 38 = 26 miles de bolsas por rollo
Syntel
R = 62 – 45 = 17 miles de bolsas por rollo
Flexyl
R = 61 – 44 = 17 miles de bolsas por rollo
Como se puede apreciar Plastex tiene el rango más amplio de las tres series de datos, lo que denota un grado mayor de variabilidad de la información para esa serie de datos específica.
Varianza: Es la medida de dispersión que representa el promedio al cuadrado de las variaciones de los valores de los datos, con respecto al valor de la media, cuando pertenece a una muestra se identifica como & & &
y cuando pertenece a una población se identifica como ' (sigma al cuadrado). El
cálculo de la varianza para series simples, se efectúa a través de la fórmula:
=
∑() – )̅ )² .
Para poder utilizar la formula se debe construir un cuadro de la siguiente manera:
Plastex n 1
X 38
2
43
3 4
46 54
5
57
6 7
58 63
8
64
(X-
)
(X-
)²
52.88
-14.88
221.41
52.88 52.88
-9.88 -6.88
97.61 47.33
52.88
1.12
1.25
52.88 52.88
4.12 5.12
16.97 26.21
52.88
10.12
102.41
52.88
11.12
123.65 ∑=
636.84
Dónde: X = Valor de cada uno de los rendimientos en miles de bolsas por rollo X = Media Aritmética de rendimiento por marca (X - X) = Valor de los rendimientos menos la media aritmética de la marca (X - X)² = Resultado del rendimiento menos la media aritmética al cuadrado ∑ = Sumatoria
21
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman Syntel
n 1
X 45
2
46
3 4
49 49
5
50
6 7
54 55
8
62
0
51.25 51.25 51.25 51.25 51.25 51.25 51.25 51.25
(X-
)
-6.25 -5.25 -2.25 -2.25 -1.25 2.75 3.75 10.75 ∑=
(X-
)²
39.06 27.56 5.06 5.06 1.56 7.56 14.06 115.56 215.48
Flexyl n 1 2
X 44 44
3
48
4 5
49 51
6
53
7 8
53 61
0
50.38 50.38 50.38 50.38 50.38 50.38 50.38 50.38
(X-
)
-6.38 -6.38 -2.38 -1.38 0.62 2.62 2.62 10.62
(X-
)²
40.70 40.70 5.66 1.90 0.38 6.86 6.86 112.78 215.84
Substituyendo valores se tendría:
Varianza Plastex
S² =
636.84 = 90.98 8−1
Varianza Syntel
S² =
215.48 = 30.78 8−1
Varianza Flexyl
S² =
215.84 = 30.83 8−1
Desviación Estándar: Es la medida de dispersión que en unidades lineales, proporciona al investigador la información sobre el grado de variación existente entre los valores de los datos, sobre y bajo la media aritmética, cuando pertenece a una muestra se identifica como “S” y cuando pertenece a una población se identifica como "'" (sigma). Para el cálculo de la desviación estándar para series simples se utiliza la siguiente fórmula:
s = √ S² 22
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman
Substituyendo valores que ya se poseen se tendría:
Desviación Estándar Plastex
Desviación Estándar Syntel
Desviación Estándar Flexyl
S = √90.98 = 9.54
S = √30.78 = 5.55
S = √30.83 = 5.55
Coeficiente de Variación: La desviación estándar es una medida absoluta de la dispersión que expresa la variación de las observaciones, mientras que el coeficiente de variación es una medida relativa que proporciona una estimación de la magnitud de la desviación con respecto a la magnitud de la media, expresando la desviación como porcentaje de la media. Se identifica como C.V. y la fórmula para calcularle es la siguiente:
8
6. 7. = x 100 9
Sustituyendo valores se tendría:
Coeficiente de Variación
Coeficiente de Variación Syntel
Coeficiente de Variación Flexyl
Plastex
C. V. =
9.54 x 100 52.88
C. V. =
5.55 x 100 51.25
C. V. =
5.55 x 100 50.38
C. V. = 0.1804 x 100
C. V. = 0.1083 x 100
C. V. = 0.1102 x 100
C. V. = 18.04 %
C. V. = 10.83 %
C. V. = 11.02 %
Coeficiente de Oblicuidad: Es la medida que proporciona al investigador, información sobre la acumulación de los datos hacia uno u otro lado de la mediana, es decir, el grado de oblicuidad o sesgo en la distribución de los valores de los datos, se identifica como C.O.
6. >. =
? (9 . @A ) 8
23
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman
Sustituyendo valores se tendría:
Coeficiente de Variación
Coeficiente de Variación Syntel
Coeficiente de Variación Flexyl
Plastex
C. O. =
3(52.88 − 55.5) 9.53
C. O. =
C. O. =
−7.86 9.53
3(51.25 − 49.5) 5.59
C. O. =
C. O. = − 0.8248
5.25 5.59
C. V. =
3(50.38 − 50.0) 5.55
C. O. =
1.14 5.55
C. O. = 0.2054
C. O. = 0.9392
Medidas
Plastex
Syntel
Flexyl
X
52.87
51.25
50.38
!
55.50
49.50
50.00
C
Amodal
Amodal
Amodal
R
26.00
17.00
17.00
s
90.98
30.83
30.83
S
9.54
5.55
5.55
C.V.
18.04%
10.83%
11.02%
C.O.
- 0.82
0.94
0.20
Análisis e interpretación: como puede notarse la marca Plastex, presenta una mejor situación a nivel de las medidas de tendencia central, (media, mediana y moda) que las otras dos marcas, sin embargo cuando se examinan las medidas de dispersión, es evidente que resulta siendo la que tiene un comportamiento menos uniforme, y por lo tanto la media aritmética de 52.87 miles de bolsas por rollo, es menos segura que las de las otras marcas.
En cuanto a Syntel y Flexyl, puede decirse que la primera tiene una media de rendimiento mayor, y además un comportamiento más uniforme que la marca Flexyl, esto último se evidencia en el valor del coeficiente de variación, puesto que ambas tienen la misma desviación estándar.
24
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman
Conclusión: Con base en lo anterior es factible concluir que si se tiene la oportunidad de vender, es la marca Plastex la que debe ofrecerse. En cuanto a la utilización en la producción, se recomienda preferentemente la marca Syntel, puesto que por la uniformidad en su rendimiento, es la que puede garantizar de mejor manera que los presupuestos o estimaciones de producción y/o de materia prima sean más confiables.
En cuanto a la marca Flexyl, se aconseja que sea utilizada, para cubrir contingencias como segunda opción, puesto que es de un rendimiento y uniformidad menor que Syntel.
25
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman Laboratorio # 2
1) El Ministerio de Ambiente tomó muestras de agua de doce ríos y arroyos de dos departamentos del sur de la república. Las muestras fueron probadas en un laboratorio especializado para el efecto, se clasificaron según la cantidad de contaminantes sólidos en cada muestra. Los resultados se muestran en la tabla siguiente: Departamento 1
37.2
51.7
68.4
54.2
49.9
33.4
Departamento 2
39.8
52.7
60
46.1
38.5
49.1
Con esa información se le solicita: a)
Ordene los datos adecuadamente
b) Determine las medidas de Tendencia Central y de Dispersión c)
Establezca ¿Cuál de las dos series de datos presenta un mejor comportamiento?
d) Emita su opinión personal
2) El señor Benjamín Palencia es propietario de un pequeño taller donde se fabrican botas para caballero, regularmente compra el cuero con dos proveedores. Debido a la caída de la economía ha decidido comprar la materia prima a una sola fábrica, por lo que se le solicita aconsejarle con ¿cuál de las dos debe quedarse? Los datos de los rendimientos son los siguientes:
Rendimiento en metros por rollo de cuero
Fabrica 1
67.5
69
73.5
73.5
75
81
Fabrica 2
66
66
72
73.5
76.5
79.5
Con esa información se le solicita: a)
Ordene los datos adecuadamente
b) Determine las medidas de tendencia central y de dispersión c)
Establezca a cuál de las dos fábricas el señor Benjamín debe seguir comprando
26
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman
3) Del análisis de resistencia de 15 bloques de concreto se obtuvieron los resultados que se indican a continuación:
Kilogramos de resistencia por centímetro cuadrado
Marca A
42.9
64.9
48.3
72.8
42.9
Marca B
37.7
43.6
37.7
68.4
52.3
Marca C
29.4
70.4
62.8
60.4
58.9
a) b) c) d)
Ordene los datos adecuadamente Determine las medidas de Tendencia Central y de Dispersión Establezca ¿Cuál de las tres marcas presenta un mejor comportamiento? Emita su opinión personal
4) Una reconocida distribuidora de partes y accesorios para electrodomésticos cuenta con dos marcas de baterías alcalinas. Una fábrica extranjera le ha hecho una propuesta para distribuir su producto, el gerente de mercadeo ha decidido distribuirla pero para ello tiene que eliminar a una de las marcas de su stock. Para tomar una decisión ha investigado la duración, en horas, de las dos marcas de baterías que distribuye, los resultados fueron los siguientes:
Marca A Marca B
a)
145
105
190
155
120
100
135
110
120
185
150
160
175
140
155
175
125
170
165
120
Ordene los datos adecuadamente
b) Determine las medidas de tendencia central y de dispersión para cada marca c)
Ayude al gerente de mercadeo a determinar a cuál de las dos marcas debe eliminar
27
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman
5) Una empresa de transportes y fletes actualmente utiliza dos marcas de llantas, para reducir costos el propietario ha decidido utilizar solamente una marca. La vida útil de las llantas es la siguiente:
Expresado en Miles de Kilómetros
Llanta Fireball Llanta Pirata
a)
62
53
46
51
47
54
61
56
46
60
52
49
58
47
50
48
48
48
Ordene los datos adecuadamente
b) Determine las medidas de Tendencia Central y de Dispersión c)
Establezca ¿Cuál de las dos marcas presenta un mejor comportamiento?
d) Emita su opinión personal sobre cuál de las dos marcas debe seguir utilizando la empresa
6) Una reconocida aseguradora ha distribuido sus equipos de venta en 4 áreas distintas. Cada equipo se ha mantenido por 5 años consecutivos en el negocio. La información de ventas anuales es la siguiente:
Equipo I
823
648
321
634
752
Equipo II
669
427
555
904
586
Equipo III
722
360
468
847
641
Equipo IV
217
588
349
308
766
Si se tuviera un promedio de 475 ventas como mínimo para que un equipo se considere funcional ¿Cuáles serían los equipos que estarían arriba de ese rango? Informe de que tan confiable es la información. La compañía quiere instituir un bono a aquellos equipos que generen un promedio mayor de 725 ventas anuales ¿Cuáles de los equipos lo podrían recibir?
28
MANUAL DE ESTADÍSTICA
Lic. Johane Daniel Pérez Leberman
7) El taller “El radiador atormentado” se especializa en reparar todo tipo de radiadores. Cuenta con cuatro sucursales en las que durante la semana se midió el tiempo promedio en horas que se tardan en realizar un trabajo, la información es la siguiente: Lunes
Martes
Miércoles
Jueves
Viernes
Sucursal I
4.3
2.7
3.8
2.2
3.4
Sucursal II
3.1
4.5
2.6
5.5
3.2
Sucursal III
6.6
2.0
4.4
2.1
3.3
Sucursal IV
6.3
6.7
5.9
4.1
3.7
El gerente general ha decidido otorgar un premio al taller que cuente con los mejores rendimientos, para ello le solicita que, utilizando sus conocimientos sobre estadística, determine ¿cuál sucursal es? y le informe sobre la veracidad de la información.
29