ESTADÍSTICA INFERENCIAL
CONTENIDO
1.
DISTRIBUCIONES CONTINUAS IMPORTANTES
Pág. 1
1.1.
LA DISTRIBUCIÓN NORMAL
1
1.1.1. INTRODUCCIÓN
1
1.1.2. FUNCIÓN DE DENSIDAD DE PROBABILIDAD DE LA DISTRIBUCIÓN NORMAL GENERAL
1
1.1.3. GRÁFICO DE LA DISTRIBUCIÓN NORMAL GENERAL
2
1.1.4. PROPIEDADES DE LA DISTRIBUCIÓN NORMAL GENERAL
2
1.2.
4
DISTRIBUCIÓN NORMAL ESTÁNDAR
1.2.1. INTRODUCCIÓN 1.2.2. FUNCIÓN DE DENSIDAD DE PROBABILIDAD DE LA DISTRIBUCIÓN
4
NORMAL ESTÁNDAR 1.2.3. GRÁFICO DE LA DISTRIBUCIÓN NORMAL ESTÁNDAR
4
1.2.4. CALCULO DIRECTO EN LA DISTRIBUCIÓN NORMAL ESTÁNDAR
4
1.2.5. PROPIEDADES PARA EL CALCULO DE OTRAS AREAS BAJO LA CURVA 7 NORMAL ESTANDAR 1.2.6. CALCULO INVERSO EN LA DISTRIBUCION NORMAL ESTANDAR 12 1.3. DISTRIBUCIÓN T STUDENT 22 1.3.1. INTRODUCCIÓN
22
1.3.2. MANEJO DE TABLAS ESTADÍSTICAS
23
1.4.
28
DISTRIBUCIÓN CHI CUADRADO
1.4.1 INTRODUCCIÓN
28
1.4.2 MANEJO DE TABLAS ESTADÍSTICAS
28
2.
INTERVALOS DE CONFIANZA
33
2.1.
INTRODUCCIÓN
33
2.2.
DEFINICIÓN
34
2.3.
INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL
35
2.3.1. CASO I: USO DE LA ESTADÍSTICA Z
35
2.3.2. CASO II: USO DE LA ESTADÍSTICA T 2.4.
36
INTERVALO DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS MEDIAS 42 POBLACIONALES
2.4.1. CASO I: USO DE LA ESTADÍSTICA Z
42
2.4.2. CASO II: USO DE LA ESTADÍSTICA T
44
2.4.3. ERROR ESTÁNDAR DE LA MEDIA
36
2.5. 2.5.1. 2.5.2. 2.5.3. 2.6.
51 51 52 52 56
3.
INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN POBLACIONAL INTRODUCCIÓN DEFINICIÓN ERROR ESTÁNDAR DE LA PROPORCIÓN INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS DOS PROPORCIONES POBLACIONALES PRUEBA DE HIPÓTESIS
3.1.
INTRODUCCIÓN
62
3.2.
DEFINICIONES GENERALES
62
3.3.
PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL
66
3.3.1. PRUEBA DE HIPOTESIS PARA LA MEDIA POBLACIONAL USANDO LA ESTADISTICA Z 3.3.2. PRUEBA DE HIPOTESIS PARA LA MEDIA POBLACIONAL USANDO LA ESTADISTICA T 3.4.1. PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES USANDO LA ESTADISTICA Z 3.4.2. PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES USANDO LA ESTADISTICA T 3.5. PRUEBA DE HIPOTESIS PARA LA PROPORCION POBLACIONAL 3.5.1. INTRODUCCION 3.6. PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRES DOS PROPORCIONES POBLACIONALES 3.6.1. INTRODUCCION 4. INTRODUCCIÓN A LA ESTADÍSTICA NO PARAMÉTRICA
62
66 72 78 85 93 102
114
4.1. INTRODUCCION 4.2.
PRUEBA DE SIGNO
4.2.2. PASOS PARA LLEVAR ACABO LA PRUEBA DE SIGNO EN UNA SOLA
114 115
4.3.
MUESTRA PRUEBA DE INDEPENDENCIA CHI CUADRADO
119
4.3.1. INTRODUCCIÓN
128
4.3.2. PASOS PARA LLEVAR ACABO LA PRUEBA DE INDEPENDENCIA CHI
129
4.4.
135
PRUEBA DE CORRELACIÓN DE SPEARMAN
4.4.1. INTRODUCCIÓN
135
4.4.2. PASOS PARA LLEVAR ACABO LA PRUEBA DEL COEFICIENTE CORRELACIÓN DE SPEARMAN
135
5.
144
REFERENCIAS BIBLIOGRÁFICAS
CAPITULO I DISTRIBUCIONES DE PROBABILIDAD CONTINUAS IMPORTANTES 1.1. DISTRIBUCION NORMAL GENERAL 1.1.1. INTRODUCCION La distribución de probabilidad continua más importante en todo el campo de la estadística, es con toda seguridad la distribución normal, debido a que en la práctica muchos fenómenos, industriales, científicos, o de la vida diaria pueden describirse por esta distribución. A la distribución normal frecuentemente se le llama distribución gaussiana. La curva normal puede considerarse como modelo teórico para analizar situaciones reales. 1.1.2. FUNCIÓN DE DENSIDAD DE PROBABILIDAD Una variable aleatoria continúa X, se dice que está distribución normalmente, con media u ( ) y varianza 2 0 , si su función de densidad de probabilidad está dado por: 2
f (x)
1 e 2
1 x 2
; x
Donde: 3.1415.....
y
e 2.7182...
1
1.1.3. GRÁFICO
-
fig. 1: La Distribución Normal La distribución normal se emplea tanto que ha menudo se emplea la siguiente notación
n( , 2 ), para indicar que la variable aleatoria X se distribuye normalmente abreviada: X con media y varianza 2.
1.1.4. PROPIEDADES DE LA DISTRIBUCION NORMAL a) La distribución normal es simétrica y tiene forma de campana, se extiende de a . b) En la distribución normal la media está en la mitad y divide el área en dos mitades y la media, la mediana y la moda tienen el mismo valor. c) El área total bajo la curva normal es el 100%. d)
Existe una distribución normal diferente para cada combinación de media y
desviación estándar. e)
La probabilidad de que una variable aleatoria tenga un valor entre dos puntos
es igual al área bajo la curva normal entre los dos puntos, tal como se muestra en la fig. 2.
2
a
µ
b
P(a x b) = Área bajo la curva normal entre a y b. fig. 2 f) En la fig. 3 muestra el área bajo la curva normal de 1, 2 y 3 desviaciones estándar de la media.
3 2 1
1 2 3
68.0% 95.5%
99.7%
fig. 3
3
1.2. DISTRIBUCION NORMAL ESTÁNDAR. 1.2.1. INTRODUCCÓN Dado que existe una distribución normal diferente para una combinación de media y desviación estándar, sería inútil intentar elaborar las tablas suficientes para calcular probabilidades, además de la complejidad de la función de densidad (fórmula), existe sin embargo, una alternativa sencilla que evita estos problemas. Para ello se puede convertir esta escala real a una relativa o estandarizada, mediante la variable normalizada. En donde: 1.2.2. FUNCIÓN DE DENSIDAD DE PROBABILIDAD Una variable aleatoria continúa Z , se dice que está distribución normalmente, con media 0 y varianza 2 1 , si su función de densidad de probabilidad está dado por:
f (z)
1 2
e
1 z2 2
; z
Donde:
Z
x
Además: X : μ :
Algunos valores de interés Media
σ :
Desviación estándar
La distribución de una variable normal con media cero y varianza 1, se denota: Zn(0,1) y se lee: “Distribución Normal con media cero y varianza 1”.
4
1.2.3. GRÁFICO:
0
fig. 4 1.2.4. CALCULO DIRECTO EN LA DISTRIBUCIÓN NORMAL ESTANDAR MANEJO DE TABLAS ESTADÍSTICAS . a) Uso de la Tabla I
Z
0
fig. 5: Area bajo la curva normal que se muestra en la Tabla I Ejemplo 1: Obtener el área para Z < 1.35 P[Z 1.35] ? En primer lugar se debe localizar al valor 1.3 en el lado izquierdo de la Tabla I y luego el 0.05 (5 es el último dígito) en su parte superior. El área bajo la curva se puede leer en la información de la fila Z = 1.3 y la columna 0.05. El valor es 0.9115. 0.9115
0
1.35 5
Luego: P(Z < 1.35) = 0.9115 Observe la tabla: TABLA N° 1 Área bajo una curva normal entre - y Z = 1.35 Z -3.4 -3.3 . . . 0.0 . . . 0.9 1.0 1.1 1.2 1.3 . . . 3.4
0.00
0.01
0.02
0.03
0.04
0.05 .... 0.09
0.9115
Ejemplo 2: Obtener el area para Z < -2.58 P[Z 2.58] ?
En primer lugar se debe localizar al valor -2.5 en el lado izquierdo de la Tabla I y luego el 0.08 (8 es el último dígito) en su parte superior. El área bajo la curva se puede leer en la información de la fila Z = -2.5 y la columna 0.08. El valor es 0.0049 0.0049
-2.58
0 6
Luego: P(Z <-2.58) = 0.0049 TABLA N° 2 Área bajo una curva normal entre - y Z = -2.58 Z -3.4 -3.3 . -2.5 . . .
0.00
0.01
0.02
0.03
0.04
0.05
.... 0.08
0.0049
0.0 . . . 0.9 1.0 1.1 1.2 1.3 . . . 3.4
b) Uso de la Tabla N° II
-Z
0
Z
fig. 6: Área bajo la curva normal que se muestra en la Tabla II
7
0.09
Ejemplo 3: Obtener el área para -1.96 ≤ Z ≤ 1.96. Cabe indicar que los puntos son simétricos. En primer lugar se debe localizar al valor 1.9 en el lado izquierdo de la Tabla II y luego 0.06 (6 es el último dígito) en su parte superior. El área bajo la curva se puede leer en la información de la fila Z = 1.9 y la columna 0.06. El valor es 0.95.
0.95
-1.96
0
1.96
Luego: P[1.96 Z 1.96] 0.95
1.2.5. PROPIEDADES PARA EL CALCULO DE OTRAS AREAS BAJO LA CURVA NORMAL ESTÁNDAR En esta sesión daremos propiedades para el cálculo de áreas bajo la curva normal estándar para utilizarlas posteriormente en aplicaciones pertinentes de dicha distribución.
a) P Z ZO 1 P Z ZO
P[Z ≥ Z0
0
Z0
8
Ejemplo 4: Hallar PZ 2.32 Solución: P Z 2.32 1 P Z 2.32 1 0.9898 0.0102
0.0102
0
2.32
b) P Z Z0 1 P Z Z0
P[Z ≤ -Z0
-Zo
0
NOTA: También se obtiene directamente de la Tabla I
Ejemplo 5: Hallar PZ 0.03 Solución: PZ 0.03 1 PZ 0.03 1 0.5120 0.4880
-0.03
0
9
c) P Z Z0 P Z Z0
= - Zo
0
Zo
0
Ejemplo 6: Hallar PZ 1.30 Solución: PZ 1.30 PZ 1.30 0.9032 0.9032
0.9032
= -1.30
0
0
1.30
d) P Z0 Z Z1 P Z Z1 P Z Z0
- Zo
0
Zo
10
Ejemplo 7: Hallar P 2.05 Z 1.36 Solución: P 2.05 Z 1.36 PZ 1.36 PZ 2.05 P 2.05 Z 1.36 0.9131 0.0202 P 2.05 Z 1.36 0.8929
0.8929
-2.05
0
1.36
Ejemplo 8: Hallar P2.58 Z 3.49 Solución: P2.58 Z 3.49 PZ 3.49 PZ 2.58 P2.58 Z 3.49 0.9998 0.9951 P2.58 Z 3.49 0.0047
11
1.2.6. CALCULO INVERSO EN LA DISTRIBUCIÓN NORMAL ESTÁNDAR. ESTANDARIZACIÓN En la sesión anterior llevamos acabo el calculo directo en la distribución normal en donde dada una determinada área teníamos que hallar el valor de la variable aleatoria normal estándar ahora llevaremos acabo el proceso inverso; es decir dada una determinada área tenemos que hallar el valor de la variable aleatoria normal estándar en donde haremos uso de las tablas estadísticas de la distribución normal I y II y además de las propiedades. A continuación citamos los siguientes ejemplos: Ejemplo 9: Si Z
n(0,1) , hallar Z o en :
P[Z Zo ] 0.9898
0.9898
Z0
0
En la Tabla I observamos que el valor de Zo = 2.32, y se obtiene directamente. Ejemplo 10: Si Z
n(0,1) , hallar Z o en :
P[Z Z o ] 0.95 0.95
0
Z0 12
En la Tabla I observamos que el valor Z o se encuentra entre 1.64 y 1.65 y llevamos acabo el proceso de interpolación: Z 1.64 Zo 1.65
Area 0.9495 0.95 0.9505
1.65 1.64 0.9505 0.9495 0.95 0.9495 Z 0 1.64 0.001 0.01 0.0005 Z 0 1.64 Aplicando
la regla de tres simples obtenemos : Z0 1.645
Ejemplo 11: Si Z
n(0,1) , hallar el valor – Z o en:
P[Z Z o ] 0.01
0.01
-Zo
0
13
En la Tabla I observamos que el valor Z o se encuentra entre -2.33 y -2.32 y llevamos acabo el proceso de interpolación: Z -2.33 - Zo -2.32
Area 0.0099 0.01 0.0102
0.0099 0.0102 0.01 0.0099
2.33 (2.32) Z 0 (2.32)
0.0003 0.0001 Aplicando
0.01 Z 0 2.32
la regla de tres simples obtenenmos : Z0 2.3267
Ejemplo 12: Si Z
n(0,1), hallar el valor de Zo en:
P[Z Z o ] 0.10
0.10
0
Zo
14
Aplicando propiedad: P[Z Z o ] 1 P[Z Z o ] P[Z Z o ] 0.90 En la Tabla I observamos que Z o se encuentra entre 0.8997 y 0.9015 y llevamos acabo el proceso de interpolación: Z 1.28 Zo 1.29
Area 0.8997 0.90 0.9015
1.29 1.28 0.9015 0.8997 0.90 0.8997 Z 0 1.28 0.0018 0.01 0.0003 Z0 1.28 Aplicando
la regla de tres simples obtenenmos : Z0 1.282
Ejemplo 13: Si Z
n(0,1), hallar el valor de -Z 0 y Z0 simétricos en:
P[Z o Z Z o ] 0.90 0.90
- Zo
0
Zo 15
En la Tabla II observamos que Z o se encuentra entre 0.8990 y 0.9011 y llevamos acabo el proceso de interpolación: Z 1.64 Zo 1.65
Area 0.8990 0.90 0.9011
1.65 1.64 0.9011 0.8990 0.90 0.8990 Z 0 1.64 0.0021 0.01 0.001 Z 0 1.64 Aplicando
la regla de tres simples obtenenmos : Z0 1.645 y Z0 1.645
Ejemplo 14: Si Z
n(0,1) , hallar los valores -Zo y
Zo simétricos en:
P[Z o Z Z o ] 0.95 0.95
- Zo
0
Zo
16
En la Tabla II observamos que se encuentra el área dada, por lo tanto no es necesario interpolar. Entonces –Zo=-1.96
y
Zo= 1.96
1.2.7. ESTANDARIZACION DE UNA VARIABLE ALEATORIA NORMAL
Dada una variable aleatoria normal X, con media μ y desvío σ, si definimos otra X variable aleatoria Z entonces la variable aleatoria Z tendrá una distribución normal estándar. Al usar la fórmula de transformación cualquier variable aleatoria normal X se convierte en una variable aleatoria normal estandarizada Z. Mientras los datos originales para la variable aleatoria X tenían una media y una desviación estándar, la variable aleatoria estandarizada Z siempre tendrá una media μ = 0 y una desviación estándar σ = 1. Veremos algunos ejemplos: Ejemplo 15: Si
X n(100,100) , hallar:
a)
P[X 120] 120 100 ] 10 P[X 120] P[Z 2] 0.9772 P[X 120] P[Z
D.N.G
0.9772
120
100 17
D.N.E.
0.9772
0
b)
2
P[X 130] 130 100 ] 10 P[X 130] 1 P[Z 3] P[X 130] 1 P[Z
P[X 130] 1 0.9987 P[X 130] 0.0013 D.N.G.
0.0013
100
130
D.N.E.
0.0013
0
3
18
c) P[X 75] 75 100 ] 10 P[X 75] P[Z 2.5] P[X 75] P[Z P[X 75] 0.062 D.N.G.
0.0062
75
100
D.N.E.
0.0062
-2.5
d)
0
P[75 X 125]
19
75 100 130 100 Z ] 10 10 P[75 X 125] P[2.5 Z 2.5] P[75 X 125] 0.9878 P[75 X 125] P[
NOTA: UTILIZAR LA TABLA II DIRECTAMENTE
D.N.G. 0.9878
75
125
100
D.N.E.
0.9878
- 2.5
0
2.5
20
e) P[80 X 134] 80 100 134 100 Z ] 10 10 P[75 X 125] P[2.00 Z 3.4] P[75 X 125] P[Z 3.4] P[Z 2.00] P[75 X 125] 0.9997 0.0228 P[80 X 134] P[
P[75 X 125] 0.9767
D.N.G. 0.9767
80
100
134
D.N.E. 0.9767
-2.00
0
3.4
21
1.3. DISTRIBUCIÓN T STUDENT 1.3.1. INTRODUCCION Se dice que una variable aleatoria T tiene una distribución t de student con grados de libertad, si su función de densidad de probabilidad está dada por:
1 ( 1) / 2 t2 2 f (t ) 1 2 tR
y
1, 2 ,.....
Se denota como: T
tv
y se lee la variable T se distribuye como una t de student
con grados de libertad. OBSERVACIONES La distribución de la variable aleatoria T depende únicamente del parámetro . Entonces, hay una distribución t correspondiente a cada grado de libertad. En la fig. 10 se presenta un bosquejo de la función de densidad de la variable aleatoria T, para diferentes grados de libertad. En la misma figura se da la gráfica de la normal estándar. Note, la simetría de la distribución t alrededor de t=0 y varía de menos infinito a más infinito. La media y la varianza de la distribución t student con grados de libertad están dados por: M E(T) 0 , v 1 2 V(T)
v v2
, v2
22
fig. 7 Como podemos ver la distribución t de student es muy similar a la distribución normal n(0,1), ya que ambas tiene como dominio todas las reales, son simétricas con respecto a su media cero. Las dos tienen gráficos de forma de campana, pero la distribución t de student tiene mayor dispersión que la distribución normal n(0,1). La distribución t de student se aproxima a la normal n(0,1), cuando el grado de libertad es suficientemente grande. En la práctica, cuando el grado de libertad es mayor o igual que 30 ( 30), la distribución t se trata como distribución normal n(0,1). 1.3.2. MANEJO DE TABLAS ESTADISTICAS Debido a la importancia de la distribución t en la inferencia estadística y la dificultad para evaluar la función de distribución de la variable aleatoria T, estas se dan en una tabla. En las tablas III y IV se presentan áreas de esta distribución para diferentes grados de libertad. Para el cálculo de áreas de la distribución t de student se utilizan las mismas propiedades para el calculo de áreas en de la distribución normal n(0,1). a)
Uso de la Tabla III: Calcula la probabilidad que la variable aleatoria T tome
valores menores o iguales a una constante t 0 t 1 . Así:
P T t1 1
1-
t1-
0 fig. 8
23
Ejemplo 16: 0.975
Si T t18, hallar:
1-
a) PT 2.101 0.975
0
2.101
Se desea hallar el área para valores menores que 2.101 (P[T<2.101]) en una distribución t student con 18 grados de libertad. Para este tipo de área requerida utilizaremos la Tabla III . En primer lugar debemos ubicar los grados de libertad (18) en el lado izquierdo de la tabla y luego avanzar hacia la derecha en la misma dirección y ubicar el valor 2.101 y hallar el área (probabilidad) en la parte superior de dicho número, tal como se muestra a continuación: TABLA N° 3 1- 1 2 . . . 18
0.10 0.90
0.05 0.95
0.025 0.975
t0.90
t0.95
t0.975
...
0.001 0.999 t0.999
2.101
. . . 500
24
b) PT 1.330 1 P[T 1.330] 1 0.90 PT 1.330 0.10
0.10
0
1.330
En este ejemplo aplicamos la propiedad respectiva que se usa para el cálculo de otras áreas de la distribución normal estándar y hallamos el área que corresponde a P[T 1.330] 0.90 , tal como se muestra a continuación: TABLA N° 4
1- 1 2 . . . 18 . . .
0.10 0.90 t0.90
0.05 0.95 t0.95
0.025 0.975
...
0.001 0.999
t0.975
t0.999
1.330
500
25
c) PT 1.330 PT 1.330 PT 1.330 1 PT 1.330 PT 1.330 1 0.90 0.10
0.10
-1.330
0
d) PT 1.330 PT 1.330 0.90
0.90
-1.330
0
b) Uso de la Tabla IV: Calcula la probabilidad que la variable aleatoria T tome valores entre dos puntos simétricos t 0 t 1 / 2 y t 0 t 1 / 2 . Así:
/2
/2 1-
-to
0
to
fig. 9
26
Ejemplo 17: Si T t18, hallar: a) P 2.101 T 2.101 0.95 0.95
-2.101
0
2.101
Se desea obtener el área para valores comprendidos entre -2.101 y 2.101 [P [2.101<T<2.101] para una distribución t Student con 18 grados de libertad. Cabe indicar que los puntos son simétricos y que en este caso debemos utilizar la Tabla IV. En primer lugar debemos ubicar los grados de libertad (18) en el lado izquierdo de la tabla y luego avanzar hacia la derecha en la misma dirección y ubicar el valor 2.101 y hallar el área (probabilidad) en la parte superior de dicho número, tal como se muestra a continuación: TABLA N° 5 1- 1 2 . . . 18 . . . 500
0.10 0.90 t0.955
0.05 0.95 t0.975
0.02 0.98 t0.99
...
0.001 0.999 t0.995
2.101
27
b) P 2.878 T 2.878 0.99 0.99
-2.878
0
2.878
1.4. DISTRIBUCION CHI CUADRADO. MANEJO DE LA TABLAS ESTADISTICAS. 1.4.1. INTRODUCCIÓN Se dice que la variable aleatoria X tiene una distribución chi cuadrado con grados de libertad, si su función de densidad está dada por: v
22 X 2e v 2
f (x)
v 2
;
si
x0
0
; si
x 0
Notación abreviada: X X2 Donde es un número entero positivo. 1.4.2. MANEJO DE TABLAS ESTADISTICAS Debido a que la distribución chi-cuadrado es importante en las aplicaciones, principalmente en inferencia estadística alguna de las cuales citaremos posteriormente; la función de distribución F(x) están preparadas en tablas (ver Tabla V), para valores seleccionados de v y X2. Por lo tanto, se puede encontrar en la tabla, la probabilidad que la variable aleatoria X que tiene una distribución X 2v 2 2 (1 v 30) sea menor o igual a un valor constante X 0 X 1 representado por:
28
2 P[X X 1 , v ] 1
1-α α
2 X1,v
0 fig. 10
Como no existe simetría la Tabla V presenta las probabilidades acumuladas (áreas) 2 2 desde X 0 0 hasta X 0 .
Puesto que existe una distribución chi-cuadrado diferente para cada valor de , resulta impráctico proporcionar tablas de áreas completas. En lugar de esto la Tabla V presenta un resumen de la información más esencial acerca de la distribución. Para calcular áreas en la distribución chi cuadrado también se deben usar las propiedades dadas para el cálculo de áreas en la distribución normal. Ejemplo 18: 2 Si X X 20 , hallar:
a) P X 28.4 0.90
0.90
0
28.4
Se desea hallar el área (probabilidad) para valores menores o iguales que 28.4 [P[X < 28.4]] con 20 grados de libertad. Para hallar este tipo de área utilizaremos la Tabla V. En primer lugar debemos ubicar los grados de libertad (20) en el lado izquierdo de la tabla y luego avanzar hacia la derecha en la misma dirección y ubicar 29
el valor 28.4 y hallar el área (probabilidad) en la parte superior, tal como se muestra a continuación: TABLA N° 6
X2 0.995
X20.99
X20.975
1 2 3 . . . 20 . . . 100
X20.95
X20.90
....
28.4
b) PX 12.4 1 PX 12.4 PX 12.4 1 0.10 PX 12.4 0.90
0.90
0
12.4
c) P12.4 X 28.4 P X 28.4 P X 12.4 P12.4 X 28.4 0.90 0.10 P12.4 X 28.4 0.80
0.80
0
12.4
28.4 30
X20.005
AUTOEVALUACIÓN 01 1.
Utilizar cálculo directo
Si Z
n(0,1) , hallar:
a)
P(Z 1.55)
b)
P(Z 1.20)
c)
P(Z 1.36)
d)
P(1.00 Z 1.00)
NOTA: GRAFICAR: 2.
Utilizar propiedades
Si Z
n(0,1) , hallar:
a)
P(Z 2.60)
b)
P(Z 1.22)
c)
P(Z 2.35)
d)
P(3.00 Z 2.25)
3. Si T se distribuye mediante una t20 hallar: a)
P[T 2.528]
b)
P[1.325 T 2.845]
c)
P[T 1.325]
d)
P[T 2.845]
NOTA: GRAFICAR 4. Si Z
n(0,1) , hallar los valores -Zo y Zo en las siguientes áreas:
a)
P(Z Z o ) 0.96
b)
P(Z Z 0 ) 0.0013
c)
P(Z Zo ) 0.002
d)
P(Z Z o ) 0.998
NOTA: GRAFICAR:
31
5.
Si X
n(1000, 3600) , hallar:
a)
P( X 1200)
b)
P( X 850)
c)
P( X 900)
d)
P(850 X 940)
6. Si T se distribuye mediante una t20, hallar los puntos t 0 en las siguientes áreas : a) P[t o T t 0 ] 0.98
b) P[T t 0 ] 0.10
c)
d) P[T t 0 ] 0.95
P[T t 0 ] 0.975
y
to
NOTA: GRAFICAR 2 7. Si X se distribuye mediante una X 20 hallar:
a)
P[X 40.00]
b)
P[15.45 X 40.00]
c)
P[X 10.85]
d)
P[X 28.41]
NOTA: GRAFICAR
32
CAPITULO II INTERVALOS DE CONFIANZA 2.1. INTRODUCCION: Actualmente se debe estar bien consciente de que las poblaciones son generalmente muy grandes como para ser estudiadas en su totalidad. Su tamaño requiere que se selecciones muestras las cuales se pueden utilizar para hacer inferencias sobre poblaciones. Hay dos tipos de estimadores que se utilizan más comúnmente para este propósito: un estimador puntual y un estimador por intervalo. Un estimador puntual utiliza un estadístico para estimar el parámetro en un solo valor o punto. El estimador puntual por ser un solo numero, no proporciona por si mismo información alguna sobre la precisión y confiabilidad de la estimación. Debido a la variabilidad de la muestra, nunca se tendrá que x . El estimado puntual nada dice sobre lo cercano que esta de . El Psicologo puede seleccionar una muestra de n=50 pacientes y hallar la edad promedio de x 36 , este valor sirve como estimación puntual para la media poblacional. Una alternativa para reportar un solo valor del parámetro que se esta estimando es calcular e informar todo un intervalo de valores factibles, un intervalo de confianza. Una estimación por intervalo especifica el rango dentro del cual está el parámetro poblacional desconocido. El Psicologo puede decidir que la media poblacional esté entre 35 y 38. Tal intervalo con frecuencia va acompañado de una afirmación sobre el nivel de confianza que se da con exactitud. Por lo tanto se llama intervalo de confianza. En realidad hay tres niveles relacionados comúnmente con los intervalos de confianza: 99%, 95% y 90%. El Psicologo mencionado puede tener un 95% de confianza en que la media poblacional está entre 35 y 38.
33
2.2. DEFINICIÓN Es el rango dentro del cual se encuentra el parámetro desconocido con un nivel de confianza dado.
ˆ , se trata de En base a una muestra aleatoria y la correspondiente estadística encontrar un intervalo [L1, L2] llamado Intervalo de Confianza que debe contener el parámetro con una probabilidad dada (1-) llamado nivel de confianza. Si ˆ es una estadística f( ˆ )
1 -
/2
/2 L1
θ. 1
L2
fig. 11 El intervalo [L1, L2] es un intervalo aleatorio ya que sus extremos L 1, L2 llamados límites de confianza son variables cuyos valores varían de una muestra a otra. La Estimación Interválica consiste en calcular L 1, L2 dada una muestra aleatoria y un nivel de confianza (1-) y decir que se tiene confianza del 100 (1-) % que el intervalo contiene el valor desconocido . Por ejemplo: Si 1- = 0.95, se dice que se tiene una confianza del 95% que el intervalo contenga el valor desconocido ; o bien, de 100 intervalos aleatorios que se tomen 95 de las veces contendrá el parámetro y sólo 5 veces no lo contendrá.
34
2.3. INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL PL1 L 2 1
1 -
/2
L1
μ
/2
L2
fig. 12 Se presentan los siguientes casos: 2.3.1. CASO I: Uso de la Estadística Z i) Muestra grande (n 30), varianza poblacional conocida 2 y población normal o no. L1 x Z 0 x L 2 x Z0 x ii)
Muestra grande (n 30), varianza poblacional desconocida 2 s 2 y población normal o no. L1 x Z 0 s x L 2 x Z0 s x
iii) Muestra pequeña (n < 30), varianza poblacional conocida 2 y población normal.
35
L1 x Z 0 x L 2 x Z0 x 2.3.2. CASO II: Uso de la Estadística t Muestra pequeña (n < 30), varianza poblacional desconocida
2
s2 y
población normal. L1 x t 0 s x L 21 x t 0 s x Donde:
t 0 t 1 / 2 , n -1
2.3.3. ERROR ESTÁNDAR DE LA MEDIA El error estándar es una medida de la dispersión de las medias de muestras alrededor de la media de la población. Si la dispersión disminuye (si se hace más pequeña), entonces los valores tomados por la media de la muestra tienden a agruparse mas cercanamente alrededor de . Y a la inversa, si la dispersión se incrementa (si se agranda), los valores tomados por la media de la muestra tienden a agruparse menos cercanamente alrededor de . Al disminuir el error estándar, el valor de cualquier media de muestra probablemente se acercara al valor de la población, lo que quiere decir que al disminuir el error estándar, se incrementa la precisión con que se puede usar la media de la muestra para estimar la media de la población.
Si el muestreo es con o sin reposición en una población infinita (o con sustitución en una población finita de tamaño N), el error estándar de la media muestral es: ( 2 conocida) i) x n ii)
s x
s ( 2 desconocida) n
36
Si el muestreo es sin reposición en una población finita de tamaño N, el error estándar de la media muestra es: i) x
Nn ( 2 conocida) N 1 n
ii) s x
Nn s ( 2 desconocida) N 1 n
Donde:
Nn es el factor de corrección para población finita. N 1
NOTA: Generalmente se utiliza el muestreo sin reposición en poblaciones infinitas y finitas de tamaño N Ejemplo 19: Se ha llevado acabo una prueba para determinar el coeficiente intelectual medio de los alumnos, sabiendo que el coeficiente intelectual sigue una distribución normal con desviación estándar 24 . De una muestra de 100 alumnos se obtiene un un coeficiente intlectual medio de 90 soles. Calcular un intervalo de confianza del 95% para el coeficiente intelectual medio poblacional tomando en cuenta que el coeficiente normal varía de 80 a 120. Solución: a) Se desea estimar:
μ: Coeficiente intelectual medio poblacional b)
Análisis: x 90 n = 100 n=100 (n>30) 24 soles Varianza poblacional conocida y población normal.
Para un nivel de confianza 1 – α = 0.95
ZO 1.96
Error estándar de la media muestral x es: 24 2.4 x n 100
37
c)
Haremos uso de la estadística Z descrita en el Caso I – i:
d)
Hallando el intervalo de confianza: L1 x Z0 90 1.96 2.4 85.30 n L 2 x Z0 90 1.96 2.4 94.70 n
e)
Interpretación: El coeficiente medio intelectual poblacional de los alumnos varia entre 85.30y 94.70 con una confianza del 95%.
Ejemplo 20: Un Psicologo hace un estudio sobre el número de comportamientos agresivos a la semana en una muestra aleatoria de 9 monos de una determinada zona obtiene una media media muestral de 11 agresiones, considerando que la poblaciòn es normal con varianza 12 . Obtener un intervalo de confianza del 90% para el número medio de comportamientos agresivos real. Solución: a) Se desea estimar: μ: Número medio de comportamientos agresivos. b) Análisis: x 11 n=9 n=9 (n<30)
2 Varianza poblacional conocida 12
Para el nivel de confianza 1 – α = 0.90
ZO 1.645
Error estándar de la media muestral x :
sx
3.4641 1.1547 n 9
c)
Haremos uso de la estadística Z descrita en el Caso I - iii
d)
Hallando el intervalo de confianza:
38
L1 x Z0
11 1.645 1.1547 9.1005 9 n
L 2 x Z0
11 1.645 1.1547 12.90 13 n
e) Interpretación: Con una confianza del 95% que el número medio de comportamientos agresivos real de los monos varía entre 9 y 13. Ejemplo 21: Un investigador desea estimar el contenido promedio de alquitrán de cierta marca de 4 cigarrillos para ello toma una muestra de 25 cigarrillos obteniendo una media de 17.2 mg. y una desviación estándar de 5 mg.; estudios anteriores indican que el contenido de alquitran se distribuye normalmente. Estime un intervalo de confianza del 99% para el contenido promedio de alquitrán poblacional. Solución: a) Se desea estimar: μ: Contenido promedio de alquitrán b)
Análisis: x 17.2 mg.
n=25 s 5 mg.
n=25 (n<30)
Varianza poblacional desconocida 2 s 2 se estima a través de la
muestra. Población normal. Para el nivel de confianza 1 – α = 0.99
El error estándar de la media muestral x es: sx
t O t 0.995,24 2.797
s 5 1 n 25
39
c)
Haremos uso de la estadística t:
d)
Hallando el intervalo de confianza: s L1 x t0 17 2.797 1 14.20 mg. n s L2 x t 0 17 2.797 1 19.20 mg. n
e)
Interpretación: El contendio promedio de nicotina poblacional varia ente 14.21 mg. Y 19.20 mg.
Ejemplo 22: Los siguientes datos son los puntajes obtenidos para para 45 personas de una escala de depresión (mayor puntaje significa mayor depresión). 2 5 6 8 8 9 9 10 11 11 11 13 13 14 14 14 14 14 14 15 15 16 16 16 16 16 16 16 16 17 17 17 18 18 18 19 19 19 19 19 19 19 19 20 20 Sabiendo que la población es normal de tamaño N=500. Calcular un intervalo de confianza del 95% para la escala promedio poblacional Solución: a) Se desea estimar: μ: Escala promedio de depresión poblacional b)
Análisis: x 14.5556 n=45
s 4.2768
Varianza poblacional desconocida 2 s 2 . Población normal. 40
Se tiene una población finita de tamaño N=500, entonces El error estándar
de la media muestral x es: s N n 4.2768 500 45 1.1932 N 1 500 1 n 45
sx c)
Haremos uso de la estadística Z descrita en el Caso I - ii:
d)
Hallando el intervalo de confianza:
L1 x Z0
s Nn N 1 n
L 2 x Z0
s Nn N 1 n
L1 14.5556 1.96 1.1932
L 2 14.5556 1.96 1.1932
L1 12.22
L 2 16.89
e) Interpretación: La escala de depresión promedio poblacional varía entre 12.22 y 16.89 con un nivel de confianza del 95%.
41
2.4. INTERVALO DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES
P L1 1 2 L 2 1
1 -
/2
L1
1 2
/2
L2
fig. 13 Se presentan los siguientes casos: 2.4.1. CASO I: USO DE LA ESTADÍSTICA Z Muestras grandes n1 30 y n 2 , 30 varianzas poblacionales conocidas 12 y 22 poblaciónes normal o no. L1 (x1 x 2 ) Z0 x1 x 2 L2 (x1 x 2 ) Z0 x1 x 2
Donde:
x1 x2
12 n1
2 2 n2
42
ii)
Muestras grandes n1 30 y n 2 30 , varianzas poblacionales desconocidas (12 s12 y 22 s22 ) y poblaciónes normales o no. L1 (x1 x 2 ) Z0 s x1 x 2 L2 (x1 x 2 ) Z0 s x1 x2 Donde: sx1 x 2
s 12 s22 n1 n 2
iii) Muestras pequeñas n1 30 y n 2 30 considerando que (n1+n2<30) , varianzas 12 y 22 poblacionales conocidas y poblaciónes normales. L1 (x1 x 2 ) Z0 x1 x 2 L2 (x1 x 2 ) Z0 x1 x 2
Donde:
x1 x2
12 n1
2 2 n2
NOTA: En caso de que las poblaciones N 1 y N2 fueran finitas se debe corregir el intervalo a través del error estándar de la diferencia de medias muestrales tal como se presenta a continuaciòn:
43
x1 x 2
s x1 x 2
2 1N n1 22 N2 n2 1 n1 N 1 1 n 2 N 2 1
s1 2 N n1 s22 N2 n2 1 n1 N 1 1 n 2 N2 1
2.4.2. CASO II: USO DE LA ESTADÍSTICA T. i) Muestras pequeñas n1 30 y n 2 30 considerando que ( n1+n2<30), varianzas 2 2 2 2 2 2 poblacionales desconocidas pero iguales 1 2 (1 s1 y 2 s2 ) y poblaciónes normales. L1 (x 1 x 2 ) t 0 s C
1 1 n1 n 2
L2 (x 1 x 2 ) t 0 s C
1 1 n1 n 2
Donde: s x1 x2 s C
s c
1 1 n1 n 2
(n1 1) s12 (n 2 1) s 22 n1 n 2 2
Además:
t 0 t1/ 2,
n1 +n2 -2
44
Muestras pequeñas n1 30 y n 2 30 considirando que ( n1+n2<30), 21 22 (12 s12 y 22 s 22 ) varianzas poblacionales desconocidas pero diferentes y poblaciónes normales.
L1 (x1 x 2 ) t 0
s12 s2 2 n1 n 2
L2 (x1 x 2 ) t 0
s12 s2 2 n1 n 2
Donde:
t 0 t1 / 2, r
s12 s22 n1 n 2 r 2 2 2 2 s s n n 1 1 2 2 n1 1 n 2 1 Ejercicio 23: La tasa de consumo de oxígeno es una medida de la actividad fisiológica de los corredores. Se desea comparar las tasas de consumo de oxigeno en ml./minuto en corredores de entrenamiento por dos métodos distintos: un entrenamiento continuo durante cierto lapaso de tiempo cada dìa, y un entrenamiento intermitente con la misma duración total. Se han tomado datos del consumo de oxígeno de varones universitarios entrenados por ambos métodos y se han obtenido los siguientes descriptivos:
45
Entrenamiento continuo
Entrenamiento intermitente
n1=9
n2=7
x1 43.71
x 2 39.63
s12 5.88
s 22 7.68
Si se supone que las mediciones provienen de poblaciones normales independientes con igual varianza, estime la diferencia real de tasas medias de consumo de oxígeno con un nivel de confianza del 95%. Solución: a) Se desea estimar: 1 2 : La diferencia real de tasas medias de consumo de oxígeno.
b) Análisis: x 43.71ml. / min uto
n=9 s 2.42 ml. / min uto
x 39.63 ml. / min uto
n=7 s 2.77 ml. / min uto
n1 9 30 y n 2 7 30
Varianzas poblaciones iguales pero desconocidas 12 22 normales.
46
y poblaciones
Hacemos uso de la estadística t Caso II i) con un nivel de confianza del
t 0 t1 / 2,
95%, entonces
n 1 +n 2 -2
= t 0.975,
14
=2.145
Error estándar de la diferencia de medias es: s x1 x 2 s C
s c
1 1 n1 n 2
(9 1) 5.88 (7 1) 7.68 972
s c 2.58 s x1 x 2 2.58
1 9
1 7
s x1 x 2 1.3
Entonces: L1 (x 1 x 2 ) t 0 s C
1 1 n1 n 2
L1 (43.71 39.63) 2.145 1.3 L1 7.68 2.79 L1 4.89 ml. / min uto
47
L2 (x 1 x 2 ) t 0 s C
1 1 n1 n 2
L2 (43.71 39.63) 2.145 1.3 L2 7.68 2.79 L2 10.47ml. / min uto
Se tiene una confianza del 95% de que las diferencias medias de las tasas medias de consumo de oxigeno varía entre 4.89ml./minuto y 10.47 ml./ minuto.
Ejemplo 24: El nivel de colesterol es un factor de alto riesgo en el desarrollo de la enfermedad de artereoesclerosis cardiaca y de la enfermedad de arteria coronaria, por tanto, es importante determinar los niveles que esperamos en los diferentes grupos de edad y sexo. Para comparar el nivel de colesterol de los varones de 20 a 29 años de edad frente a las mujeres del mismo grupo, se realizó un estudio cuyos resultados se exponen a continuación: Hombres
Mujeres
n1=96
n2=85
x1 180.81mg. / dl
x1 181.08 mg. / dl
s1 30.55 mg. / dl
s 2 30.59mg. / dl
Obtener un intervalo de confianza para la diferencia de medias del nivel de colesterol de hombres y mujeres al 90%. ¿Son los niveles de colesterol diferentes? ¿Quién tiene un nivel más alto de colesterol los hombres o las mujeres?
48
Solución: a) Se desea estimar: 1 2 : La diferencia media poblacional del nivel de colesterol de hombres y mujeres.
b) Análisis: x1 180.81
n=9 6 s1 30.55
x1 181.08
n=85 s 2 30.59
n1 96 30 y n 2 85 30 2 2 Varianzas poblaciones desconocidas (s1 933.3025 y s 2 935.7481) y poblaciones normales por el Teorema de Limite Central n1 30 y n 2 30 Hacemos uso de la estadística Z Caso I ii) con un nivel de confianza del
90%, entonces
z 0 1.645
Error estándar de la diferencia de medias es:
sx1 x2
s 12 s22 n1 n 2
933.3025 935.7481 s x1 x 2 96 85 s x1 x 2 4.5531
49
Entonces: L1 (x1 x 2 ) Z0 s x1 x 2 L2 (x1 x 2 ) Z0 s x1 x 2
L1 (x 1 x 2 ) Z 0 s x1 x 2 L1 (180.81 181.08) 1.645 4.5531 L1 0.27 7.49 L1 7.76
L 2 (x 1 x 2 ) Z 0 s x1 x 2 L 2 (180.81 181.08) 1.645 4.5531 L 2 0.27 7.49 L 2 7.22
Se tiene una confianza del 90% de que las diferencia media poblacional del nivel de colesterol varía entre 0 mg./dl y 7.22 mg./dl. En el resultado observamos que el valor cero se encuentra dentro del intervalo, entonces los niveles de colesterol de los hombres y de las mujeres son iguales.
50
2.5. INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN POBLACIONAL 2.5.1. INTRODUCCION Muchas veces las decisiones dependen de parámetros que son binarios, parámetros con solo dos posibles categorías dentro de las cuales pueden clasificarse las respuestas. En este caso el parámetro de interés es la proporción poblacional o porcentaje de la población que cumple cierta característica. Por ejemplo un psicológo puede estar interesada interesada en estimar el porcentaje de alumnos desertores en el año académico por motivos familiares en una institución educativa, el porcentaje de trabajadores con stress laboral en una empresa , el porcentaje de matrimonios con psicoterapia de pareja ,etc. Donde: P: Proporción poblacional de éxitos o proporción de elementos de la población que tienen cierta característica. P
X Número de elementos de la población que tienen cierta caracteristica N Número de elementos de la población
Q: Proporción poblacional de fracasos o proporción de elementos de la población que no tienen cierta características. Q
X ' Número de elementos de la población que no tienen cierta caracteristica N Número de elementos de la población
Además: PQ 1
entonces
Q 1 P
Generalmente la proporción poblacional se desconoce y tiene que ser estimado a través de la proporción muestral. Entonces: p: Proporción muestral de éxitos o proporción de elementos de la muestra que tienen cierta característica. p
x Número de elementos de la muestra que tienen cierta caracteristica n Número de elementos de la muestra
51
q: Proporción muestral de fracasos o proporción de elementos de la muestra que no tienen cierta característica. x ' Número de elementos de la muestra que no tienen cierta caracteristica q n Número de elementos de la muestra Además: pq 1
q 1 p
entonces
2.5.2. DEFINICION Es el rango dentro del cual se encuentra la proporción poblacional con un nivel de confianza dado.
P L| P L 2 1
1 -
α /2
L1
P
α /2
L2
fig. 14 Para hallar los intervalos de confianza para la proporción poblacional usaremos la estadística Z para muestras grandes (n 30). Entonces los límites de confianza serán:
L1 p Z 0 s p p Z 0
pq n
L 2 p Z 0 s p p Z o
pq n
52
2.5.3. ERROR ESTÁNDAR DE LA PROPORCIÓN Si el tamaño de la muestra es suficientemente grande (n 30). Si el muestreo es con o sin sustitución en una población infinita (o con sustitución en una población finita de tamaño N), el error estándar es:
p
P (1 P) n
s p
p (1 p) n
que se estima por:
Si el muestreo es sin sustitución en una población finita de tamaño N el error estándar para la proporción poblacional esta dado por: P
PQ N n N 1 n
s p
pq N n N 1 n
que se estima por
Donde: Nn es el factor de corrección para población finita. N 1
Ejemplo 25: Un psicologo desea estudiar el porcentaje de pacientes con transtornos psicológicos que se atienden en su clinica, en una muestra aleatoria de 50 pacientes encuentra que 10 de ellos padecen transtornos psicológicos. Hallar el intervalo de confianza del 95% para la proporción de real de pacientes con transtorno psicológico. Solución: 1. Se desea estimar la proporción real de pacientes con transtorno spicológico.
53
2. Observamos que la proporción muestral de pacientes con transtorno spicológico es: 10 0.2 q 0.8 50 Para un nivel de confianza del 95% el valor de Z 0 = 1.96 El error estándar de la proporción muestral es: p
s p
p q 0.2 0.8 0.06 n 50
Los límites de confianza para P son:
pq L1 p Z0 0.2 1.96 0.06 0.2 0.12 0.08 n L2 p Z0
pq 0.2 1.96 0.06 0.2 0.12 0.32 n
Interpretación: Se tiene una confianza del 95% que el porcentaje de pacientes con transtorno psicológico varia entre el 8% y 32%.
Ejemplo 26: Se desea conocer la opinión de los alumnos de la Uladech en relación con la aceptación o no de la pena de muerte para los terroristas en el Perú. Para ello se ha tomado una muestra aleatoria simple de tamaño 500. Si las respuestas afirmativas han sido 100, encontrar un intervalo de confianza aproximado del 95%. Solución: Se desea estimar la proporción de alumnos de la Uladech que están de acuerdo con la pena de muerte para los terroristas en el Perú. Observamos también que la proporción muestral de personas que están a favor de la pena de muerte es:
54
p
x 100 0.20 q 0.80 . n 500
Para un nivel de confianza del 95% el valor de Z0 = 1.96.
El error estándar de la proporción muestral es: s p
p q 0.20 0.80 n 500
s p 0.02
Los límites de confianza para P son:
L1 p Z 0
pq 0.20 1.96 0.02 0.16 n
L 2 p Z 0
pq 0.20 1.96 0.02 0.24 n
Interpretación: Se tiene una confianza del 95% que el porcentaje de estudiantes de la Uladech que afirman estar de acuerdo con la pena de muerte varía entre el 16% y 24%. Ejemplo 27: Se desea estimar el porcentaje de aprobados de un curso de Psicología de una población de 500 alumnos. Para este fin, se uso una muestra de 35 alumnos que reveló un 80% de aprobados. Estime la verdadera proporción de aprobados del curso Psicología dentro de una confiabilidad del 99%. Solución: Se desea estimar la proporción de aprobados en el curso de Psicología Observamos que N = 500 y n = 35 Observamos también que la proporción muestral de alumnos aprobados en el curso de Psicología: p 0.8 . 55
Para un nivel de confianza del 99% el valor de Z o=2.576. El error estándar de la proporción muestral es:
sp
pq N n n N 1
sp
0.80 0.20 500 35 500 500 1
s p 0.07
Los límites de confianza para P son:
L1 p Z0 s p 0.8 2.576 0.07 0.8 0.18 0.62
L2 p Z0 s p 0.8 2.576 0.07 0.8 018 0.98
Se tiene una confianza del 99% que el porcentaje de alumnos aprobados en el curso de Psicologia varía entre el 62% y 98%.
2.6. INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES POBLACIONALES
P L| P1 P2 L 2 1
1 -
α /2
L1
P1 P2
α /2
L2
fig. 15
56
Para hallar los intervalos de confianza para la diferencia entre dos propociones poblacionales haremos uso de la estadística Z para muestras grandes (n 1≥ 30 y n2≥30), entonces:
L1 (p1 p 2 ) Z0 s p1 p 2 L2 (p1 p 2 ) Z0 s p 1 p 2
Donde:
sp
1 p 2
p1q1 p 2 q 2 n1 n2
NOTA: En caso de que las poblaciones N 1 y N2 sean finitas, sedebe corregir el intervalo usando:
sp
1 p 2
p1q1 N1 n1 p 2q 2 N 2 n 2 n1 N1 1 n 2 N 2 1
Ejemplo 28: En los establecimientos penales de Lima un grupo de psicologos estudiaron dos tipos de reclusos. Una muestra de 300 internos del tipo I reveló que 50% era adicto a las drogas. En otra muestra del tipo II de 240 internos, el 35% era adicto a las drogas. Construir un intervalo de confianza del 99% para la diferencia de las dos proporciones poblacionales. Solución: a) Se desea estimar:: P1 P2 b) Las muestras de internos tomadas para cada tipo revelan la siguiente información:
57
TIPO DE RECLUSO TIPO I
TIPO II
n
n1=300
n2=240
p
P1=0.50
P2=0.35
c) La diferencia entre las dos proporciones muestrales es: p1 p 2 0.50 0.35 0.15
El error estándar entre las dos proporciones muestrales es:
sp
p1q1 p 2 q 2 n1 n2
sp
0.50 0.50 0.35 0.65 300 240
1 p2
1 p2
sp
1 p2
0.03
d) Para un nivel de confianza del 99%; Z o= 2.576 e) El intervalo de confianza para la diferencia entre dos proporciones poblacionales es: L1 (p1 p 2 ) Z 0 s p1 p 2 L1 0.15 2.576 0.03 L1 0.15 0.08 0.07
L 2 (p1 p 2 ) Z 0 s p1 p 2 L 2 0.15 2.576 0.03 L 2 0.15 0.08 0.23
58
Es decir se tiene una confianza del 99% que el intervalo de confianza entre la diferencia entre las dos proporciones varìa entre 7% y 23%. Vemos que P1 P2 0 al intervalo de confianza, lo que quiere decir que los tipos de reclusos son diferentes ante su adicción a las drogas. Los reclusos Tipo I tienen mayor adicción a las drogas que los reclusos Tipo II. AUTOEVALUACIÓN 02 1. Un fabricante de cigarrillos desea anunciar el contenido medio de nicotina de sus cigarrillos, para ello el laboratorio realizó 15 determinadores de contenido. Los datos obtenidos fueron: x 25.6 mg. y s 23mg.. Construya un intervalo de confianza del 95% para el contenido medio real de nicotina de los cigarrillos. 2. Los tiempos de reacción en mili segundos de 17 sujetos frente a una matriz de 15 estimulos fueron los siguientes: 448, 460, 514, 488, 592, 490, 507, 513, 492, 534, 523, 452, 464, 562, 584, 507, 461. Suponiendo que el tiempo de reacción se distribuye normalmente, determine un intervalo de confianza para la media a un nivel de confianza del 95%. 3. En una muestra de 65 sujetos las puntuaciones en una escala de extroversión tienen una media de 32.7 puntos y una desviación estándar de 12.64. Calcule a partir de estos datos el correspondiente intervalo de confianza, a un nivel del 90%, para la media de la población. 4. Se ha tomado una muestra aleatoria de 100 individuos a los que se ha medido el nivel de glucosa en sangre, obteniéndose una media muestral de 110 mg./cc. Se sabe que la desviación estándar es de 20 mg./cc. .Obtén un intervalo de confianza para el nivel de glucosa en sangre de la población, al 90% de confianza. 5. Se realizó un experimento para comparar el tiempo promedio requerido por el cuerpo humano para absorber dos medicamentos, A y B. Suponga que el tiempo necesario para que cada medicamento alcance un nivel específico en el torrente sanguíneo se distribuye normalmente. Se eligieron al azar a doce personas para ensayar cada fármaco registrándose el tiempo en minutos que tardó en alcanzar un
59
nivel específico en la sangre. Calcule un intervalo de confianza del 95% para la diferencia del tiempo promedio y determine que medicamento emplea menos tiempo para llegar al torrente sanguíneo. Suponga varianzas iguales. 6. En cierta población se seleccionó aleatoriamente 500 personas a las que se les sometió a un test cultural, de ellas 200 resultaron aprobadas. Teniendo en cuenta esta información, estimar el porcentaje de personas de esa población que resultarían aprobadas si se les sometiera a dicho test cultural. Obtener un intervalo de confianza del 95% para la proporción real de personas que resultaron aprobadas en el test cultural. 7. Tomada, al azar, una muestra de 120 estudiantes de una Universidad, se encontró que 54 de ellos tenían problemas de estress por trabajos y tareas acumuladas de fin de ciclo. Halle, con un nivel de confianza del 90%, un intervalo de confianza para estimar la proporción de estudiantes que tienen problemas de estress entre los estudiantes de esa Universidad. 8. Suponga que la cadena de televisión SOLTVSA está pensando en reemplazar uno de los programas que transmite en horario estelar con una nueva comedia de orientación familiar. Antes de llegar a la decisión final, se efectúa una encuesta a una muestra aleatoria de 500 personas que ven la televisión en horario estelar. Después de mirar el piloto, 290 indicaron que verían la comedia. a) ¿Cuál es el estimado puntual de la proporción de televidentes en la población que verán el nuevo programa? b) Desarrolle un intervalo de confianza de 95% para la proporción de televidentes que verán el nuevo programa. 9. Un artículo del New York Times en 1987 reportó que se puede reducir el riesgo de sufrir ataques al corazón ingiriendo aspirina. Para llegar a esta conclusión el cronista se basó en los resultados de un experimento diseñado, en donde participaron dos grupos de personas. A un grupo de 11,034 personas se le suministró una dosis diaria de una pastilla que no contenía ninguna droga (un placebo), y de estos 189 sufrieron posteriormente ataques al corazón, mientras que al otro grupo de 11,037 se les suministró una aspirina, y sólo 104 lo sufrieron. Considera Usted que el cronista del New York Times estaba en lo correcto?. Use un 60
intervalo de confianza del 95%. Haga explícitas las suposiciones que considere necesarias. 10. Un médico ha sugerido que un ataque cardíaco es menos probable que ocurra en hombres que practican alguna clase de deporte. Se elige una muestra al azar de 300 hombres, de los cuales 100 practican alguna clase de deporte y de ellos sólo 10 han sufrido un ataque cardíaco. De los 200 que no practican deportes, 25 han sufrido ataques cardíacos. Probar si los resultados de las muestras apoyan lo sugerido por el médico. Use un intervalo de confianza del 90%.
61
CAPITULO III PRUEBA DE HIPOTESIS 3.1. INTRODUCCION El propósito de análisis estadístico es reducir el nivel de incertidumbre en el proceso de decisiones. Los psicólogos pueden tomar mejores decisiones solo si tienen suficiente información a su disposición. La prueba de hipótesis es una alternativa analítica muy efectiva para obtener esta valiosa información. Por ejemplo el psicológo de un hospital desea determinar si el nivel de depresión en pacientes con cáncer es mayor de 55 puntos ( 55 ). El psicólogo de un hospital desea saber si el porcentaje de personas que tienen hábito de fumar es mayor del 30% ( P 0.30 ). Las ilustraciones de esta naturaleza son virtualmente ilimitadas en diferentes escenarios del campo de la Psicología. Si se pueden obtener respuestas a estas preguntas y a muchas otras con algún grado de garantía la toma de decisiones se vuelve más segura y es menos probable que conduzca a un error costoso. 3.2. DEFINICIONES GENERALES A continuación daremos a conocer algunas definiciones generales que se usan para llevar a cabo una prueba de hipótesis: a) Hipótesis estadística: Es una suposición o afirmación respecto de un parámetro poblacional. Por ejemplo: b) Prueba de hipótesis: Es un procedimiento basada en la evidencia muestral y en la teoría de la probabilidad que se lleva acabo para decidir si se acepta o rechaza un hipótesis estadística planteada. c) Tipos de hipótesis: Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones de las poblaciones que se estudian. Hay dos tipos de hipótesis: la hipótesis nula y la hipótesis alternativa. c.1.) Hipótesis nula (Ho): Es aquella que establece que el parámetro tiene determinado valor y se formula con la intención de rechazarla.
62
La hipótesis nula es una afirmación que será aceptada si los datos de la muestra no nos proveen de evidencia convincente de que es falsa, es decir, si se acepta la hipótesis nula decimos que la evidencia no es suficiente para rechazarla pero no podemos afirmar que es verdadera. c.2) Hipótesis alternativa: Es una hipótesis diferente a la hipótesis nula, es la que suponemos que es verdadera y deseamos establecer. La hipótesis alterna es la afirmación que se acepta si se rechaza la hipótesis nula. Esta hipótesis, también llamada hipótesis de investigación. La hipótesis alterna es aceptada si la evidencia proporcionada por la muestra es suficiente para afirmar que la Ho es falsa. d) Tipos de errores: Al realizar una prueba de hipótesis no sabemos si en una determinada acción (rechazo o aceptación de la hipótesis nula) cometemos un error o no. Error Tipo I: Consiste en rechazar la hipótesis nula cuando es verdadera.
Error Tipo II: Consiste en aceptar la hipótesis nula cuando es falsa.
Si Ho es la hipótesis nula (sometida a prueba) y H 1 es la hipótesis alternativa, entonces estas hipótesis junto con las dos posibilidades de decisión podemos esquematizarla en la siguiente tabla: ESTADO DE LA NATURALEZA DECISIÓN
Aceptar Ho Rechazar Ho
Ho verdadera 1 - Decisión correcta Error Tipo I
Ho falsa Error Tipo I Decisión correcta
Es obvio quien toma las decisiones, quiere reducir al máximo las probabilidades de cometer cualquiera de estos dos tipos de errores, esto no es fácil, pues las probabilidades de cometer error tipo I y II son inversamente proporcionales, para cualquier prueba dada. De ahí que, cuanto menor es el riesgo de cometer un error tipo I, tanto mayor es la probabilidad de cometer un error tipo II y viceversa. Sin embargo dada la regla de decisión, es posible reducir ambos tipos de errores en forma simultánea, aumentando el tamaño de la muestra.
63
e) Nivel de significacion (): Se denomina nivel de significación de una prueba de hipótesis a la probabilidad de cometer un error tipo I. El nivel de significancia es simbolizado por α, y también es conocido como nivel de riesgo. Este último término es más apropiado porque es el riesgo que se toma de rechazar una hipótesis verdadera. = P[error tipo I] = P [Rechazar Ho / Ho es verdadera] = P[error tipo I] = P [Aceptar H1 / H1 es falsa] No hay un nivel de significancia para todos los estudios, se puede utilizar cualquier valor de probabilidad entre 0 y 1. Tradicionalmente, el nivel de 0.05 es aplicado a proyectos de investigación, el nivel 0.01 a control de calidad, y 0.10 a sondeos políticos. Usted como investigador debe decidir el nivel de significancia antes de colectar la muestra de datos. Los niveles de significación más usados son: = 0.05 y 0.01. Estos dos números son usados tan frecuentemente que cuando Ho es rechazada en = 0.05, podemos decir que el resultado es significativo y cuando Ho es rechazada en = 0.01, decimos que el resultado es altamente significativo. NOTA: La probabilidad de cometer un error tipo II se representa por , es decir: = P[error tipo II] = P[Aceptar Ho / Ho falsa] = P[error tipo II] = P[Rechazar H1 / H1 es verdadera]
f (ˆ / H1)
f (ˆ / H 0)
1-
1-
R.A.
C
R.R.
fig. 16 R.A. : Región de aceptación. R.R. : Región de rechazo. 64
f) Tipos de prueba: Prueba de cola izquierda: Si la región de rechazo está a la izquierda del punto crítico C.
f (ˆ / H 0 ) 1-
R.R. C
R.A.
fig. 17 Prueba de cola derecha: Si la región de rechazo está a la derecha del junto crítico C.
f (ˆ / H 0) 1-
R.A.
C
R.R.
fig. 18 Prueba bilateral: Si la región de aceptación es un intervalo cerrado entre los puntos crítico C1 y C2.
f (ˆ / H0 ) 1-
/2 R.R. C1
R.A.
/2 C2 R.R.
fig. 19
65
g) Pasos de una prueba de hipótesis: 1. Formulación de la hipótesis nula y alternativa de acuerdo al problema. 2. Especificación del nivel de significación. 3. Selección de la estadística de prueba. 4. Establecimiento de los criterios de decisión. 5. Realización de cálculos. 6. Decisión
3.3. PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL La media poblacional es un parámetro de decisión muy importante. Es de interés conocer si una media poblacional ha aumentado, disminuido o ha permanecido inalterado, o también podemos estar interesados en determinar si una media poblacional es significativamente mayor o menor que un valor supuesto. 3.3.1. PRUEBA DE HIPOTESIS PARA LA MEDIA POBLACIONAL USANDO LA ESTADISTICA Z CASO I: Uso de la estadística Z. i) Muestra grande (n 30), varianza poblacional conocida, población normal o no. ii) Muestra grande (n 30), varianza poblacional desconocida (2 s2) y población normal o no. iii) Muestra pequeña (n < 30), varianza poblacional conocida y población normal. 1. Formulación de hipótesis:
a) Ho: o
b) Ho: o
c) Ho: = o
H1: < o
H1: > o
H1: o
2. Nivel de significancia: 3. Estadística de prueba:
Para i y iii
Z
x 0 / n
n(0,1)
66
Para ii
Z
x 0 s/ n
n(0,1)
4. Establecimiento de los criterios de decisión:
Prueba de cola izquierda :
1-
-Z1-
0
R.A .
R.R
R.A.: ZK > - Z1- , se acepta H O. R.R.: ZK < - Z1- , se rechaza HO.
Prueba de cola derecha:
1 -
0
Z 1-
R.A.
R.R.
R.A.: Zk < Z1 - , se acepta H O. R.R.: Zk > Z1 - , se rechaza H O.
67
Prueba bilateral :
1-
/2
/2
-Z1-
0
α/2
R.R.
R.A.: -Z 1
Z 1-
– α/2
R.R.: Zk < -Z1
< Z k < Z1 - α/2
O
.
α/2
R.A.
R.R.
,se acepta H0. Z k > Z 1 – α/2 ,se rechaza H 0.
- α/2
5. Cálculos:
Obtención del valor experimental. Para i y iii
Zk
x 0 /
n
Para ii Zk
x 0 s/
n
6. Decisión:
Se compara el valor experimental con el valor crítico. Si Zk R.A., se acepta HO. Si Zk R.R., se rechaza HO.
68
NOTA: Si se tiene una población finita de tamaño N se corrige la estadística de prueba de la siguiente manera: a) Para i y iii: x
Z
b) Para ii: x
Z
0
n
Nn N 1
0
s n
Nn N 1
Ejemplo 29: En el boletín de Asociación Americana de corazón, hipertensión, investigadores reportan que los individuos que practican meditación (MT), bajan su presión sanguinea de manera signficativa. Si una muestra aleatoria de 225 hombres practicantes de MT meditan 8.5 horas a la semana con una desviación estándar de 2.25 horas ¿Sugiere esto, que en en promedio, los hombres que utilizan la MT meditan más de 8 horas a la semana a un nivel de significancia del 5%? Solución: Utilizamos Caso I - ii 1. Formulación de la hipótesis : H0 : = 8
H1 : 2. Nivel de significancia : = 0.05 3. Estadística de prueba: Análisis: x 8.5 n=225 s 2.5 (n>30) Varianza poblacional desconocida (se obtiene a través de la muestra)
s 2.5 s 2 6.25 Asumiendo población normal, porque n>30 Usar Estadística Z – Caso I - ii 69
4. Establecimiento de los criterios de decisión:
1 - =0.95 0.05
0
R.A .
1.645
R.R .
R.A.: ZK < 1.645, se acepta HO . R.R.: ZK > 1.645, se rechaza HO.
5. Cálculos :
Zk
x 0 8.5 8.0 3 s / n 2.5 / 225
6. Decisión : Zk=3>1.645, rechazamos Ho. Se rechaza la hipótesis; es decir los hombres que utilizan la MT meditan más de 8 horas a la semana. Ejemplo 30: La estatura promedio de mujeres de primer año en cierta universidad es de 162.5 cm. Con una desviación estándar de 6.9 cm. ¿Hay alguna razón para creer que hay un cambio en la estatura promedio si una muestra aleatoria de 50 mujeres en el grupo actual de primer año tiene una altura promedio de 165.2 cm a un nivel de significancia del 1%? Solución: Utilizamos Caso I - i 1. Formulación de la hipótesis: H0 : = 162.5 H1 : ≠ 162.5
70
2. Nivel de significancia: = 0.01 3. Estadística de prueba : Análisis: n=50 x 165.2 (n>30) Varianza poblacional conocida. σ =6. 9
σ 2= 47.61
Asumiendo población normal porque n>30 Usar Estadística Z – Caso I - i Z
x 0 n (0,1) / n
4. Establecimiento de los criterios de decisión :
1- = 0.99 /2=0.05
/2=0.05
0
-2.576
R.R . R.A.: R.R.:
R.A .
2.576
R.R .
-2.576 ZK 2.576, se acepta H O. ZK< -2.576 o
ZK >2.576, se rechaza HO.
5. Cálculos:
Zk
x 0 / n
165.2 162.5 6.9 / 50
2.77
6. Decisión : ZK = 2.77 > 2.576, entonces rechazamos Ho. Si hay razón para creer que hay un cambio en la estatura promedio. 71
3.3.2. PRUEBA DE HIPOTESIS PARA LA MEDIA POBLACIONAL USANDO LA ESTADISTICA T CASO II: Uso de la estadística t. La muestra es pequeña (n< 30), varianza poblacional desconocida (2 s2 ) y población normal. 1. Formulación de hipótesis estadística: a) HO: o
b) HO: o
H1: < o
c) HO: = o
H1: > o
H1: o
2. Nivel de significancia: 3. Estadística de prueba: t
x 0 s/
n
t n 1
Donde: (n-1) son los grados de libertad. 4. Establecimiento de los criterios de decisión: Prueba de cola izquierda :
1-
-t1-α, n-1 R.R. .
0
R.A. R.A.: tK > - t1- , n-1, se acepta HO. R.R.: tK < - t1- n-1, se rechaza HO.
72
Prueba de cola derecha:
1 -
t1-, n-1
0
R.R
R.A
R.A.: tk < t1-, n-1, se acepta H o. R.R.: tk > t1-, n-1, se rechaza H o.
Prueba bilateral :
1-
/2
/2
0 R.R.
R.A.
t1 / 2, n 1
R.R.
t1 / 2 , n 1
R.A.: t 1 - /2, n-1 < tk < t1 - /2, n-1 , se acepta H O . R.R.: tk < - t1 - /2, n-1
o
tk > t1 - /2, n-1 , se rechaza H O.
73
5.
Cálculos: tk
6.
x 0 s/ n
Decisión: Se compara el valor experimental con el valor crítico Si t k RA. , aceptamos Ho. Si t k R.R. , rechazamos Ho.
NOTA: Si se tiene una población finita de tamaño N se corrige la estadística de prueba. Así: t k
x 0 s n
Nn N 1
Ejemplo 31: Las puntuaciones en un test que mide la variable creatividad siguen, en la población general de adolescentes, una distribución Normal de media 11,5. En un centro escolar que ha implantado un programa de estimulación de la creatividad una muestra de 10 alumnos ha proporcionado las siguientes puntuaciones: 11, 9, 12, 17, 8, 11, 9, 4, 5, 9. A un nivel de confianza del 95% ¿Puede afirmarse que el programa es efectivo? Solución: Caso II 1. Formulación de Hipótesis : H0 : = 11.5 H1 : 11.5 2. Nivel de significancia : = 0.05
74
3. Estadística de prueba : Análisis: x 9.5
n=10 (n<30)
s 3.66
Varianza poblacional desconocida (se obtiene a través de la muestra) s 3.66 s 2 13.39
Población normal Usar Estadística T – Caso II t
x 0 s/
n
t n 1
Como n=10, entonces: t t9
4. Establecimiento de los criterios de decisión:
1- =0.95
=0.025 -2.262
0
R.R
R.A
=0.025 2.262 R.R
R.A.: tk [-2.262, 2.262], se acepta H O. R.R.: tk < -2.262 o tk > 2.262, se acepta HO.
75
5. Cálculos :
tk
x 0 s/ n
9.5 11.5 3.66 / 10
1.73
6. Decisión: tk = -1.73 R.A., por lo tanto se acepta Ho. El programa no es efectivo.
Ejemplo 32: Se hizo un estudio en una empresa corporativa para medir el nivel de estress de los trabajadores, según la escala de Holmes Rahe una puntuación media de 250 o más indica que hay una situación de sobre-estrés, se tomó una muestra de 15 trabajadores en que la que se encontrarón las siguientes puntuaciones: 180, 140, 150, 145, 120, 180, 154, 144, 140, 130, 125, 122, 115, 160, 128 . Sabiendo que las puntuaciones se distribuyen normalmente, hay suficiente evidencia a un nivel de significancia del 5% que la puntuación media alcanzada por los trabajadores es menor a 250 puntos. Solución: 1. Formulación de la hipótesis: H0 : ≥ 250 H1 : < 250 2.
Nivel de significancia : = 0.01
3.
Estadística de prueba: Análisis: x 142.2 n=15 s 20.15 (n<30) Varianza poblacional desconocida (se obtiene a través de la muestra)
s 20.15 s 2 405.89 Población normal
Usar Estadística T – Caso II
76
t
x 0 s/
n
t n 1
Como n=15, entonces: t o t 0.99 ,14 2.624
4.
Establecimiento de los criterios de decisión:
1-α = 0.99
= 0.01
-2.624
R.R .
0
R.A . R.A.: tK - 2.624, se acepta HO. R.R.: tK < -2.624, se rechaza HO.
5.
Cálculos:
tk 6.
x 0 142.2 250 20.71 s/ n 20.15 / 15
Decisión: tk = -20.71<-2.624, entonces rechazamos HO. Existe suficiente evidencia a un nivel de significancia del 1% que la puntuación media del nivel de estrés es menor a 250, lo que quiere decir que no hay sobre -estrés en los trabajadores.
77
3.4. PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES En muchas situaciones de tomas de decisiones los investigadores pueden estar interesados en determinar si las medias de dos poblaciones son iguales o diferentes o en otro caso si una media poblacional es mayor o menor que la otra . Por ejemplo se puede tener la intención si los estudiantes de un aula con padres divorciados tienen mayores niveles de ansiedad que los estudiantes sin padres divorciados, si los trabajadores de una empresa con bajos sueldos tienen menores niveles de estrés que los trabajadores con altos sueldos, si el Coeficiente Intelectual de los estudiantes que trabajan es diferente de los estudiantes que no trabajan y muchas otras situaciones más que sean de interés para el investigador. 3.4.1. PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES USANDO LA ESTADISTICA Z CASO I: Uso de la estadística Z. 2 2 i) Muestras grandes (n1≥30, n2≥30), varianzas poblacionales conocidas (1 y 2) y poblaciones normales o no. ii) Muestras grandes (n1≥30, n2≥30), varianzas poblacionales desconocidas pero 2 2 2 2 2 2 iguales 1 2 (1 s1 y 2 s1 ) y poblaciones normales o no. 2 2 iii) Muestras pequeñas (n1<30, n2<30), tal que (n1+n2<30), varianzas (1 y 2 ) poblacionales conocidas y poblaciones normales. 1.
Formulación de hipótesis: a) Ho: b) Ho: 1 H1: <
H1: >
2.
Nivel de significancia:
3.
Estadística de prueba: Para i y iii Z
(x1 x 2 ) 21 2 2 n1 n2
c) Ho: = H1:
n(0,1)
78
Para ii Z
4.
(x 1 x 2 ) 2 1
s2 s 2 n1 n2
n(0,1)
Establecimiento de los criterios de decisión: Prueba de cola izquierda :
1-
-Z1-
0
R.A.
R.R
R.A.: ZK > - Z1- , se acepta HO. R.R.: ZK < - Z1- , se rechaza HO.
Prueba de cola derecha:
1 -
Z1-
0
R.A.
R.R.
R.A.: Zk < Z1 - , se acepta HO. R.R.: Zk > Z1 - , se rechaza HO.
79
Prueba bilateral :
1-
/2
/2
-Z1-
0
α/2
R.R.
R.A.: -Z 1
< Z k < Z1
– α/2
O
R.R.
,se acepta H0. Z k > Z 1 – α/2 ,se rechaza H 0.
- α/2
Cálculos: Obtención del valor experimental. Para i y iii
(x1 x 2 )
Zk
21 2 2 n1 n 2
n(0,1)
Para ii Zk
6.
- α/2
.
α/2
R.A.
R.R.: Zk < -Z1
5.
Z 1-
(x1 x 2 ) s 21 s2 2 n1 n 2
n(0,1)
Decisión: Se compara el valor experimental con el valor crítico. Si Zk R.A., se acepta HO. Si Zk R.R., se rechaza HO.
80
Ejemplo 34: Se comparan dos marcas de cigarrillo, C y D, respecto a su contendio de nicotina rn miligramos, dieron los siguientes resultados: Marca C
Marca D
n1=40
n2=50
x1 14.3
x 2 15.7
s1 2.9
s 2 3.8
Con un nivel de significancia del 1%. Existe suficiente evidencia estadística para decir que hay diferencia entre las medias de contenido de nicotina para las dos marcas de cigarrillos. Solución: Utilizamos Caso I - ii 1. Formulación de la hipótesis : H0 : 1 = 2 H1 : 1 ≠ 2 2. Nivel de significancia : = 0.01 3. Estadística de prueba: Análisis: n1=40
x1 14.3 s1 2.9
(n>30) x 2 15.7
n2=50
s 2 3.8
Asumiendo varianzas poblacionales desconocidas pero iguales (se obtienen a través de la muestra) s1 2.9 s12 8.41 s 2 3.8 s22 14.44 81
Asumiendo poblaciónes normales, porque (n 1≥30, n2≥30) Usar Estadística Z – Caso I - ii Zk
(x1 x 2 )
n(0,1)
s 21 s2 2 n1 n2
4. Establecimiento de los criterios de decisión:
1- = 0.99 /2=0.05
/2=0.05
-2.576
R.R.
R.A.: R.R.:
0
R.A.
2.576
R.R.
-2.576 ZK 2.576, se acepta HO. ZK< -2.576 o ZK >2.576, se rechaza HO.
5. Cálculos : Zk
(x1 x 2 )
Z k
s 21 s2 2 n1 n 2 (14.3 15.7) (2.9) 2 (3.8) 2 40 50
Zk 3
82
6. Decisión : Zk=3>1.645, rechazamos Ho. Se rechaza la hipótesis; es decir existe diferencia entre los contenidos de nicotina de las dos marcas de cigarrillos. Ejemplo 35: Se realizo un estudio con 60 sujetos originarios de Cali, entre los 18 y 40 años, divididos en un Grupo 1 de 30 pacientes diagnosticados con asma bronquial, extraídos de consulta externa en varios centros hospitalarios de la ciudad, y un Grupo2 normativo conformado por 30 personas sanas de diferentes centros educativos y empresas, a los cuales se les aplicó un cuestionario para medir sus niveles de ansiedad frente a respuestas cognitivas; obtendiendose los siguientes resultados: Grupo 1
Grupo 2
n1=30
n2=30
x1 34.47
x 2 18.43
s1 30.14
s 2 20.63
Para un nivel de significancia del 1% probar si los niveles de ansiedad del Grupo 1 son mayores que los niveles de ansiedad del Grupo 2. Solución: Utilizamos Caso I - ii 1. Formulación de la hipótesis : H0 : 1 =
2
H1 : 1 > 2 2. Nivel de significancia : = 0.01 3.
Estadística de prueba: Análisis: n1=40
n2=50
x1 34.47 s1 30.14 x 2 18.43
s 2 20.63 83
Asumiendo varianzas poblacionales desconocidas pero iguales (se obtienen a través de la muestra) s1 30.14 s12 908.42 s 2 20.63 s22 425.60
Asumiendo poblaciónes normales, porque (n 1>30, n2>30) Usar Estadística Z – Caso I - ii Zk
( x1 x 2 ) s 21 s2 2 n1 n2
n (0,1)
4. Establecimiento de los criterios de decisión:
1 - =0.99 0
2.326
R.A.
R.R.
R.A.: Zk < , se acepta HO.
R.R.: Zk > , se rechaza HO. 5. Cálculos : Zk
Z k
(x 1 x 2 ) s 21 s2 2 n1 n2
(34.47 18.43) (30.14) 2 (20.63) 2 40 50 84
Z k 2.87
6. Decisión : Zk=2.87>2.326, rechazamos Ho. Los niveles de ansiedad del Grupo 1 son mayores que los niveles de ansiedad del Grupo 2. 3.4.2. PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES USANDO LA ESTADISTICA T CASO II: Uso de la estadística t. i) Muestras pequeñas n1<30, n2<30, tal que (n1+n2<30), varianzas poblacionales 2 2 2 2 desconocidas pero iguales 2 2 (1 s1 y 2 s2 ) y poblaciónes normales. 1
1.
Formulación de hipótesis: a) Ho: ≥ b) Ho: 1 H1: <
H1: >
2.
Nivel de significancia:
3.
Estadística de prueba:
t
Donde:
2
c) Ho: = H1:
(x1 x 2 )
t n1 n 2 2 2 2 n 1 s n 1 s 1 1 2 2 1 1 n1 n 2 2 n1 n 2 (n1+n2-2) son los grados de libertad.
Establecimiento de los criterios de decisión:
85
Prueba de cola izquierda :
1-
to
0
R.R. .
R.A. R.A.: tK > - to, se acepta HO. R.R.: tK < - to, se rechaza HO.
Valor tabular: t o t1 , n1 n 2 2
Prueba de cola derecha:
1 -
0
R.A
to R.R
R.A.: tk < t o, se acepta H o. R.R.: tk > t o, se rechaza H o.
Valor tabular
t o t1 , n1n2 2
86
Prueba bilateral :
1-
/2
/2
0
t o R.R.
to
R.A.
R.R.
R.A.:- to < tk < to , se acepta HO . R.R.: tk < - to o t k > t o , se rechaza H O. Valor tabular : t o t1 / 2, n 1 n 2 2 5.
Cálculos:
t k
(x1 x 2 )
n1
1 s12 n2 1 s22 1 n1 n 2 2
6.
y t o t1 / 2, n 1n 22
n1
1
n 2
Decisión: Se compara el valor experimental con el valor crítico Si t k RA. , aceptamos Ho. Si t k R.R. , rechazamos Ho.
87
ii) Muestras pequeñas (n1<30, n2<30) tal que (n1+n2<30), varianzas poblacionales desconocidas pero diferentes 2 2 ( 2 s2 y 2 s2 ) y poblaciónes normales. 1 1 2 2 1 2 1.
Formulación de hipótesis: a) Ho: ≥ b) Ho: 1 H1: <
H1: >
2.
Nivel de significancia:
3.
Estadística de prueba:
t
(x1 x 2 ) s21 s2 2 n1 n 2
c) Ho: = H1:
tr
Donde: r son los grados de libertad. Se obtiene de la siguiente manera:
2 2 2 s n s n 1 1 2 2 r 2 2 2 s1 n1 s2 n 2 n1 1 n 2 1
2
tr
Donde r rara vez es un entero y se redondea al entero más próximo.
88
4. Establecimiento de los criterios de decisión: Prueba de cola izquierda :
1-
to
0
R.R.
R.A. R.A.: tK > - to, se acepta HO. R.R.: tK < - to, se rechaza HO.
Valor tabular t o t1 , r
Prueba de cola derecha:
1 -
0
R.A
to R.R
R.A.: tk < t o, se acepta H o. R.R.: tk > t o, se rechaza H o. Valor tabular
t o t1 , r 89
Prueba bilateral :
1-
/2
/2
t o
0
R.R.
to
R.A.
R.R.
R.A.:- to < tk < to , se acepta HO . R.R.: tk < - to o t k > to , se rechaza HO.
Valor tabular : t o t1 / 2, r 5.
Cálculos:
tk
6.
y t o t1 / 2, r
(x1 x 2 ) s 21 s2 2 n1 n2
Decisión: Se compara el valor experimental con el valor crítico Si t k R.A. , aceptamos Ho. Si t k R.R. , rechazamos Ho.
90
Ejemplo 36: Un investigador desea saber si el contenido de plomo en la sangre en niños afecta el Coeficiente Intelectual (CI), para ello se toma dos muestras de niños de los colegios de de dos comunidades A y B, los niños de la comunidad A tienen más riesgo porque viven cerca a una mina, la cual dista mucha de la comunidad B, se tomó una prueba para medir el Coeficiente Intelectual de los niños, obteniéndose los siguientes resultados: Comunidad A
Comunidad B
n1=10
n2=15
x1 77.9
x 2 92.9
s1 12.7
s 2 12.3
Suponga que los Coeficientes Intelectuales se distribuyen normalmente con varianzas desconocidas pero iguales ¿Es el Coeficiente Intelectual de la comunidad A menor que el de la comunidad B, a un nivel de significancia del 5%? Solución: Caso II-i 1.
Formulación de la hipótesis : H0 : 1 = 2 H1 : 1 < 2
2.
Nivel de significancia : = 0.05
3.
Estadística de prueba: Análisis: x1 77.9 n1=10 s1 12.7
n2=15
x 2 92.9 s 2 12.3
91
Se debe tomar en cuenta que n1+n2<30 Asumiendo varianzas poblacionales desconocidas pero iguales (se obtienen a través de la muestra) s1 12.7 s12 161.29 s 2 12.3 s22 151.29
Poblaciónes normales, porque (n1 + n2<30) Usar Estadística t – CasoII-i
t
4.
(x1 x 2 )
t n1 n 2 2 n 1 1 s n 2 1 s 1 1 n1 n 2 2 n1 n 2 2 1
2 2
Establecimiento de los criterios de decisión:
1-α = 0.95
= 0.05
-1.714
R.R .
0
R.A . R.A.: ZK - 1.714, se acepta HO . R.R.: ZK < -1.714, se rechaza HO.
Valor tabular: t o t1 , n n 2 1 2
t o t 0.95, 23 t o 1.714
92
5.
Cálculos :
t k
(x1 x 2 )
n1
1 s12 n2 1 s22 1 n1 n 2 2
t k
n1
20 1 161.29 25 1151.29 20 25 2
t k
n 2
(77.9 92.9)
1
1 1 20 25
15 3.7435
t k 4.01 6. Decisión : tk=-4.01 Є R.R., rechazamos Ho. Lo que quiere decir que el Coeficiente Intelectual de la comunidad A es menor que el Coeficiente Intelectual de la comunidad B. 3.5. PRUEBA DE HIPOTESIS PARA LA PROPORCION POBLACIONAL 3.5.1. INTRODUCCION Como investigadores en muchas ocasiones estamos interesados en un fenómeno cuyo comportamiento es expresado en porcentajes . Por ejemplo un gerente de una empresa puede estar interesado en probar si el porcentaje de trabajadores que opinan que el clima laboral es el adecuado es menor del 60%, un psiquiatra puede estar interesado en conocer si el porcentaje de pacientes que sienten alivio a los cuales se les aplica una una nueva medicina es superior al 75%, un profesor puede estar interesado en probar si el porcentaje de alumnos con coeficiente intelectual bajo por problemas familiares es diferente del 50%, etc. . Podrían mencionarse muchos ejemplos más El procedimiento para la prueba de hipótesis para la proporción poblacional es similar al señalado por la media poblacional. Se presentan los siguientes casos, en muestras grandes (n 30). 93
CASO I: a) Población infinita, cualquiera que sea el tipo de muestreo. b) Población finita, si el muestreo es con reemplazamiento. Pasos de una prueba de Hipótesis para la proporción poblacional: 1.
Formulación de hipótesis estadística: a) Ho: P P
b) Ho: P Po
c) Ho: P = Po
H1: P > Po
H1: P Po
H1: P < Po
2.
Nivel de significancia:
3.
Estadística de prueba:
Z
p P0 P0 Q 0
n(0,1)
n
4.
Establecimiento de los criterios de decisión: Prueba de cola izquierda :
1-
-Z1- R.R
0
R.A .
R.A.: Z K > - Z1- , se acepta H O. R.R.: ZK < - Z1- , se rechaza HO.
94
Prueba de cola derecha:
1 -
Z 1-
0
R.A.
R.R.
R.A.: Zk < Z1 - , se acepta HO. R.R.: Zk > Z1 - , se rechaza HO.
Prueba bilateral :
1-
/2
/2
-Z1-
R.A.
R.R.
R.A.: -Z 1
– α/2
R.R.: Zk < -Z1 5.
Z 1-
0
α/2
< Z k < Z1 - α/2
O
- α/2
α/2
R.R.
.
,se acepta H0.
Zk > Z1
– α/2
,se rechaza H 0.
Realización de cálculos:
Z k
p P0 P0 Q 0 n
95
6.
Decisión Se acepta o se rechaza Ho.
Caso II: Población finita, cuando el muestreo es sin reemplazamiento. Se siguen todos los pasos del Caso I, pero se incorpora el factor de corrección para población finita, entonces la “Estadística de Prueba” será: p P0 Z n(0,1) P Q N n 0 0 n N 1 Ejemplo 37: Una medicina que se prescribe comúnmente para aliviar la tensión nerviosa, se considera que es efectiva en 60%. Resultados experimentales con una nueva medicina que se administra a una muestra aleatoria de 100 adultos que padecen de tensión nerviosa muestran que 70 tuvieron alivio. ¿Hay evidencia suficiente para concluir que la nueva medicina es superior a la que prescribe actualmente a un nivel de significancia del 5% ? Solución: 1. Formulación de hipótesis estadística: Ho : P = 0.6 H1 : P > 0.6 2. Nivel de significancia: = 0.05 3. Estadística de prueba: Z
p P0
P0 Q 0 n
n(0,1)
4. Establecimiento de los criterios de decisión:
96
1 - =0.95 0.05
0
R.A.
1.645
R.R.
R.A.: ZK < 1.645, se acepta HO. R.R.: ZK > 1.645, se rechaza HO.
5. Realización de cálculos: x: Número de pacientes que padecen tensión nerviosa uqe muestran alivio=70 n: Número de personas que padecen tensiòn nerviosa = 100 Donde: p
x
n 70 p 0.7 100
Además: Po 0.6 Q o 0.4
Zk
p P0 0.7 0.6 0.6 0.4 P0 Q0 n 100
Z k 2.04
6. Decisión:
97
Zk = 2.04 > 1.645; por lo tanto se rechaza Ho. Hay suficiente evidencia para concluir que la nueva medicina es superior a la que se prescribe. Ejemplo 38: Una organización de salud se interesa por actualizar su información con respecto a la proporción de hombres que fuman, con base en estudios previos se cree que la proporción es el 40%. La organización lleva acabo una encuesta en la que se seleccionan en forma aleatoria 1200 hombres a los cuales se les preguntan sus hábitos de fumador. De los 1200, 420 son fumadores. Determine aun nivel de significancia del 1% si hay evidencia para apoyar la hipótesis que el que el porcentaje de fumadores es diferente de 40% Solución: 1. Formulación de hipótesis estadística: Ho: P = 0.4 H1: P ≠ 0.4 2. Nivel de significación: = 0.01 3. Estadística de prueba: p P0 Z n(0,1) P0 Q0 n 4. Establecimiento de los criterios de decisión:
1-
0.05
0.05 /2 2.576
/2
0
-2.576
R.A.
R.R. R.A.:
R.R.
-2.576 < Zk < 2.576 ,se acepta H0 .
R.R.: Zk < -2.576
O
Zk > 2.576 ,se rechaza H0. 98
5. Realización de cálculos: x: Números de hombres con hábitos de fumar=420 n: Número de hombres= 1200 Donde: p
x
n 420 p 0.35 1200
Además: Po 0.4 Qo 0.6
Zk
p P0 P0 Q0 n
0.35 0.4 0.4 0.6 1200
Zk 3.53 6. Decisión: Zk = -3.53 RR; por lo tanto se rechaza H o. Hay suficiente evidencia para apoyar la hipótesis para afirmar que el porcentaje de fumadores es diferente del 40%. Ejemplo 39: Se inyectó una droga a una muestra de 100 personas y solo 8 tuvieron reacción alérgica, con un nivel de significación del 10% ¿se puede afirmar que la proporción de personas que sufren dicha reacción a esa droga, es menor a 0,10? 1. Formulación de la hipótesis: H0 : P = 0.10 H1 : P < 0.10 2. Nivel de significancia: = 0.10 3. Estadística de prueba :
99
Z
p P0 P0 Q 0
n(0,1)
n
4. Establecimiento de los criterios de decisión :
1-
-1.282
0 R.A .
R.R
R.A.: ZK > - 1.282 , se acepta HO. R.R.: ZK < - 1.282 , se rechaza HO.
5. Cálculos: x: Número de personas de la muestra que tuvieron reacción alérgica=8 n: Número de personas de la muestra = 100 Donde: p
x
n 8 p 0.08 100
Además:
Po 0.10 Q o 0.90 Z k
p P0 0.08 0.10 0.10 0.90 P0 Q0 n 100
6. Decisión : ZK = -0.67>-1.282, entonces aceptamos Ho. La proporción de personas alérgicas no es menor del 10%. 100
Ejemplo 40: El registrador de cierta universidad ha dicho que esta dispuesto a permitir una sección del curso BIOESTADÍSTICA una vez a la semana si más del 65% de los estudiantes matriculados en el curso expresan que prefieren el curso una vez a la semana, en vez de dos veces a la semana. En una muestra aleatoria de 40 estudiantes, 26 indicaron su preferencia de una vez a la semana. Usando un nivel de significancia de 0.01, debe el registrador autorizar el ofrecimiento del curso BIOESTADÍSTICA una vez a la semana? Solución: 1. Formulación de hipótesis estadística: Ho : P ≤ 0.65 H1 : P > 0.65 2.
Nivel de significancia: = 0.01
3.
Estadística de prueba: Z
4.
p P0 P0 Q 0 n
n (0,1)
Establecimiento de los criterios de decisión:
1 - =0.99
0
2.326
R.A.
R.R.
R.A.: Zk < , se acepta HO.
R.R.: Zk > , se rechaza HO.
101
5.
Realización de cálculos: x: Número de estudiantes que prefieren el curso de BIOESTADÍSTICA una vez a la semana. n: Número de estudiantes de la muestra = 40 Además:
p
x
n 26 p 0.65 40
Po 0.10 Qo 0.90 Zk
p P0 0.65 0.655 P0 Q 0 0.65 0.35 n 40
Zk 0
6. Decisión: Zk = 0 RA; por lo tanto se acepta Ho. El porcentaje de estudiantes que prefieren el curso de BIOESTADÍSTICA una vez a la semana no es mayor del 65%. 3.6. PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRES DOS PROPORCIONES POBLACIONALES 3.6.1. INTRODUCCION Como investigadores en muchas ocasiones también estamos interesados en probar si la diferencia entre dos proporciones poblacionales es igual a cero, menor que cero o mayor que cero. Por ejemplo un gerente puede estar interesado en probar si el porcentaje de trabajadores administrativos con estrés laboral es mayor que el porcentaje de trabajores docentes con estrés laboral, un psicologo a fin de dar un tratamiento a sus pacientes puede estar interesado en conocer si el porcentaje de pacientes oncologicos con hábito de fumar que reciben tratamiento es menor que el porcentaje de pacientes oncologicos con hábitos de fumar que no reciben tratamiento, un profesor puede estar interesado en probar si el porcentaje de 102
alumnos especiales con problemas de comunicación que acuden a una escuela privada es diferente al porcentaje de alumnos especiales con problemas de comunicación que acuden a una escuela estatal, etc., y se pueden estudiar muchos casos más de acuerdo al interés de las investigaciones. Para probar prueba de hipótesis de la diferencia entre dos proporciones poblacionales cuando las muestras son grandes, se siguen los siguientes pasos: 1.
Formulación de hipótesis estadística: a) Ho: P P b) Ho: P Po H1: P < Po
H1: P > Po
2.
Nivel de significancia:
3.
Estadística de prueba: Z
p1 p 2
c) Ho: P = Po H1: P Po
$ (1 p $ ) 1 1 p n1 n 2
n(0,1)
Donde: x x2 p$ 1 n1 n 2
4.
Establecimiento de los criterios de decisión:
103
Prueba de cola izquierda :
1-
0
-Z1-
R.A.
R.R
R.A.: ZK > - Z1- , se acepta HO. R.R.: ZK < - Z1- , se rechaza H O.
Prueba de cola derecha:
1 -
0
R.A.
Z 1- R.R.
R.A.: Z k < Z1 - , se acepta HO. R.R.: Zk > Z1 - , se rechaza HO.
104
Prueba bilateral :
1-
/2
/2
-Z1R.R.
R.A.: -Z 1
R.A.
– α/2
R.R.: Zk < -Z1 5.
6.
< Z k < Z1 - α/2
O
- α/2
α/2
R.R.
.
,se acepta H0.
Zk > Z1
– α/2
,se rechaza H 0.
Realización de cálculos: Zk
Z 1-
0
α/2
p1 p 2 1 1 p$(1 p$) n1 n 2
Decisión Se acepta o se rechaza Ho.
Ejemplo 41: Un artículo de una revista en el año 2005 reportó que se puede reducir el riesgo de sufrir ataques al corazón ingiriendo aspirina, para llegar a los resultados el cronista se baso en un experimento diseñado, en donde participaron dos grupos de personas. A un grupo de 11034 personas se le suministró una dosis diaria de una pastilla que no contenía ninguna droga, y de estos 189 sufrieron posteriormente ataques al corazón, mientras que el otro grupo de 11037 se les suministró una aspirina diariamente y solo 104 lo sufrieron. Usando una prueba de hipótesis y un nivel de significancia del 1% pruebe usted que el cronista estaba en lo correcto.
105
Solución: 1. Formulación de hipótesis estadística: Ho : P1 ≤ P2 H1 : P1 > P2 2.
Nivel de significancia: = 0.05
3.
Estadística de prueba: Z
4.
p1 p 2
n(0,1) 1 1 p$(1 p$) n1 n 2
Establecimiento de los criterios de decisión:
1 - =0.99 0.01
0
R.A.
2.326
R.R.
R.A.: ZK < 2.326, se acepta HO. R.R.: ZK > 2.326, se rechaza HO.
5. Realización de cálculos: x1: Número de personas de la muestra en el Grupo 1 que se le suministró una pastilla que no contenia ninguna droga=189 n1: Número de personas de la muestra del Grupo 1=11034
106
p1
x1 n1
189 0.02 p1 11034
x2: Número de personas de la muestra en el Grupo 2 que se le suministró una aspirina diariamente =134 n2: Número de personas de la muestra=11037 x2 n2
p2 p 2
134 11037
0.01
Además
x x2 p$ 1 n1 n 2 189 134 p$ 11034 11037 p$ 0.01 Entonces: Zk
0.02 0.01 1 1 0.01 0.99 11034 11037
Z k 7.47
6.
Decisión: Zk = 7.47> 2.326; por lo tanto se rechaza Ho. Es cierto que el consumo diario de aspirina reduce el riesgo de ataque al corazón.
107
Ejemplo 42: Un psicólogo manifiesta que de acuerdo a investigaciones realizadas los jóvenes con problemas de alcoholismo tienen un rendimiento académico bajo. Para probar lo que afirma, realiza un estudio en dos grupos; el Grupo 1 está constituido por una muestra aleatoria de 40 jóvenes que no consumen alcohol donde 5 tienen un rendimiento académico bajo y el Grupo 2 está constituido por una muestra aleatoria de 50 jóvenes que consumen alcohol donde 30 de ellos tienen un rendimiento académico bajo. Proporcionan los datos suficiente evidencia para afirmar lo que el psicólogo manifiesta a un nivel de significación del 5%? Solución: 1. Formulación de hipótesis estadística: Ho : P1 ≥ P2 H1 : P1 < P2 2.
Nivel de significancia: = 0.05
3.
Estadística de prueba: Z
p1 p 2
n(0,1) 1 1 p$(1 p$) n1 n 2
108
4.
Establecimiento de los criterios de decisión:
1-α = 0.95
= 0.05
-1.645
R.R .
0
R.A . R.A.: ZK - 1.645, se acepta HO . R.R.: ZK < -1.645, se rechaza HO.
5.
Realización de cálculos: x1: Número de jovenes que no consumen alcohol en la muestra del Grupo 1 con rendimiento académico bajo= 5 n1: Número de jovenes que no consumen alcohol en la muestra del Grupo1 =40
p1
x1 n1
p1
5 0.125 40
x2: Número de jovenes que consumen alcohol en la muestra del Grupo 2 con rendimiento académico bajo= 30 n2: Número de jovenes que consumen alcohol en la muestra del Grupo 2=50
p2
x2 n2
p2
30 0.6 50
109
Además
x x2 p$ 1 n1 n 2 5 30 p$ 40 50 p$ 0.39 Entonces: Zk
0.125 0.6 1 1 0.39 0.61 40 50
Zk 4.59 6.
Decisión: Zk = -4.59> -1.645; por lo tanto se rechaza Ho. Es cierto que los jóvenes que consumen alcohol tiene rendimiento académico bajo.
110
AUTOEVALUACIÓN 03 1. De una población estudiantil de una universidad grande se tomaron muestras aleatorias independientes de calificaciones de hombres y mujeres. Los resultados fueron como sigue: Hombres
Mujeres
n1=50
n2=75
x1 11
x 2 15
s1 0.8
s 2 0.7
Pruebe si hay diferencia entre las calificaciones de hombres y mujeres con un nivel de significancia de 0.01. 2. Una muestra aleatoria simple de 100 alumnas de la universidad A tiene una media de 23 años y una desviación de estándar de 4 años, en tanto que una muestra aleatoria simple de 50 alumnos de la universidad B tiene media de 21 años y una desviación estándar de 5 años. De los resultados de estas dos muestras, ¿podemos concluir sin peligro de error que la edad promedio de la Universidad A es mayor que que de la Universidad B? asuma un α = 0,05. 3. Una prueba de lectura fue aplicada a un grupo de alumnos del primer curso de una escuela elemental, dicha prueba se distribuyó en 18 alumnos que aprendieron a leer con un método A y 10 alumnos que aprendieron con un método B. los resultados de la prueba fueron: Método A
Método B
n1=18
n2=10
x A 76
x B 80
sA 8
s B 10
111
Los padres de familia manifiestan que el Método B es mejor que el Método A. A un nivel de signficancia del 5% cree usted que los datos de la muestra sustentan la afirmación de los padres de familia. Se sabe que las puntuaciones de las pruebas se distribuyen normalmente con varianzas desconocidas pero iguales. 4. En niños de primer grado (6 años) sin escolaridad previa el test de Tolouse de atención sostenida arroja un puntaje medio de 15 puntos con una desviación de 3 puntos. Se presume que concurrir al jardín de infantes mejorará el rendimiento de dicha prueba. Para probarlo se tomo el test de Tolouse en 30 niños de primer grado que habían cursada dos años de jardín. Se obtuvo un promedio de 17 puntos. ¿Con una significación del 0.05, son estos datos consistentes con la hipótesis mencionada?
5. Se han desarrollado trabajos sobre el tiempo de reacción ante un estímulo y éstos han indicado que el promedio es de 11 centésimas de segundo. Un especialista en el tema no está de acuerdo con esta hipótesis y desea contrastarla, para ello eligió una muestra de 16 personas, el promedio de reacción que obtuvo fue de 10 y la desviación estándar de 4 centésimas por segundo. Utilizando
realice la prueba correspondiente suponiendo la distribución
normal del tiempo de reacción. 6. Un empleado de un departamento estatal de rehabilitación cree que más del 20% de los jóvenes admitidos en las escuelas de rehabilitación por drogadicción. En una muestra aleatoria de 100 admisiones, 16 jóvenes habían sido admitidos por drogadicción. ¿Contradice estos datos la opinión del empleado? Α= 0.01. 7. El departamento de salud y bienestar de la Alcaldía piensa que sólo el 12% de las personas de más de 65 años de edad dispone de un seguro de salud adecuado en el Municipio. En una muestra aleatoria de 900 personas de más de 65 años, 99 tienen un seguro de salud adecuado. ¿Qué conclusión puede obtenerse? Asume un nivel de significación de 0.10.
112
8. Un médico cree que la proporción de individuos que tienen sangre de tipo A es la misma en dos poblaciones 1 y 2. Una encuesta en las dos poblaciones da la siguiente información basada en muestras aleatorias independientes: Población 1: n1 =150 individuos x1= Nº de individuos con sangre tipo A= 87 Población 2: n2 =200 individuos x2= Nº de individuos con sangre tipo A= 100 ¿Podemos concluir que las dos poblaciones son iguales? α = 0,10. 9. Históricamente la proporción de clientes que compran con tarjeta de crédito en una determinada farmacia es como mínimo del 40%, sin embargo la dueña de la tienda piensa que esta cifra ha disminuido significativamente. De los últimas 1122 clientes 428 compraron con tarjeta de crédito, si α=0.05 ¿Se está cumpliendo lo que piensa la dueña? 10. Una importante Clínica asegura que por lo menos el 30% de sus pacientes, se rehabilitan totalmente. Se toma una muestra de 200 pacientes, y se encuentra que 52 de ellos están to-talmente rehabilitados. Verifique, con un nivel de significación del 5%, si puede considerarse que la afirmación de la Clínica es válida.
113
CAPITULO IV INTRODUCCIÓN A LA ESTADÍSTICA NO PARAMÉTRICA 4.1. INTRODUCCIÓN Las pruebas no paramétricas, en realidad son poco utilizadas a pesar de la potencia y certeza de sus resultados. Normalmente se utilizan cuando no se dispone de información suficiente de la población de la cual se extrajeron los datos; careciendo entonces de un soporte para la realización de una inferencia con base a una muestra observada. Para realizar este un análisis paramétrico, se debe partir de las siguientes consideraciones: • La mayoría de estos análisis no requieren de presupuestos acerca de la forma de la distribución poblacional y acepta distribuciones no normales. • Las variables no necesariamente tienen que estar medidas en un nivel por intervalos o de razón. En este sección trataremos la prueba de signo en una sola muestra, prueba de independencia Chi Cuadrado y prueba de correlación de Spearman. 4.2. PRUEBA DE SIGNO 4.2.1. INTRODUCCIÓN: La prueba t estudiada en los capitulos anteriores, no es estrictamente valida para probar: 1) La hipotesis nula de que la medida de una población es igual a algún valor en particular, o bien, 2) La hipótesis nula de que la media de una población de diferencia entre pares es igual a cero, a menos que las poblaciones en cuestión signa una distribución normal. El caso 2 se reconocerá como una situación que se analiza mediante la prueba de comparación de parejas. Cuando no es posible hacer suposiciones de normalidad o cuando los datos disponibles son categorías en lugar de medidas sobre una escala de intervalos o de razones, debe buscarse un procedimiento opcional. Aún cuando se sabe que la prueba t es casi insensible a las violaciones de la suposición de 114
normalidad, hay casos en que resulta preferible una prueba alternativa. Una prueba no paramétrica que se utiliza con frecuencia y que no depende de los supuestos de la prueba t es la prueba del signo. Esta prueba se centra en la mediana más que en la media como una medida de tendencia central o de ubicación. La mediana y en la media serán iguales en distribuciones simétricas. La única suposición que fundamente la prueba es que la distribución de la variable de interés es continua. Está suposición excluye el uso de datos nominales. La prueba del signo toma su nombre del hecho de que los signos más y menos, y no son valores númericos proporcionan datos utilizados en los cálculos. Se ilustraará el uso de esta prueba primero para una sola muestray, a continuación, para pareja de datos. 4.2.2. PASOS PARA LLEVAR ACABO LA PRUEBA DE SIGNO EN UNA SOLA MUESTRA: 1. Formulación de hipótesis Ho: La mediana de la población es igual a cierto valor. H1: La mediana de la población es mayor(menor odiferente) que cierto valor. 2.
Nivel de significancia: α
3.
Estadística de prueba: Prueba de cola derecha: K=Nº de singos menos
B(n, 0.5)
Prueba de cola izquierda:
K=Nº de singos menos
B(n, 0.5)
Prueba bilateral: K=Nº de singos que ocurre con menor frecuencia
B(n, 0.5)
NOTA: La distribución muestral de K es la distribución binomial con parametros ny p=0.5, donde n es el número de diferencias no nulas (xi – Me) > 0
115
4.
Establecimientos de los criterios de decisión: Para H1: P(+)>P(-) se rechaza Ho , cuando Ho es verdadera, si la probabilidad de obtener k o menos signos menos es menor o igual a α. Para H1: P(+)<P(-) se rechaza Ho , cuando Ho es verdadera, si la probabilidad de obtener k o menos signos más es menor o igual a α. Para H1: P(+)≠P(-) se rechaza Ho , cuando Ho es verdadera, si la probabilidad de obtener un valor de k tan extremo o más que el valor calculado es igual o menor que α/2.
5.
Cálculos
Prueba de cola derecha: c
P1 in (0.5) n i 0
Prueba de cola izquierda: d
P2 in (0.5) n i0
6.
Prueba bilateral Se calcula la probabilidad del signo que ocurre con menor frecuencia.
Decisiòn: Se acepta o se rechaza Ho.
Ejemplo 43: Los investigadores desean saber si al instruir en cuidados y aseo personal a una muestra de niñas con retraso mental mejoraría su apariencia. Se eligió aleatoriamente a 10 niñas de una escuela para niños con retraso mental, para que 116
recibieran educación especial sobre cuidado y aseo personal. Dos semanas después de concluir el curso de instrucción, las niñas fueron entrevistadas por una enfermera y una trabajadora social, quienes asignaron a cada ñiña una calificación basada en sus apariencia general. Los investigadores creían que, como máximo, las calificaciones alcanzarían el nivel de una escala ordinal. Creían que aunque una calificación de, digamos 8, representaba una apariencia mejor que una de 6, no podian decir que la diferencia entre las calificaciones de 6 y 8 representaba el doble de mejora que la diferencia entre las calificaciones 5 y 6. las calificaciones se muestran en la tabla que se da a continuación. Se desea saber si es posible concluir que la calificación mediana de la población de la que se supone se extrajo la muestra es diferente de 5, a un nivel de significancia del 5%. Niña
Calificación
Niña
Calificación
1
4
6
6
2
5
7
10
3
8
8
7
4
8
9
6
5
9
10
6
Solución: 1. Formulación de hipótesis Ho: La mediana de la población es igual 5 H1: La mediana de la población es diferente de 5. 2.
Nivel de significancia: α=0.05
3.
Estadística de prueba: K=Nº de signos que ocurre con menor frecuencia Establecimiento de los criterios de decisión:
4.
B(n,0.5)
Para H1: P(+)≠P(-) se rechaza Ho , cuando Ho es verdadera, si la probabilidad de obtener un valor de k tan extremo o más que el valor calculado es igual o menor que α/2=0.025.
117
5.
Cálculos: A continuación se hallarán las calificaciones por arriba (+) y por abajo(-) de la mediana hipotètica en los datos de la Tabla Nº 1 Niña
Calificación relativa a la mediana hipotética
1
2
3
4
5
6
7
8
9
10
-
0
+
+
+
+
+
+
+
+
Donde n= 9, teniendo en cuenta que no se toman las diferencias nulas Entonces en este caso de acuerdo a lo expuesto para una prueba bilateral hallaremos la probabilidad del número de signos que ocurre con menor frecuencia; es decir la probabilidad de obtener uno o menos signos menos. c
P1 nk (0.5) n k 0
1
P1 9k (0.5)9 k 0
P1 (90 )(0.5) 9 (19 )(0.5) 9 P1 0.0020 0.0176 P1 0.0196
6.
Decisión: P1 0.0196 < 0.025. Se rechaza Ho. Lo cual quiere decir que la mediana de la poblaciòn es diferente de 5.
118
4.3. PRUEBA DE INDEPENDENCIA CHI CUADRADO 4.3.1. INTRODUCCIÓN Es un procedimiento de contrastación que se utiliza para determinar la dependencia (relación o asociación) o independencia entre dos variables categóricas. Los datos pueden disponerse en una tabla de doble entrada llamada Tabla de Contingencia de r filas y k columnas. 4.3.2. PASOS PARA CUADRADO
LLEVAR ACABO LA PRUEBA DE INDEPENDENCIA CHI
Pasos a seguir: 1.Formulación de Hipótesis: H0 : No existe relación entre las características. H1 : Existe relación entre las características. 2.Nivel de signficancia: α 3.Estadística de prueba: r
k
X 2
i1 j1
(fij e ij ) 2 e ij
X 2v
Donde: v = (r – 1)(k – 1) grados de libertad
eij
f i . f. j n
f ij : Frecuencias observadas. e ij : Frecuencias esperadas.
119
4. Establecimiento de los criterios de decisión:
1
X 21, v
0
R.A.
R.R
2 Si X 2o X1 , v , se acepta H o . 2 Si X 2o X1 , v , se rechaza H o .
5. Cálculos. 6. Decisión. Se acepta o rechaza Ho. OBSERVACIONES: Cuando los grados de libertad es v = 1 y especialmente cuando la muestra es muy pequeña (n < 50), es aconsejable introducir un factor de corrección de continuidad de ½ al calcular el valor chi-cuadrado. Es decir cuando v = 1 modificamos la ecuación r
X 2 0
i1
k
(/ f ij e ij / 0.5) 2
j1
e ij
;
f ij e ij 0.5
Si cada celda tiene 5 o más observaciones y las X 2 tiene dos o más grados de libertad la aproximación es buena. Si las frecuencias observadas en alguna celda, son menores que cinco, se combinan adecuadamente las celdas correspondientes hasta salvar la dificultad. 120
Para emplear correctamente el estadígrafo X2, es necesario que por lo menos el 80% de las frecuencias esperadas de las distintas modalidades sean mayores o iguales que 5 y ninguna menor que 1. Si no es posible que se cumpla esta regla, los datos serán analizados por un medio de un procedimiento, llamado Test Exacto de Fisher. El coeficiente de contingencia C de Pearson: Es un indicador que sirve para medir el grado de relación entre dos variables categóricas y varía entre 0 y 1. C no tiene a 1 como límite superior, su límite superior se relaciona con el número de categorías. Para una tabla superior construida con igual número de filas y
columnas el límite superior es LS (k 1) / k . De este modo para una tabla 3 x 3 (T33 ) , k=3, entonces el límite superior es LS 2 / 3 0.82 ; para una tabla
4x4 (T44 ) , k=4. entonces LS 3 / 4 0.87 , etc. Cuando el número de columnas y filas difiere (Tabla Rectangular), por ejemplo, 3 x 4 (T34 ) el límite superior de C se deduce con un valor k igual número más pequeño.
El coeficiente de contingencia se define por: C
X2 n X2
Si C > 0.30 se considera que es adecuado
Ejemplo 44: La siguiente tabla corresponde 360 alumnos del 5to y 6to grado de un colegio “X” por nivel de autoestima según diagnostico nutricional: Diagnóstico Nivel de Autoestima Alta Media Baja Total Nutricional Adecuado 100 50 10 160 Inadecuado 20 30 150 200 Total 120 80 160 360 a) Probar que el diagnóstico nutricional y el nivel de autoestima se relacionan, a un nivel de significancia del 5%. b) Calcular e interpretar el coeficiente de contingencia Chi cuadrado. 121
Solución: a) 1. Formulación de hipótesis: Ho: El estado nutricional y el nivel de autoestima de los alumnos no se relacionan. H1: El estado nutricional y el nivel de autoestima de los alumnos se relacionan. 2.
Nivel de significancia: α = 0.05
3.
Estadística de prueba: 2 2
3
i 1
j1
X 2
f
ij
e ij
e ij
X 22
Donde: r = 2, k = 3 v = (r – 1) x (k –1) v = 2 4.
Establecimiento de los criterios de decisión:
1 – α = 0.95 α=0.05 5.99
0
R.A.
R.R.
Si X 02 5.99 ; se acepta Ho. 2 Si X 0 5.99 ; se rechaza Ho.
122
NOTA: X 2t X 2 0.95, 2 5.99 ; se debe hallar en la Tabla de distribución chi-cuadrado. 5.
Cálculos:
e ij
f i. f . j n
e 11
f1. f .1 160 120 53.3 53 n 360
e12
f1. f .2 160 80 35.5 36 n 360
e13
f1. f.3 160 160 71.1 71 n 360
e 21
f 2. f.1 200 120 66.7 67 n 360
e 22
f 2. f.2 200 80 44.4 44 n 360
e 23
f 2. f .3 200 160 88.9 89 n 360
Estado Nutricional Adecuado
Alto 53 100
Inadecuado f.j
67 20 120
Nivel de Autoestima Medio Bajo 36 71 50 10 44 89 30 150 80 160
fi. 160 200 360
2 Hallando X 0
123
X 02
(100 53) 2 (50 36) 2 (10 71) 2 (20 67) 2 (30 44) 2 (150 89) 2 53 36 71 67 44 89
X 02 42 5
52
33 4
42
X 02 178
6.
Decisión: Como
X 20 178 5.99 ,
rechazamos Ho , lo que quiere decir el diagnostico
nutricional y el nivel de autoestima de los alumnos se relacionan. b)
Calculando el coeficiente de contingencia:
C
C
X 02 X 02 n 178 0.58 178 360
Haciendo el análisis respectivo el grado de relación entre el estado nutricional y el nivel de autoestima de los alumnos vemos que es adecuado.
4.4. PRUEBA DE CORRELACIÓN DE SPEARMAN 4.4.1. INTRODUCCIÒN:
El coefciente de correlación de Spearman es una prueba no paramétrica cuando se desea quiere medir la relación entre dos variables y no se cumple el supuesto de normalidad en la distribución de tales valores. El coeficiente de correlación de Spearman de designa por r s .
124
4.4.2. PASOS PARA LLEVAR ACABO LA PRUEBA DEL COEFICIENTE DE CORRELACIÓN DE SPEARMAN:
1.
Formulación de hipótesis: a) Prueba unilateral derecha Ho: X e Y son mutuamente independientes. H1: Existe una tendencia a formar parejas entre los valores grandes de X e Y. b) Prueba unilateral izquierda Ho: X e Y son mutuamente independientes. H1: Existe una tendencia de los valores grandes de X a formar parejas con los valores pequeños de Y. c) Prueba bilateral Ho: X e Y son mutuamente independientes. H1: X e Y no son mutuamente independientes.
Las hipótesis unilaterales indicadas en los incisos b) y c) se utilizan, respectivamente, cuando el investigador desea saber si es posible concluir que las variables están directa o inversamente relacionadas. Las hipótesis especificadas en el inciso a) conducen a una prueba bilateral, y se utilizan cuando se desea descubrir cualquier desviación de la independencia. 2.
Nivel de significancia: α
3.
Estadística de prueba: n
rs 1
6 d 2i i 1
n(n 2 1)
4. Establecimiento de los criterios de decisión: Si n está entre 4 y 30, se compara el valor calculado de r s, con los valores críticos,
rs de la tabla P. Para la prueba bilateral, se rechaza Ho en el nivel de significación α si rs, es mayor que rs o menor que rs está en la intersección de la columna 125
encabezada por α/2 y el renglón que corresponde a n. Para la prueba unilateral derecha que especifica una correlación directa, se rechaza Ho
en el nivel de
signficaciòn α si rs es mayor que rs para α y n. La hipótesis nula Ho, se rechaza
en la prueba unilateral izquierda en el nivel de signficaciòn α si r s es menor que para α y n. Opcionalmente también puede trabajar con la tabla Q para una prueba bilateral. rs Si n > 30, se puede calcular: z rs n 1
y utilizar la tabla I y II para obtener los valores críticos. 5. Cálculos: Se calcula el valor de: n
rs 1
6 d 2i i 1
n(n 2 1)
o:
z rs n 1 Pasos para hallar rs: a) Clasificar por jerarquìa los valores de X desde 1 hasta n (el número de parejas de valores de X e Y en la muestra). Clasificar por jerarquía los valores de Y desde 1 hasta n. b) Calcular di, para cada pareja de observaciones, restando la jerarquía de Yi de la jerarquía de Xi. c) Elevar al cuadrado cada di y calcular al cuadrado. Finalmente calcular :
d
2 i
, la suma de los valores elevados
n
rs 1
6 d 2i i 1
n(n 2 1) 126
6.
Decisión: Se acepta o rechaza Ho.
OBSERVACIONES: Las observaciones de igual valor numèrico plantean un problema: el uso de la Tabla P es estrictamente válido solo cuando hay dos valores iguales (a menos que se emplee algún procedimiento aleatorio para cambiar los que sean iguales. Sin embargo, en la práctica, con frecuencia se utiliza la tabla después de que se ha utilizado algún otro método para manejar los valores numèricamente iguales. Si el número de valores iguales es grande, puede utilizarse la siguiente corrección por valores iguales: t3 t 12 donde t es el número de observaciones de igual valor numérico para alguna jerarquia particular. Cuando se utiliza este factor de corrección, r s, se calcula a partir T
de:
x y d 2 x y 2
rs
2
2
2 i
2
Donde: x y
2
n3 n Tx 12
2
n3 n Ty 12
Además: Tx= es la suma de los valores de T para diversas jerarquías del valor númerico igual en X. Ty= es la suma de los valores de T para diversas jerarquías del valor númerico igual enY. Muchos investigadores señalan que a menos que sea excesivo el número de cantidades iguales, la corrección produce una diferencia muy pequeña en el valor de 127
rs. Cuando el número de valores iguales es pequeño, puede seguirse el procedimiento habitual de asignar a las observaciones de igual valor númerico la media de las jerarquías que intervienen y proceder con los pasos anteriores. Ejemplo 45: En un estudio de la relación entre la edad y los resultados del electroencefalograma /EEG), se recopilaron datos en 20 personas con edades entre 20 y 60 años. La Tabla Nº 3 muestra las edades y un valor de rendimiento del EEG particular para cada una de esas 20 personas. Los investigadores pretenden saber si es posible concluir que este rendimiento del EEG particular tiene relación inversa con la edad a un nivel de signficancia α=0.05. Tabla Nº 3 Número de individuo
Edad (X)
Valor resultante del EEG(Y)
1
20
98
2
21
75
3
22
95
4
24
100
5
27
99
6
30
65
7
31
64
8
33
70
9
35
85
10
38
74
11
40
68
12
42
66
13
44
71
14
46
62
15
48
69
16
51
54
17
53
63
18
55
52
19
58
67
20
60
55
128
Solución: 1. Formulación de hipótesis: Prueba unilateral izquierda Ho: El rendimiento del EEG y la edad son mutuamente independientes. H1:Existe una tendencia del rendimiento del EEG a disminuir con la edad. 2.
Nivel de significancia: α=0.05
c) Estadística de prueba: n
rs 1
4.
6 d 2i i 1 2
n(n 1)
Establecimiento de los criterios de decisión. La hipótesis nula Ho se rechaza en la prueba unilateral izquierda en el nivel de signficación α=0.05 si rs es menor que rs para α=0.05 y n=20. En la tabla P observamos que para α=0.05 y n=20, rs 0.3789 .
5. Cálculos: Pasos para calcular el valor de rs: a) Clasificar por jerarquìa los valores de X desde 1 hasta 20. Clasificar por jerarquía los valores de Y desde 1 hasta 20 b) Calcular di, para cada pareja de observaciones, restando la jerarquía de Yi de la jerarquía de Xi. Ver Tabla Nº 4. c) Elevar al cuadrado cada di y calcular
d
2 i
, la suma de los valores elevados
al cuadrado.
129
Tabla Nº 4.- Jerarquia para los datos de la Tabla Nº 3. Núm ero de indivi duo
Edad (X)
Valor resultante del EEG(Y)
1
1
18
-17
289
2
2
15
-13
169
3
3
17
-14
196
4
4
20
-16
256
5
5
19
-14
196
6
6
7
-1
1
7
7
6
1
1
8
8
12
-4
16
9
9
16
-7
49
10
10
14
-4
16
11
11
10
1
1
12
12
8
4
16
13
13
13
0
0
14
14
4
10
100
15
15
11
4
16
16
16
2
14
196
17
17
5
12
144
18
18
1
17
289
19
19
9
10
100
20
20
3
17
d
d
i
i
2
289 d
i
2
23 4
Se calcula el valor de: n
rs 1
6 d i2 i 1
n(n 2 1)
130
20
rs 1
6 d 2i i1 2
20(20 1)
rs 0.76
2.
Decisión: Como rs 0.76 0.3789
, se rechaza H o. Lo que quiere decir que las variables se encuentran inversamente relacionadas. AUTOEVALUACIÓN 04
1. Los siguientes datos representan el tiempo, en minutos, que un paciente tiene que esperar durante 12 visitas al consultorio de una doctora antes de ser atendido por ésta: 17 15 20 20 32 28 12 26 25 25 35 24 Utilice la prueba de signo al nivel de significancia de 0.05 para probar la afirmación de la doctora de que la mediana del tiempo de espera para sus pacientes no es mayor que 20 minutos antes de entrar al consultorio.
2. La siguiente tabla corresponde a una muestra aleatoria de 1380 madres adolescentes embarazadas según el uso de métodos anticonceptivos y antecedente de aborto : Uso de métodos anticonceptivos No si Total
Antecedentes de aborto No 30 500 530
Si 800 50 850
Total 830 550 1380
131
a)
Determinar si el uso de métodos anticonceptivos y el aborto relacionan. Use α = 0.05. b) Determinar el coeficiente de contingencia chi cuadrado e interpretar.
3. La siguiente tabla corresponde a 1750 niños según tipo de familia y situación de abandono moral, los resultados se dan a continuación: Tipo de familia
Situación de abandono moral Sin abandono Con abandono moral moral 200 1000 100 400 10 40 310 1440
Extrema Rango medio Balanceada Total a) b)
Total 1200 500 50 1750
Probar que el tipo de familia y la situación de abandono moral se relacionan. Use α = 0.01 Calcular el coeficiente de contingencia e interpretar.
4. En 10 individuos realizamos alternativamente un test de memoria y otro de atención, encontrándose las siguientes puntuaciones: Individuo
1
2
3
4
5
6
7
8
9
10
Atención
6
4
3
5
3
2
4
5
7
1
Memoria
12
6
4
12
5
2
3
14
10
1
¿Están relacionados los resultados de ambos test? Use α=0.01.
132
5. Bibiografía • Barreto C. Estadística Básica – Aplicaciones. 2a ed. Chimbote: SUA Uladech; 2007. • • • •
•
•
•
Córdova M. Estadística Descriptiva e Inferencial. 4a ed. Lima: Edit.Moshera; 2000. Wayne D. Bioestadística. 4a ed. México: Editorial Limusa S:A. 2002. Ruiz, D. Manual de estadística. [libro en línea]. Universidad de Malaga: Eumed.net; 2004. Disponible en: http://www.eumed.net/cursecon/libreria/drm/ped- drm-est.htm. Fisterra.com, Atención Primaria en la Red (Sede Web). La Coruña: Fisterra. com; 1990. [actualizada el 10 de diciembre de 2011 acceso el 01 de abril de 2013). La distribución normal. Disponible en http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.asp. Behar R, Grima P. 55 respuestas a dudas típicas de estadística. [libro en línea]. España: Ediciones Diaz de Santos; 2006. [fecha de acceso 01 de abril de 2013]. Disponible en http://site.ebrary.com/lib/bibliocauladechsp/docDetail.action? docID=10135772&p00=estadistica De la Puente, V. Estadística descriptiva e inferencial y una introducción al método científico. [libro en línea]. Editorial Complutense; 2010. Disponible en:http://site.ebrary.com/lib/bibliocauladechsp/docDetail.action? docID=10378624&p00=estadistica. Matus R, Hernández M, García E, Franco M. Estadística [libro en línea]. México: Instituto Politécnico Nacional; 2010. Disponible en http://site.ebrary.com/lib/bibliocauladechsp/docDetail.action? docID=10365616&p00=estadistica.
133