1
2
Instituto Tecnológico Superior de Coatzacoalcos Alumna
MAILY CAROLINA DÍAZ
Maestro
EDUARDO LÓPEZ DE LOS SANTOS
Asignatura
ESTADÍSTICA II
Semestre
3° Grupo
“A” Ciclo
Enero-2012 junio-2013 3
4
ÍNDICE DATOS DE LA ASIGNATURA .............................................................................. 7 UNIDAD 1. PRUEBAS DE HIPÓTESIS. ........................................................... 17 PRUEBAS DE HIPÓTESIS. .................................................................................... 19 ACTIVIDADES DE LA UNIDAD 1 ............................................................................... 37 ACTIVIDAD 1. PLANTEAMIENTOS DE H0 Y H1 .................................................. 39 ACTIVIDAD 2. PROBLEMAS (OPCIÓN DE SOLUCION 1 DE 2)……………………………………………………………………………………..……40 ACTIVIDAD 3. PROBLEMAS DE HIPOTESIS……………………………………………………………………………….41 ACTIVIDAD 4. INSTALACIÓN DE SOFTWARE ESTADISTICO………………………………………………………………..…………… …………...………………………………………………………………..……………….43 ACTIVIDAD 5. PRESENTACIÓN DE SOFTWARE POR EQUIPO………………..44 ACTIVIDAD 6. EJERCICIO POR EQUIPO. ........................................................... 54 ACTIVIDAD 7. MAS EJERCICIOS DE CLASES. .................................................. 55 ACTIVIDAD 8. DESARROLLAR TEMA 1.7 ........................................................... 56 ACTIVIDAD 9. ELABORACIÓN DE MAPAS EN XMIND. ...................................... 67
UNIDAD 2. PRUEBAS DE LA BONDAD DEL AJUSTE Y ANÁLISIS DE VARIANZA. .............................................................................................................. 69 PRUEBAS DE LA BONDAD DEL AJUSTE Y ANÁLISIS DE VARIANZA. ............... 71 ACTIVIDADES DE LA UNIDAD 2 ............................................................................... 95 ACTIVIDAD 1. COMPLETAR TEMA FALTANTE DE LA UNIDAD ........................ 97 ACTIVIDAD 2. FINALIDAD DE LOS TEMAS DE LA U2. ..................................... 110 ACTIVIDAD 3. MAPAS EN XMIND DE CHI-CUADRADA Y ANÁLISIS DE VARIANZA………………………………………………………………………………111 ACTIVIDAD 4. ENSAYO SOBRE CHI-CUADRADO Y EXPOSICION DEL TEMA……………………………………………………………………………….....113.
5
UNIDAD 3. ANÁLISIS DE REGRESIÓN, CORRELACIÓN LINEAL SIMPLE Y MULTIPLE. ........................................................................................ 115 ANÁLISIS DE REGRESIÓN, CORRELACIÓN LINEAL SIMPLE Y MULTIPLE. ... 117 ACTIVIDADES DE LA UNIDAD 3.. ........................................................................... 131 ACTIVIDAD 1. EJEMPLOS, GRÁFICAS DE CORRELACIÓN ........................... 133 ACTIVIDAD 2. 2 EJERCICIOS CON GRÁFICAS DE DISPERSIÓN…………….134 ACTIVIDAD 3. ECUACIÓN QUE RELACIONE VARIABLES CONOCIDAS CON DESCONOCIDAS. ............................................................................................... 135 ACTIVIDAD 4. INVESTIGACIÓN DE TEMAS PENDIENTES DE LA U3. POR EQUIPO ............................................................................................................... 137
ACTIVIDAD 5. EXPOSICIÓN EN EQUIPO..................................................... 163 UNIDAD 4. SERIES DE TIEMPO...................................................................... 173 SERIES DE TIEMPO. ............................................................................................ 175 ACTIVIDADES DE LA UNIDAD 4. ............................................................................ 189 ACTIVIDAD 1. INVESTIGAR LOS COMPONENTES DE UNA SERIE TEMPORAL………………………………………………………………………….….191 ACTIVIDAD 2. INV. 2 EJEMPLOS PRACTICOS DE PRONOSTICOS EN UN PAQUETE DE DATOS. ....................................................................................... 197 ACTIVIDAD 3. REALICE UN DIAGRAMA MULTIMEDIA EN XMIND DEL TEMA 4.2........................................................................................................................200 ACTIVIDAD 4. VIDEO DEL TEMA 4.1 ................................................................. 201
UNIDAD 5. ESTADÍSTICA NO PARAMÉTRICA. ......................................... 203 ESTADÍSTICA NO PARAMÉTRICA. .................................................................... 205 ACTIVIDADES DE LA UNIDAD 5 ............................................................................. 211 ACTIVIDAD 1. CITAR VENTAJAS Y DESVENTAJAS DE UTILIZAR METODOS NO PARAMETRICOS. ......................................................................................... 213 ACTIVIDAD 2. 3 EJEMPLOS DE LA PRUEBA DE SIGNOS ............................... 216 ACTIVIDAD 4. REALIZAR 3 EJEMPLOS PRACTICOS DE PRUEBA DE SIGNOS Y WILCOXON PARA OBSERVACIONES PAREADAS………..………………….233 ACTIVIDAD 5. DIAGRAMA EN XMIND DE LA PRUEBA DE KRUSKAL WALLIS239
6
7
8
9
10
11
12
13
14
15
16
17
18
PRUEBAS DE HIPÓTESIS Estadística. Es el conjunto de técnicas que tienen por objeto recopilar, analizar, e interpretar datos (numéricos); así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis. Las personas vemos a la estadística desde perspectivas distintas, suele vérsele como algo relacionado con porcentajes porcentajes, , tablas y gráficas, la información estadística se usa por muchas razones entre ellas encontramos: informar al público, proporcionar comparaciones, explicar acciones que se han efectuado, influir en decisiones que han de tomarse, etc. Estadística descriptiva o deductiva. Incluye las técnicas que se relacionan con el resumen y la descripción de datos numéricos, es decir, recopilan, organizan y analizan datos cuantitativos. Estadística inferencial o inductiva. Comprenden aquellas técnicas por medio de las cuales se toman decisiones sobre una población estadística basadas en una muestra. 1.1 HIPÓTESIS ESTADÍSTICAS. Hipótesis. Es una aseveración de una población elaborado con el propósito de poner a prueba, para verificar si la afirmación es razonable (se usan datos). En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera. Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable. La prueba de hipótesis se realiza mediante un procedimiento sistemático de cinco pasos: Paso 1. Se plantea la hipótesis nula y alterna. Paso 2. Se selecciona el nivel de significancia. Paso 3. Se identifica el estadístico de prueba. Paso 4. Se formula la regla de decisión. Paso 5. Se toma una muestra y se decide.(si se rechaza la hipótesis nula, se acepta la hipótesis alterna o viceversa) Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la hipótesis, pero debemos de tener cuidado con esta determinación ya
19
que en la consideración de estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase de prueba más allá de una duda razonable. Objetivo de la prueba de hipótesis. El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del parámetro. De igual forma la prueba de hipótesis determina si un valor propuesto (hipotético) para un parámetro poblacional, por ejemplo para una media, debe aceptarse como plausible con base en la evidencia muestral.
1.2 ERRORES TIPO I Y II. Cualquiera que sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la H0 o de la H1, puede incurrirse en error: Un error tipo I. Se presenta si la hipótesis nula H0 es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α Un error tipo II. Se presenta si la hipótesis nula es aceptada cuando es falsa y debía ser rechazada; se denota con la letra griega β. En cualquiera de los dos casos se comete un error al tomar una decisión equivocada. En la siguiente tabla se muestran las decisiones que puede tomar el investigador y las consecuencias posibles. Hipótesis nula H0 es verdadera H0 es falsa
Investigador Se acepta H0 Se rechaza H0 Decisión Error tipo I correcta Error tipo II Decisión correcta
Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser posible.
20
1.3 PRUEBAS UNILATERALES Y BILATERALES. Prueba unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤ Ejemplo: H0: µ ≥ 200
H0: µ ≤ 200
H1: µ < 200
H1: µ > 200
Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad Ejemplo: H0: µ = 200 H1: µ ≠ 200
1.4 PRUEBA DE UNA HIPÓTESIS. En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ) poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba es (z) y se determina a partir de: Z
x
n
El valor estadístico (z), para muestra grande y desviación estándar poblacional desconocida se determina por la ecuación: Z
x S n
21
En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional desconocida se utiliza el valor estadístico (t). t
x S n
Nivel de significancia. Se le denota mediante la letra griega (α), también es denominada como nivel de riesgo, este término es más adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera. Este nivel está bajo el control de la persona que realiza la prueba. Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, que esté fuera del área de aceptación. El nivel de confianza (1- α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población. La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si el estadístico de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.
Nivel de 0.10 significancia Valores críticos de - 1.28 z para test + 1.28 unilateral Valores críticos de - 1.645 z para test bilateral y + 1.645
0.05
0.01
0.005
0.002
- 1.645 - 2.33 - 2.58 - 2.88 + + + + 2.88 1.645 2.33 2.58 - 1.96 - 2.58 - 2.81 - 3.08 y y y y + 1.96 + + + 3.08 2.58 2.81
Valor crítico. Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región en la que no se rechaza la hipótesis nula.
Ejemplos: 1. El jefe de división de la Ingeniería en Administración del ITESCO manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no este
22
supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se considera el nivel de significancia de 0.05 Datos: Día Usuarios Día Usuarios Día Usuario 1 356 11 305 21 429 2 427 12 413 22 376 3 387 13 391 23 328 4 510 14 24 380 411 5 288 15 382 25 397 6 290 16 389 26 365 7 320 17 405 27 405 8 350 18 293 28 369 9 403 19 276 29 429 10 329 20 417 30 364 Solución: Se trata de un problema con una media poblacional: muestra grande y desviación estándar poblacional desconocida. Paso 1: Seleccionamos la hipótesis nula y la hipótesis alternativa H0: μ═350 H1: μ≠ 350 Paso 2: Nivel de confianza o significancia 95% α═0.05 Paso 3: Calculamos o determinamos el valor estadístico de prueba Debido a que el número de muestras es igual a 30, conocemos la media de la población, pero la desviación estándar de la población es desconocida, en este caso calculamos la desviación estándar muestral y la media de la muestra empleando Excel, lo cual se muestra en el cuadro que sigue. Columna1 Media 372.8 Error típico 9.56951578 Mediana 381 Moda 405 Desviación estándar 52.4143965 Varianza de la muestra 2747.26897 Curtosis 0.36687081 Coeficiente de asimetría 0.04706877 Rango 234 Mínimo 276 23
Máximo 510 Suma 11184 Cuenta 30 Nivel de confianza (95.0%) 19.571868 Z
x 372.8 350 2.38 S 52.414 / 30 n
Paso 4: Formulación de la regla de decisión. La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la mitad de 0.05, es decir 0.025, está en cada cola. El área en la que no se rechaza Ho está entre las dos colas, es por consiguiente 0.95. El valor crítico para 0.05 da un valor de Zc = 1.96. Por consiguiente la regla de decisión es: Rechazar la hipótesis nula (H0) si Z<-1.96 o si Z>1.96, Paso 5: Toma de decisión. Como el valor del estadístico cae dentro de la zona de rechazo, por tanto se rechaza la hipótesis nula (H1), se acepta la hipótesis alterna (H1). 2. Se tiene la siguiente prueba de hipótesis: H0: µ ≤ 15 H1: µ > 15 Una muestra de 40 elementos produce una media de 16.5 y una desviación estándar de 7. a) Con α= 0.02, ¿cuál es el valor crítico de z y cuál es la regla de rechazo? b) Determine el valor del estadístico de z c) ¿cuál es su conclusión? Solución: a) Para calcular el valor de z, debido a que no se tiene el valor en la tabla se tiene que interpolar, es decir: z 2.33 0.02 0.01 1.645 2.33 0.05 0.01 z 2.33 0.01 0.685 0.04 z 2.33 0.25 0.685 Z – 2.33= (0.25)(-0.685) Z – 2.33= -0.171 Z= -0.171 + 2.33 Z= 2.158 z = 2.158, Rechazar H0: µ ≤ 15, si es mayor que 2.158
24
x 16.5 15 1.5 1.356 S 7 / 40 1.106 n c) No se rechaza la hipótesis nula b) Z
3. La duración promedio de una semana de trabajo para la población de trabajadores es de 39.2 horas. Pruebe las hipótesis, H0: µ = 39.2 horas y H1: µ ≠ 39.2 horas, con α=0.05. a) ¿Cuáles son los valores críticos para el estadístico de prueba y cuál es la regla de rechazo para H0? b) Suponga que en una muestra de seguimiento de 112 trabajadores la media muestral es de 38.5 horas y que la desviación estándar muestral es de 4.8 horas. ¿Cuál es el valor del estadístico de prueba? c) ¿Cuál es su conclusión? Solución: H0: µ = 39.2 H1: µ ≠ 39.2 a) con α=0.05, z=±1.96, se rechaza la H0, si z<-1.96 o z>1.96
x 38.5 39.2 0.7 1.545 S 4.8 / 112 0.453 n c) No se rechaza la H0 b) Z
4. Las personas que solicitaron devoluciones de impuestos federales antes del 31 de marzo tuvieron una devolución promedio de 1056 dólares. Hay una población de solicitantes que mandan sus documentos de último minuto durante los últimos cinco días del periodo de impuesto (normalmente del 10 al 15 de abril). a) Un investigador sugiere que una de las razones por las que las personas esperan hasta los últimos días es que, en promedio, tienen una devolución menor que quienes las solicitan antes. Elabore las hipótesis, adecuadas para que el rechazo de H0 respalde lo que opina el investigador. b) Con α= 0.05, ¿Cuál es el valor crítico para el estadístico de prueba y cuál es la regla de rechazo? c) Para una muestra de 400 individuos que solicitaron una devolución entre el 10 y 15 de abril, la devolución muestral promedio fue de 910 dólares y la 25
desviación estándar fue de 1600 dólares, calcule el valor del estadístico de prueba. d) ¿Cuál es su conclusión? Solución: a) H0: µ ≥ 1056 H1: µ < 1056 b) Con α=0.05, el valor de z= -1.645, la regla de decisión es: rechazar H0, si z es menor que -1.645. x 910 1056 146 1.825 c) Z 80 1600 / 400 n d) Se rechaza la H0, se concluye que µ<1056 5. Se tiene la siguiente prueba de hipótesis: H0: µ = 15 H1: µ ≠ 15 Con una muestra de 50 elementos se obtiene una media de 14.2 y una desviación estándar de 5. a) ¿Cuál es la regla de rechazo con α=0.02? b) Determine el valor del estadístico de prueba z. c) ¿Cuál es su conclusión? Solución: a) Para calcular el valor de z, debido a que no se tiene el valor en la tabla se tiene que interpolar, es decir: z 2.58 0.02 0.01 1.96 2.58 0.05 0.01 z 2.58 0.01 0.62 0.04 z 2.58 0.25 0.62 Z – 2.58= (0.25)(-0.62) Z – 2.58= -0.155 Z= -0.155 + 2.58 Z= 2.425 Con α=0.02, el valor de z= -2.425 y 2.425, la regla de decisión es: rechazar H0: si z <-2.425 o z >2.425.
26
b) Z
x
14.2 15 0.8 1.131 0.707 5 / 50
n c) No se rechaza la H0.
6. Se tiene la siguiente prueba de hipótesis H0: µ = 20 H1: µ ≠ 20 Los datos de una muestra de 6 elementos son: 18, 20, 16, 19, 17 y 18. a) Calcule la media de la muestra b) Encuentre la desviación estándar de la muestra c) Con α=0.05, ¿cuál es la regla de rechazo? d) Calcule el valor del estadístico t e) ¿Cuál es su conclusión? Solución: H0: µ = 20 H1: µ ≠ 20 19 20 16 19 17 18 a) x 18 6 x x
2
b)
S
n 1
10 1.414 5
c) Con α=0.05, como es una prueba bilateral, por lo tanto
2
0.05 0.025 2
Grados de libertad = n-1= 6-1 = 5 t = ±2.571, se rechaza la H0, si z<-2.571 o z>2.571
x 18 20 2 3.466 S 1.414 / 6 0.577 n e) Se rechaza H0, se concluye que H1 es cierta. d) t
Ejercicios: 1. El gerente del Hotel Relax afirma que la media de las cuentas de los huéspedes, en un fin de semana, es de 600 dólares o menos. Un empleado del departamento de contabilidad del hotel notó que recientemente los cargos totales en las cuentas de los huéspedes han aumentado. El contador usará una muestra de cuentas de fin de semana para probar la afirmación del gerente. ¿Cuál de las siguientes formas de hipótesis se debe usar para probar la afirmación del gerente? Explique por qué. H0: µ ≥ H0: µ ≤ H0: µ = 27
600 600 600 H1: µ < H1: µ > H1: µ ≠ 600 600 600 Solución:
LA SEGUNDA YA QUE DICE MAS O MENOS DE 600, LO QUE QUIERE DECIR MENOR O IGUAL QUE 600. 2. Se tiene la siguiente prueba de hipótesis H0: µ ≥ 10 H1: µ < 10 Una muestra de 50 elementos produce una media de la muestra de 9.46 y una desviación estándar de la muestra de 2. a) Cuando α= 0.05, ¿cuál es el valor crítico de z?, ¿cuál es la regla de rechazo? b) Calcule el valor del estadístico de prueba z, ¿cuál es su conclusión? Solución: 3. Se tiene la siguiente prueba de hipótesis: H0: µ ≥ 25 H1: µ < 25 Se usa una muestra de 100 artículos y se supone que la desviación estándar de la población es 12. Use α= 0.05, determine el valor del estadístico z y llegue a una conclusión para cada uno de los siguientes resultados de la media: a) ̅ = 22 b) ̅ = 24 c) ̅ = 23.5 d) ̅ = 22.8 Solución: 4. Media Matrix, Inc, vigila a los usuarios de internet en siete países: Australia, Gran Bretaña, Canadá, Francia, Alemania, Japón y Estados Unidos. Según las cifras de mediciones recientes, los usuarios estadounidenses ocupan el primer lugar en el uso de internet con un promedio de 13 horas por semana (The Washington Post, 4 de agosto de 2000). Suponga que en un estudio de seguimiento en el que participaron 145 usuarios de internet canadienses, la media muestral fue de 10.8 horas por semana y la desviación estándar muestral fue de 9.2 horas. a) Formule la hipótesis nula y alternativa que servirán para determinar si los datos de la muestra sustentan la conclusión de que los usuarios de internet canadienses tienen una media poblacional menor que el promedio estadounidense de 13 horas por semana. b) Con α= 0.01, ¿Cuál es el valor crítico para el estadístico de prueba? Exprese la regla de rechazo. c) ¿Cuál es el valor del estadístico de prueba? d) ¿Cuál es su conclusión? Solución. 28
5. Se tiene la siguiente prueba de hipótesis: H0: µ = 10 H1: µ ≠ 10 Una muestra de 36 artículos produce un promedio de 11 y una desviación estándar de 2.5 a) ¿Cuál es la regla de rechazo con α= 0.05? b) Calcule el valor del estadístico z, ¿cuál es su conclusión? Solución: 6. Se tiene la siguiente prueba de hipótesis: H0: µ ≥ 15 H1: µ < 15 Con una muestra de 22 artículos se obtuvo una desviación estándar muestral de 8. Use α= 0.05. Determine el valor del estadístico y su conclusión para cada uno de los siguientes resultados muéstrales: a) ̅ = 13 b) ̅ = 11.5 c) ̅ = 15 d) ̅ = 19 Solución: 7. El gerente de una agencia automotriz desea implantar un nuevo plan de bono con objeto de aumentar el volumen de ventas. En la actualidad el volumen de ventas es de 14 automóviles vendido por mes. El gerente desea llevar a cabo una investigación para ver si el nuevo plan de bono aumenta el volumen de ventas. Para recurrir datos acerca del plan, se permitirá que un grupo de vendedores trabajen con él durante un período de un mes. a) Formule la hipótesis nula y alternativa que sea más adecuado para este caso. b) Comente la conclusión a que se llegaría cuando no se puede rechazar H0. c) Comente la conclusión a que se llegaría cuando si se puede rechazar H0. Solución: 8. Los estadounidenses gastan un período de 8.6 minutos diario (leyendo los periódicos). Un investigador cree que quienes tienen puestos de mando invierten más tiempo en leer los periódicos que el promedio nacional. Una muestra de personas con puestos gerenciales será seleccionada por el investigador. Los datos de tiempos de lectura del periódico se usarán para probar las siguientes hipótesis nula y alternativa: H0: µ ≤ 8.6 H1: µ > 8.6 a) ¿Cuál es el error tipo I en este caso? ¿cuáles son las consecuencias de cometer este error? b) ¿Cuál es el error tipo II en este caso? ¿cuáles son las consecuencias de cometer este error? Solución:
29
1.5 PRUEBA SOBRE DOS MEDIAS CON DISTRIBUCIÓN NORMAL Y “t” STUDENT. El procedimiento para probar una hipótesis sobre la diferencia entre dos medias poblacionales es similar al que se usa para probar una hipótesis relativa al valor de una media poblacional. El procedimiento difiere solamente en que se usa el error estándar de la diferencia entre medias para determinar el valor (z o t) correspondiente al resultado muestral. El uso de la distribución normal está basado en las mismas condiciones que en el caso de una muestra, excepto que se consideran dos muestras aleatorias independientes. La fórmula general para determinar el valor “z” en una prueba de hipótesis para la diferencia entre dos medias, dependiendo de si se conocen los valores de “” de las dos poblaciones es: z
x1 x2 S x1 x2
sx
1
x2
S x1 x2
sx sx 2
sx
2
1
2
2
2
S S n1 n2
1
S 2
s
1
n1
sx
2
s
2
n2
n1 1 s12 n2 1 s22 n1 n2 2
Cuando se prueba la diferencia entre dos medias empleando la distribución t, una suposición necesaria en el procedimiento estándar que se emplea en la mayoría de los textos es que las varianzas de las dos poblaciones son iguales. Por tanto, en esta prueba el error estándar estimado para la media se calcula a partir de las formulas: gl: n1 + n2 – 2 t x1 x2 x1 x2 Ejemplos: 1. Una empresa departamental tiene dos tiendas en Coatzacoalcos; una está en el centro de la ciudad y la otra en un centro comercial suburbano. El gerente regional se percató de que los productos de mayor venta en una tienda no siempre son los de mayor venta en la otra. Cree que esta situación puede deberse a diferencias en la demografía de los clientes en las dos zonas. Los clientes pueden tener distinta edad, educación, ingresos, etc. Suponga que el gerente regional ha pedido investigar la diferencia entre las medias de las edades de los clientes que compran en cada tienda. Definamos a la población 1 como todos los clientes que compran en la tienda del centro, y a la población 2 como los que compran en la suburbana. Suponga que los datos de edades de los clientes que se reunieron en las dos muestras aleatorias simples de clientes de la empresa fueron los siguientes: Tienda Cantidad de Edad media Desviación clientes de la muestra estándar de la muestreados muestra 30
Centro 36 40 años 9 años Suburbano 49 35 años 10 años Con un nivel de confianza de 95% = 0.05, Pruebe la hipótesis de que no existe diferencia entre las edades de las dos poblaciones de los clientes de las tiendas. Solución: H0: µ1-µ2= 0 H1: µ1-µ2≠ 0 n1= 36 x1 = 40 S1= 9
n2= 49 x2 = 35 S2=10
Con = 0.05 Z 1.96
s x sn
9 9 1.5 36 6
s
10 10 1.428 7 49
1
1
sx
sx
1
2
n2
2
sx sx n 1 s n
1
x2
2
(1.5)2 (1.428)2 2.071
2
1
2
2
S
2
1
S x1 x2
2
1
1 s2
n1 n2 2 2
2
S S n1 n2 2
2
2
7635 36 2
(36 1) (9)2 (49 1) (10)2 7635 91.987 36 49 2 83
83
7635 49 2
S1 S 2 (9) (10) S x1 x2 36 49 n1 n2 40 35 x x z 1 2 2.414 2.071 S x1 x2
83 2.555 1.877 4.432 2.105 81 100 29 2.071 36 49 14
Se rechaza H0 2. Para un estudio de muestreo que realizó el Banco Prosperidad. Muestras aleatorias independientes de saldos en los estados de cuenta de cheques para clientes de dos de sus sucursales dieron los siguientes resultados. Sucursal Número de Media de la Desviación cuentas de muestra de estándar de la cheques saldos muestra Norte 12 1000 dólares 150 dólares Sur 10 920 dólares 120 dólares Con un nivel de confianza de 90%, estime el intervalo de la diferencia entre las medias de los saldos en las dos sucursales. Solución: 31
H0: µ1-µ2= 0 H1: µ1-µ2≠ 0 n1= 12 n2= 10 x1 = 1000 x2 = 920 S1= 150 S2=120 Con = 0.1 Grados de libertad= n1 + n2 – 2= 12+10-2=20 t / 2 t 0.1/ 2 t 0.05 1.725 2
2
2
2
S1 S 2 (150) (120) 1875 1440 57.576 S x1 x2 12 10 n1 n2 1000 920 t x1 x2 1.389 57.576 S x1 x2 No se rechaza H0
Ejercicios: 1. Examine los resultados siguientes de dos muestras aleatorias independientes tomadas de dos poblaciones: n1= 50 n2= 35 ̅̅̅ = ̅̅̅= 13.6 11.6 S1= 2.2 S2=3 a) ¿Cuál es la estimación puntual de la diferencia entre las dos medias de la población? b) Determine un intervalo de confianza de 90% de la diferencia entre las dos medias de la población. c) Determine un intervalo de confianza de 95% de esa diferencia. Solución: 2. Un grupo de planeación urbana desea estimar la diferencia entre las medias de los ingresos familiares en dos zonas de un área metropolitana. Unas muestras aleatorias independientes de familias residentes en las dos zonas produjeron los siguientes resultados. Zona 1
Zona 2 n1= 8 n2= 12 ̅̅̅ = 15700 ̅̅̅= 14500 dólares dólares S1= 700 dólares S2=850 dólares a) Determine una estimación puntual para la diferencia entre las medias de los ingresos de las dos zonas b) Determine un intervalo de confianza de 95% para esa diferencia Solución: 32
3. El salario semanal promedio en una muestra de n 1= 30 empleados de una empresa grande es x1 $280 y la desviación estándar de la muestra es S1=$14. En otra empresa grande, una muestra aleatoria de n2= 40 empleados tiene un salario medio de x2 $270 y la desviación estándar es S2= $10. No se supone que las desviaciones estándar de las dos poblaciones de salarios sean iguales. Pruebe la hipótesis de que no hay diferencia entre los salarios semanales promedios de las dos empresas empleando como nivel de significancia 5%, de la manera siguiente: H0:µ1= µ2, H1: µ1≠ µ2. Solución: 4. Una muestra aleatoria de n1= 10 focos, la vida media de los focos es x1 4000h y S1= 200. En otra marca de focos cuya vida media se supone que también sigue una distribución normal, una muestra aleatoria de n2= 8 tiene una media muestral x2 4300h y una desviación estándar muestral S2= 250. Pruebe la hipótesis de que no hay diferencia entre la vida media de las dos marcas de focos, usando un nivel de significancia de 1%. Solución:
1.6 PRUEBA SOBRE UNA SOLA PROPORCIÓN. Empleando los símbolos “p” para indicar la proporción poblacional y “p 0” para representar determinado valor supuesto de dicha proporción, las tres formas de una prueba de hipótesis acerca de una proporción poblacional son las siguientes. H0: p ≥ H0: p ≤ H0: p = p0 p0 p0 H1: p < H1: p > H1: p ≠ p0 p0 p0
Las dos primeras formas son pruebas unilaterales, mientras que la tercera es bilateral. La forma específica que se usa depende de la aplicación. Las pruebas de hipótesis respecto a una proporción de la población se basa en la diferencia entre la proporción de la muestra ( ̅ ) y la proporción supuesta de la población (p0). Los métodos que se usan para efectuar las pruebas se parecen mucho a los de la prueba de hipótesis respecto a una media de población. La única diferencia es que se usa la proporción de la muestra y su desviación estándar “σ p” para determinar el estadístico de prueba. Se comienza formulando las hipótesis nula y alternativa respecto al valor de la proporción de la población. Posteriormente, con el valor de la proporción de una muestra ̅ y su desviación estándar “σp”, se calcula 33
un valor estadístico “z”. Al comparar el valor del estadístico de prueba con el valor crítico, o bien, comparar el valor “p” con “” permite determinar si se debe rechazar la hipótesis nula. p p0 p0 1 p0 Z p n p Ejemplo. En los últimos meses, 20% de los jugadores han sido mujeres. Para tratar de aumentar la proporción de mujeres jugadoras, el club Ríos hizo una promoción especial para atraerlas. Después de una semana, una muestra aleatoria de 400 jugadores dio como resultado 300 hombres y 100 mujeres. Los gerentes del club desean determinar si estos datos respaldan la conclusión de que ha aumentado la proporción de mujeres jugadoras en el club Ríos. Considere = 0.05 Solución. H0: p ≥ 0.20 H1: p < 0.20 Con α= 0.05, z= -1.645, La regla de decisión es que se rechaza la H0 si z < 1.645 p 1 p0 0.2(1 0.2) 0.02 p 0 n 400 p p0 0.25 0.2 Z 2.5 0.02 p No se rechaza la H0, si hubo aumento con la promoción. Ejercicio. Se tiene la siguiente prueba de hipótesis. H0: p = 0.20 H1: p ≠ 0.20 Una muestra de 400 elementos dio como resultado una proporción de ̅ a) Con = 0.05, ¿cuál es la regla de rechazo? b) Calcule el valor del estadístico z c) ¿Cuál es su conclusión? Solución: 1.7 PRUEBA SOBRE DOS PROPORCIONES. El estimador puntual de la diferencia entre las proporciones de dos poblaciones es ̅̅̅ ̅̅̅ La desviación estándar:
S p1 p2
p 1 p
p1 1 p1 n1
2
2
n2
En donde: n1= Tamaño de la muestra aleatoria simple de la población 1 n2= Tamaño de la muestra aleatoria simple de la población 2 p1= Proporción de la población 1 p2= Proporción de la población 2 34
̅̅̅=Proporción muestral para una muestra aleatoria simple de la población 1 ̅̅̅=Proporción muestral para una muestra aleatoria simple de la población 2 La estimación del intervalo de la diferencia entre las proporciones de dos poblaciones es: p1 p2 Z S p1 p2 Para la prueba de hipótesis: n p n p p 1 1 2 2 n1 n2 p p2 p1 p2 Z 1 S p1 p2
Ejemplo. A una empresa contable le interesa comparar la calidad del trabajo que se realiza en dos de sus oficinas regionales. Al seleccionar muestras aleatorias de declaraciones de impuestos, elaboradas en cada oficina, y al verificar la exactitud de las estimaciones, la empresa podrá estimar la proporción de declaraciones con error preparadas en cada oficina. Sean Oficina 1 Oficina 2 n1= 250 n2= 300 Número de declaraciones con Número de declaraciones con errores= 35 errores= 27 Con un nivel de confianza del 90%, determine el intervalo y suponga que la empresa trata de determinar si las proporciones de errores son distintas entre las dos oficinas, determine la prueba de hipótesis. Solución: 35 0.14 p1 250 27 0.09 p2 300
p1 p2 0.14 0.09 0.05
Con α = 0.1, el valor crítico es
S p1 p2
p 1 p
p1 1 p1
2
2
n1 n2 p1 p2 Z S p1 p2 0.05(1.645)(0.027) 0.050.044 (0.006, 0.094) H0: p1-p2 = 0 H1: p1-p2 ≠ 0 Con α = 0.1, el valor crítico es z>1.645
(0.14)(0.86) (0.09)(0.91) 0.027 250 300
Se rechaza la hipótesis nulas si z<-1.645 o
35
p
n1 p1 n2 p2 (250)(0.14) (300)(0.09) 62 0.112 250 300 550 n1 n2
1 1 1 1 p1 p (0.112)(1 0.112) (0.112)(0.888) 111500 250 300 n1 n2
S p1 p2
0.027 Z
p p p p (0.14 0.09) (0) 1.851 1
2
S p1 p2
1
2
0.027
Se rechaza la H0 Ejercicio. Se tiene la siguiente prueba de hipótesis. H0: p1 - p2 ≤ 0 H1: p1 – p2 0 Los resultados siguientes pertenecen a dos muestras independientes de las dos poblaciones: Muestra Muestra 1 2 n1= 200 n2= 300 ̅̅̅ ̅̅̅ ¿Cuál es la conclusión de su prueba de hipótesis con α = 0.05? Solución: 1.8 SOFTWARE DE APLICACIÓN.
36
37
38
ACTIVIDAD 1
39
ACTIVIDAD 2
40
ACTIVIDAD 3
41
42
ACTIVIDAD 4 INSTALACIÓN DE SOFTWARE ESTADÍSTICO
43
ACTIVIDAD 5
Integrantes: Bautista Osorio Estefany Díaz Maily Carolina Fuentes Morales José Alexander Ortiz Medina Tania Guadalupe Varo Domínguez Jaricksa
Carrera: Ingeniería en Administración.
Materia: estadística 11 Docente: López de los santos Eduardo 1
44
Contenido Contenido ................................................................................................................ 2
Introducci贸n. ............................................................................................................ 3
Instalaci贸n del Programa ......................................................................................... 4
Primer Paso ......................................................................................................... 4
Segundo Paso...................................................................................................... 4
Tercer Paso.......................................................................................................... 4
Cuarto Paso ......................................................................................................... 5
Quinto Paso ......................................................................................................... 5
Sexto Paso........................................................................................................... 5
S茅ptimo Paso ....................................................................................................... 6
Octavo Paso......................................................................................................... 6
Registro del programa ............................................................................................. 6
Pasos para el registro del programa. ................................................................... 7
Bibliograf铆a ............................................................................................................ 11
Conclusiones Personales ...................................................................................... 12
2
Introducción.
El uso de ordenadores y métodos para mejorar y facilitar el que los alumnos comprendan mejor temas complejos y desarrollar al máximo sus capacidades, ha puesto en marcha que se elaboren nuevos y mejores softwares estadísticos
Las nuevas tecnologías han venido a cambiar por completo el panorama tradicional de cómo se hacían, se veían y se enseñaban las estadísticas. Introducirse en este nuevo panorama implica realizar profundos cambios en nuestros programas educativos.
Es muy amplia la variedad de aplicaciones informáticas disponibles para estadística y probabilidad, entre ellas se encuentra INFOSTAT.
INFOSTAT es un software para análisis estadístico desarrollado por un equipo conformado por profesionales de la Estadística con sede en la Universidad Nacional de Córdoba - Facultad de Ciencias Agropecuarias.
INFOSTAT cubre las necesidades de análisis de una amplia gama de usuarios tanto del ámbito académico como privado. El software ha evolucionado rápidamente y se actualiza frecuentemente. Estas actualizaciones no sólo tienen que ver con el agregado de nuevas funcionalidad sino también con el aumento de la productividad y la eficiencia computacional.
3
Instalación del Programa
Primer Paso: En la página oficial de INFOSTAT http://www.infostat.com.ar/ en la parte inferior vemos que dice “Versión español” y hacemos clic ahí para poder descargar el programa.
Segundo Paso: Guardamos el archivo, que vendría siendo el programa dando clic en “Guardar archivo”.
Tercer Paso: Después de permitir instalar el programa en nuestro ordenador, comienza la instalación automática del programa.
4
Cuarto Paso: Nos da la bienvenida el instalador del Software, a continuación damos clic en “Next” para seguir la instalación
Quinto Paso: Continuando con la instalación nos da una “Información Importante” y luego damos clic en “Next”
10
ACTIVIDAD 6
11
ACTIVIDAD 7
12
13
ACTIVIDAD 8
Instituto Tecnológico Superior de Coatzacoalcos
DÍAZ
MAILY CAROLINA
Nombre del Alumno Apellido Paterno
Apellido Materno
Nombre(s)
ASIGNATURA:
ESTADÍSTICA II Nombre del Docente
CARRERA:
LÓPEZ Apellido Paterno
ADMINISTRACIÓN
DE LOS SANTOS Apellido Materno
Semestre:
14
4º
EDUARDO Nombre(s)
Grupo:
“A”
ÍNDICE
INTRODUCCIÓN ................................................................................................... 3
DESARROLLO ................................................................................................... 4 CONCLUSIÓN ..................................................................................................... 10
BIBLIOGRAFÍA .................................................................................................... 11
15
INTRODUCCIÓN
Las pruebas de proporciones son adecuadas cuando los datos que se están analizando constan de cuentas o frecuencias de elementos de dos o más clases. El objetivo de estas pruebas es evaluar las afirmaciones con respecto a una proporción (o Porcentaje) de población. Las pruebas se basan en la premisa de que una proporción muestral (es decir, x ocurrencias en n observaciones, o x/n) será igual a la proporción verdadera de la población si se toman márgenes o tolerancias para la variabilidad muestral. Las pruebas suelen enfocarse en la diferencia entre un número esperado de ocurrencias, suponiendo que una afirmación es verdadera, y el número observado realmente. La diferencia se compara con la variabilidad prescrita mediante una distribución de muestreo que tiene como base el supuesto de que es realmente verdadera.
16
PRUEBA SOBRE DOS PROPORCIONES En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de medias, excepto que, en el caso de las primeras, los datos muéstrales se consideran como cuentas en lugar de como mediciones. Por ejemplo, las pruebas para medias y proporciones se pueden utilizar para evaluar afirmaciones con respecto a: 1) Un parámetro de población único (prueba de una muestra) 2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras), y 3) La igualdad de parámetros de más de dos poblaciones (prueba de k muestras). Además, para tamaños grandes de muestras, la distribución de muestreo adecuada para pruebas de proporciones de una y dos muestras es aproximadamente normal, justo como sucede en el caso de pruebas de medias de una y dos muestras. Existen variedad de problemas en los que se debe decidir si la diferencia observada entre dos proporciones muéstrales se pueden atribuir a la casualidad o si es indicativo del hecho de que las dos proporciones de la población correspondientes son desiguales. Por ejemplo, se quisiera decidir, tomando en cuenta los datos de una muestra, si una publicidad determinada produciría en realidad una diferencia de
respuesta con respecto a otra, ese es una de las
muchas interrogantes con que se enfrenta un administrador hoy en día.
Problemas como el antes mencionado se pueden tratar como un problema de contraste de hipótesis del tipo:
H 0 : p1 p 2 H1 : p1 p 2 En donde p1.. y.. p2 son las dos proporciones de poblaciones de la característica analizada. Si se señala con
N1.. y..N 2 el tamaño de las muestras y
17
p1.. y.. p2
como las proporciones obtenidas de las muestras, entonces la variable que se debe emplear para resolver este tipo de problemas es la diferencia de proporciones muéstrales. Es decir, p1 p2 , este planteamiento al igual que en el caso de la media, se reduce a conocer si la diferencia de las proporciones de la muestra p1 p2 es lo suficientemente grande como para suponer que en realidad existe una diferencia entre p1.. y.. p2 . El método que se aplicara para demostrar si una diferencia observada entre dos proporciones de las muestras se puede atribuir a la casualidad o si es estadísticamente significativa, se basa en la siguiente teoría: Si x1.. y..x2 son los números de aciertos obtenidos en n1 ensayos de un tipo y n2 de otro, donde todos los ensayos son independientes, y las probabilidades correspondientes de alcanzar un acierto son p1.. y.. p2 ,entonces la distribución de
x x muestreo de 1 2 tiene una media p1 p2 . n1 n2 Afortunadamente, basándonos en el teorema del límite central que expresa que p1 p2 posee una distribución normal o aproximadamente normal con un
promedio igual a la diferencia de proporción de población, es decir p1 p2 y con una desviación estándar, llamada error estándar de la diferencia entre dos proporciones, igual a p1 p 2 cuando no se conozca
p12 p22
p1q1 p2 q2 se debe expresar que n1 n2
p1..ni.. p2 , que es lo que por lo general ocurre, se deben
estimar sus valores por medio de los valores de las muestras; aunque los valores poblacionales sean desconocidos, se supondrán iguales bajo la hipótesis nula planteada, es decir H 0 : p1 p2 por consiguiente si el valor común se indica por p, el error estándar será p1 p 2
1 1 pq donde p suele estimarse mediante n1 n2
la combinación de los datos; o sea, al sustituir p por las proporciones de la
x x2 muestra combinada de 1 . n1 n2
18
El estadístico para calcular la diferencia entre proporciones es:
Zc
Zc
x1 x 2 n1 n2 ,..donde.. p 1 1 p(1 p) n1 n2
x1 x2 x x .. y.. 1 p1 ,.. 2 p 2 ..Entonces ..setiene ..que n1 n2 n1 n2
p1 p 2 1 1 pq n1 n2
DOS MUESTRAS: PRUEBAS PAREADAS En muchas situaciones las muestras se extraen como pares de valores tal como se determina el nivel de productividad de los trabajadores, antes y después de un programa de capacitación. A esta clase de datos e les denomina observaciones apareadas o pares asociados. También
a diferencia
de las
muestras
independientes, a dos muestras que contienen observaciones apareadas se les denomina muestras dependientes. El método apropiado para probar la diferencia entre las medias de dos muestras, es decir, para observaciones apareadas, consiste primero en determinar la diferencia entre cada par de valores, y después probar la hipótesis nula de que la diferencia poblacional promedio es 0. Por ello desde el punto de vista de los cálculos, se aplica una aprueba a una muestra de valores. La diferencia promedio para el conjunto de observaciones apareadas es:
La fórmula de desviaciones y la formula abreviada para la distribución estándar y las diferencias entre observaciones apareadas son, respectivamente
19
El erro estándar del promedio de las diferencias entre observaciones apareadas:
Como el error estándar del promedio de las diferencias se calcula con base en las diferencias observadas en las muestras apareadas (es decir se desconoce el valor poblacional y como por lo general se supone que los valores de d tienen una distribución normal, la distribución t resulta apropiada para probar la hipótesis nula de que
.
El estadístico de prueba que se utiliza para probar la hipótesis de que no existe diferencia entre las medias de un conjunto de observaciones apareadas es:
EJEMPLO: Un fabricante de automóviles obtiene datos de rendimiento de gasolina para una muestra de n=10 automóviles es diversas categorías de peso utilizando gasolina común, con y sin un determinado aditivo. Por supuesto se afinan las máquinas de acuerdo con las mismas especificaciones antes de realizar cada prueba y se utilizan los mismos conductores para las dos condiciones (de hecho el conductor no sabe qué tipo de gasolina se utiliza en las pruebas). Con los datos de rendimiento de la tabla, se prueba la hipótesis de que no existe diferencia entre el
20
kilometraje promedio que se obtiene con y sin el aditivo, utilizando un nivel se significancia del 5%.
21
22
CONCLUSIÓN
En mi opinión las pruebas sobre dos proporciones son muy importantes ya que analiza la diferencia de dos poblaciones o muestras, permitiendo así tomar una decisión más precisa sobre alguna problemática y saber si nuestra hipótesis es la correcta o no. Esto ayuda mucho en las grandes empresas donde deben comparar dos opciones y tomar la más indicada para que los resultados sean satisfactorios. También este tipo de pruebas da resultados muy certeros y precisos, para que así tomemos decisiones teniendo como bases un análisis cuantitativo que sabemos si da resultados exactos, para tomar decisiones que tengan éxito.
BIBLIOGRAFÍA
www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r62481.DOC
http://www.monografias.com/trabajos91/prue
23
ACTIVIDAD 9 DIAGRAMAS EN XMIND
24
25
26
27
PRUEBAS DE LA BONDAD DEL AJUSTE Y ANÁLISIS DE VARIANZA 2.1 ANÁLISIS JI-CUADRADA. (X es la minúscula de la letra griega ji). Propiedades de las distribuciones ji-cuadrada 1. Los valores de X2 son mayores o iguales que 0. 2. La forma de una distribución X2 depende del grado de libertad=n-1. En consecuencia, hay un número infinito de distribuciones X2. 3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1. 4. Las distribuciones X2 no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto es, están sesgadas a la derecha. 5. Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1). 6. El valor modal de una distribución X2 se da en el valor (n-3).
2.1.1 PRUEBA DE INDEPENDENCIA. Una aplicación importante de la distribución Ji cuadrada se relaciona con el uso de datos de muestras para indicar la independencia entre dos variables. La prueba de independencia utiliza el formato de la tabla de contingencias, y por esta razón a veces se le llama prueba de tabla de contingencia o prueba con tabla de contingencia. Pasos para realizar una prueba de independencia: 1. Plantear las hipótesis nula y alternativa. H0: La variable de columna es independiente de la variable de renglón. H1: La variable de columna no es independiente de la variable de renglón. 2. Tomar una muestra aleatoria y anotar las frecuencias observadas para cada celda de la tabla de contingencias. 3. Aplicar la ecuación
(
)(
)
para calcular la
frecuencia esperada para cada celda. Sea eij la frecuencia esperada en la categoría del renglón i y la columna j de la tabla de contingencias, suponiendo independencias. 4. Aplicar la ecuación X 2
f i
j
e e
2
ij
ij
para calcular un valor de X2 como
ij
estadístico. Donde fij= frecuencia observada para la categoría en el renglón i y la columna j. eij=frecuencia esperada para la categoría en el renglón i y la columna j de la tabla de contingencias, basadas en las hipótesis de independencia.
28
En la ecuación se usa la doble sumatoria para indicar que se deben hacer los cálculos para todas las celdas de la tabla de contingencia. 5. Regla de rechazo Con el estadístico de prueba: Rechazar H0 si X2 > X2 Con el valor p: Rechazar H0 si el valor p < Siendo el nivel de significancia para la prueba; si hay n renglones y m columnas en la tabla de contingencias, el estadístico de prueba tiene una distribución ji cuadrada con (n-1)(m-1) grados de libertad, siempre y cuando las frecuencias esperadas sean 5 o más para todas las categorías. Ejemplo. La siguiente tabla de contingencia de 2x3 contiene las frecuencias observadas en una muestra de 200. Pruebe la independencia entre las variables de renglón y de columna usando x2 con α= 0.025.
Variable de renglón P Q Total
Variable de columna A B C 20 44 50 30 26 30 50 70 80
Total
114 86 200
Solución: H0: La variable de columna es independiente de la variable de renglón. H1: La variable de columna no es independiente de la variable de renglón. (
ó
)(
)
Frecuencias esperadas
(114)(50) 28.5 200 (86)(50) e21 200 21.5
e
11
(114)(70) 39.9 200 (86)(70) e22 200 30.1
e
12
A P 28.5 Q 21.5
B C 39.9 45.6 30.1 34.4
29
(114)(80) 45.6 200 (86)(80) e23 200 34.4
e
13
X
f
2
i
j
e e
2
ij
ij
ij
( 20 28.5) ( 44 39.9) (50 45.6) (30 21.5) 28.5 39.9 45.6 21.5 2
2
2
2
( 26 30.1) (30 34.4) 7.86 30.1 34.4 2
2
Grados de libertad= (n-1)(m-1)= (2-1)(3-1)= (1)(2)= 2 X20.025= 7.37776 Como 7.86 >7.37776; Se rechaza la H0. Esto es, se llega a la conclusión de que la variable de columna no es independiente de la variable de renglón. Ejercicios: 1. La siguiente tabla de contingencia de 2x3 contiene las frecuencias observadas en una muestra de 150 personas. Pruebe la independencia entre las variables bebidas preferidas y el sexo, usando x2 con α= 0.05. Sexo
Bebidas preferidas H2 De De O sabor cola 20 40 20 30 30 10 50 70 30
Hombre Mujer Total
Total
80 70 150
Solución: H0: La variable de bebidas preferidas es independiente del sexo de la persona. H1: La variable de bebidas preferidas no es independiente del sexo de la persona. (
)(
)
Frecuencias esperadas
(80)(50) 26.67 150 (70)(50) e21 150 23.33
e
11
(80)(70) 37.33 150 (70)(70) e22 150 32.67
e
12
H2O
De sabor Hombre 26.67 37.33 Mujer 23.33 32.67
30
(80)(30) 16.00 150 (70)(30) e23 150 14.00
e
13
De cola 16.00 14.00
X
2
f i
e e
2
ij
j
ij
ij
( 20 26.67) ( 40 37.33) ( 20 16) (30 23.33) 26.67 37.33 16 23.33 2
2
2
2
(30 32.67) (10 14) 6.13 32.67 14 Grados de libertad= (n-1)(m-1)= (2-1)(3-1)= (1)(2)= 2 X20.05= 5.99147
2
2
Como 6.13>5.99147; Se rechaza la H0. Esto es, se llega a la conclusión de que la variable de las bebidas preferidas no es independiente del sexo. 2. Una de las preguntas del estudiante respecto a los suscriptores del 2011 fue: “durante los últimos 12 meses, en viajes de negocios, ¿qué tipo de boleto de avión compró con más frecuencia?” Las respuestas obtenidas se muestran en la siguiente tabla de contingencia. Tipo de boleto
Tipo de vuelo Naciona Internacion l al 29 22 95 121
Total
Primera clase 51 Clase de negocio o 216 ejecutivo Clase económica 518 135 653 Total 642 278 920 Usando α= 0.05, pruebe la independencia del tipo de vuelo y tipo de boleto, ¿cuál es su conclusión? Solución: H0: El tipo de boleto comprado es independiente del tipo de vuelo. H1: El tipo de boleto comprado no es independiente del tipo de vuelo. (
)(
)
Frecuencias esperadas
(51)(642) 35.59 920 (216)(642) e21 920 150.73 (653)(642) e31 920 455.68
e
11
(51)(278) 15.41 920 (216)(278) e22 920 65.27 (653)(278) e32 920 197.32
e
12
Nacional 26.67
Primera clase
31
Internacional 37.33
Clase de negocio o ejecutivo Clase económica
X
2
f i
j
e e
2
ij
ij
ij
23.33
32.67
( 29 35.59) ( 22 15.41) (95 150.73) (121 65.27) 35.59 15.41 150.73 65.27 2
2
2
2
(518 455.68) (135 197.32) 100.43 455.68 197.32 Grados de libertad= (n-1)(m-1)= (3-1)(2-1)= (2)(1)= 2 X20.05= 5.99147
2
2
Como 100.43>5.99147; Se rechaza la H0. Esto es, se llega a la conclusión de que el tipo de vuelo no es independiente del tipo de boleto. 2.1.2 PRUEBA DE LA BONDAD DE AJUSTE.
La prueba de bondad de ajuste se basa en una comparación entre la muestra de los resultados observados y los resultados esperados suponiendo que la hipótesis nula es verdadera. La prueba de bondad de ajuste se enfoca hacia las diferencias entre las frecuencias observadas y las frecuencias esperadas. Una diferencia grande entre las frecuencias observadas y esperadas hace dudar que las proporciones supuestas sean correctas. El que las diferencias entre las frecuencias observadas y las esperadas sean grandes o pequeñas es un asunto que se define con ayuda del siguiente estadístico de prueba.
f e
2
Estadístico de prueba para bondad de ajuste X i 1 2
k
i
i
e
i
Donde fi= frecuencia observada para la categoría i ei= frecuencia esperada para la categoría i k= cantidad de categorías Nota. El estadístico de prueba tiene distribución ji cuadrada con k-1 grados de libertad, siempre que las frecuencias esperadas sean 5 o más para todas las categorías. Resumen de la prueba de bondad de ajuste para la distribución multinomial. 1. Enunciar las hipótesis nula y alternativa. H0: La población se apega a una distribución de probabilidad multinomial con probabilidades especificadas para cada una de las k categorías.
32
H1: La población no se apega a una distribución de probabilidad multinomial con probabilidades especificadas para cada una de las k categorías. 2. Tomar una muestra aleatoria y anotar las frecuencias observadas, f i, para cada categoría. 3. Suponiendo que la hipótesis nula es cierta, determinar la frecuencia esperada, ej, en cada categoría, multiplicando la probabilidad de la categoría por el tamaño de la muestra.
f e
2
4. Calcular el valor del estadístico de prueba. X 2 i 1 k
i
i
e
i
5. Regla de rechazo: Con el estadístico de prueba: Rechazar H0 si x2 > xα2 Con el valor p: Rechazar H0 si el valor p < α Donde α es el nivel de significancia para la prueba, y los grados de libertad son k-1 Ejemplos: 1. Pruebe las siguientes hipótesis con la prueba de bondad de ajuste ji cuadrada: H0: pA= 0.40, pB= 0.40, pC= 0.20 H1: Las proporciones de la población no son pA= 0.40, pB= 0.40, pC= 0.20 Con una muestra de tamaño 200 se obtuvieron 60 en la categoría A, 120 en la B y 20 en la C. use α= 0.01 y pruebe si las proporciones son las que establece H0 Solución: Frecuencias reales: f1= 60 f2= 120 f3= 20 Frecuencias esperadas: e1= (200)(0.40)= 80 e2= (200)(0.40)= 80 e3= (200)(0.20)= 40
f e (60 80) 2
2 X i 1 k
i
i
e
i
80
2
2
2
(120 80) ( 20 80) 35 80 80
Grados de libertad= k-1= 3-1= 2 X20.01= 9.21034 Como 35 > 9.21034; Se rechaza la H0. Esto es, la proporción de población no es lo que dice H0. 2. Durante las primeras 13 semanas de la temporada de televisión, se registraron las audiencias de sábado por la noche, de 8:00 pm a 9:00 pm. Como sigue: ABC 29%, CBS 28%, NBC 25% y otros 18%. Dos semanas después, una muestra de 300 hogares arrojó los siguientes resultados de audiencia: ABC 95 hogares, CBS
33
70 hogares, NBC 89 hogares y otros 46 hogares. Pruebe con α= 0.05, si han cambiado las proporciones de telespectadores. Solución: H0: pABC= 0.29, pCBS= 0.28, pNBC= 0.25, pIND= 0.18 H1: Las proporciones de la población no son p ABC= 0.29, pCBS= 0.28, pNBC= 0.25, pIND= 0.18 Frecuencias reales: f1= 95 f2= 70 f3= 89 f4= 46 Frecuencias esperadas: e1= (300)(0.29)= 87 e2= (300)(0.28)= 84 e3= (300)(0.25)= 75 e4= (300)(0.18)= 54
f e (9587) 2
2 X i 1 k
i
i
e
i
87
2
2
2
2
(70 84) (89 75) ( 46 54) 6.87 84 75 54
Grados de libertad= k-1= 4-1= 3 X20.05= 7.81 Como 6.87 < 7.81; No se rechaza la H0. Esto es, no hay cambio significativo en las proporciones de los espectadores. Ejercicio. Suponga que hay una población multinomial con 4 categorías: A, B, C y D. La hipótesis nula es que la proporción de artículos es la misma en cada uno, o sea. H0: pA= pB= pC= pD= 0.25 H1: Las proporciones de la población no son pA= pB= pC= pD= 0.25 En una muestra de tamaño 300 se obtuvieron los siguientes resultados en cada categoría: A= 85, B= 95, C= 50, D= 70. Use α= 0.05 para determinar si hay que rechazar H0. Solución: Frecuencias reales: fA= 85 fB= 95 fC= 50 fD= 70 Frecuencias esperadas:
34
eA= eB= eC= eD= (300)(0.25)= 75
f e (85 75) 2
X i 1 2
k
i
i
e
i
75
2
2
2
2
(95 75) (50 75) (70 75) 15.33 75 75 75
Grados de libertad= k-1= 4-1= 3 X20.05= 7.81473 Como 15.33 > 7.81473; Se rechaza la H0. Resumen de la prueba de bondad de ajuste para la distribución de Poisson. 1. Plantear las hipótesis nula y alternativa. H0: La población tiene una distribución de probabilidad Poisson. H1: La población no tiene una distribución de probabilidad Poisson. 2. Tomar una muestra aleatoria y a) anotar las frecuencias observadas, f i, para cada valor de la variable aleatoria de Poisson. b) calcular la media del número de ocurrencias µ. 3. Calcular las frecuencias esperadas de ocurrencias, ei, para cada valor de la variable aleatoria de Poisson. Multiplicar el tamaño de la muestra mediante la probabilidad de Poisson de ocurrencia para cada valor de la variable aleatoria de Poisson. Si hay menos de 5 ocurrencias esperadas para ciertos valores, combinar esos valores con los adyacentes y reducir la cantidad de categorías que sea necesario.
f e
2
4. Calcular el valor del estadístico de prueba. X 2 i 1 k
i
i
e
i
5. Regla de rechazo: Con el estadístico de prueba: Rechazar H0 si x2 > xα2 Con el valor p: Rechazar H0 si el valor p < α Donde α es el nivel de significancia para la prueba, y los grados de libertad son k-2 Ejemplos: 1. En la tabla siguiente se presentan datos acerca del número de ocurrencias de un evento por período y las correspondientes frecuencias observadas. Use α= 0.05 y la prueba de bondad de ajuste para ver si los datos se ajustan a una distribución de Poisson. Cantidad ocurrencia 0 1 2 3 4 Total
de Frecuencia observada 39 30 30 18 3 120
35
Solución: (0)(39) (1)(30) (3)(18) (4)(3) 1.3 120
e Probabilidades de Poisson f ( x )
x
x!
1.3
0
(1.3) (e) 0.2725 0! 1 1.3 (1.3) (e) f (1) 0.3542 1! 2 1.3 (1.3) (e) f ( 2) 0.2302 2! 2 1.3 (1.3) (e) f (3) 0.0997 3! 2 1.3 (1.3) (e) f ( 4) 0.0324 4! f ( 0)
Frecuencias esperadas: e0= (0.2725)(120)= 32.7 e1= (0.3542)(120)= 42.504 e2= (0.2302)(120)= 27.624 e3= (0.0997)(120)= 11.964 e4= (0.0324)(120)= 3.888
f e (39 32.7) (30 42.504) (30 27.624) (18 11.964) (3 3.888) 2
2 X i1 k
i
e
i
8.344
2
2
2
2
2
i
32.7
42.504
27.624
11.964
3.888
Grados de libertad= k-2= 5-2= 3 X20.05= 7.81473 Como 8.344 > 7.81473; Se rechaza la H0. Esto es se llega a la conclusión de que los datos no tienen una distribución de probabilidad de de Poisson. 2. Se cree que el número de accidentes automovilístico diarios en determinada ciudad tiene una distribución de Poisson. En una muestra de 80 días del año pasado se obtuvieron los datos de la tabla adjunta. ¿Apoyan estos datos la hipótesis de que el número diario de accidentes tiene una distribución de Poisson? Use α= 0.05 Número accidentes 0
de Frecuencia observada 34
36
1 2 3 4 Total
25 11 7 3 80
Solución: (0)(34) (1)(25) (2)(11) (3)(7) (4)(3) 1 80
e Probabilidades de Poisson f ( x ) x
x!
1
0
(1) (e) 0.3678 0! 1 1 (1) (e) f (1) 0.3678 1! 2 1 (1) ( e) f ( 2) 0.1839 2! 3 1 (1) (e) f (3) 0.0613 3! 0 1 (1) ( e) f ( 4) 0.0153 4! f ( 0)
Frecuencias esperadas: e0= (0.3678)(80)= 29.424 e1= (0.3678)(80)= 29.424 e2= (0.1839)(80)= 14.712 e3= (0.0613)(80)= 4.904 e4= (0.0153)(80)= 1.2240
f e (34 29.424) 2
X i1 2
k
i
e
i
5.7859
2
i
29.424
( 25 29.424) (11 14.712) (7 4.904) (3 1.2240) 29.424 14.712 4.904 1.2240 2
2
2
2
Grados de libertad= k-2= 5-2= 3 X20.05= 7.81473 Como 5.7859 < 7.81473; No se rechaza la H0. Ejercicio. Suponga que el número de llamadas telefónicas que entran al conmutador de una empresa durante intervalos de un minuto tiene una distribución de Poisson. Use α=0.10 y los siguientes datos para probar la hipótesis de que las llamadas que entran tienen una distribución de Poisson. Número de Frecuencia llamadas observada 0 15
37
1 2 3 4 5 6 Total
31 20 15 13 4 2 100
Solución: (0)(15) (1)(31) (2)(20) (3)(15) (4)(13) (5)(4) (6)(2) 2 100
e f ( x) x
Probabilidades de Poisson:
x!
2
0
( 2) ( e) 0.135 0! 1 2 ( 2) (e) f (1) 0.270 1! 2 2 ( 2) (e) f ( 2) 0.270 2! 3 2 (2) ( e) f (3) 0.180 3! 4 2 ( 2) (e) f ( 4) 0.090 4! 5 2 (2) (e) f (5) 0.036 5! 6 2 ( 2) (e) f ( 6) 0.012 6! Frecuencias esperadas: e0= (0.135)(100)= 13.5 e1= (0.270)(100)= 27 e2= (0.270)(100)= 27 e3= (0.180)(100)= 18 e4= (0.090)(100)= 9 e5= (0.036)(100)= 3.6 e6= (0.012)(100)= 1.2 f ( 0)
f e (15 13.5) (31 27) (20 27) (15 18) (13 9) (4 3.6) (2 1.2) 2
X i1 2
k
i
e
i
5.429
2
2
2
2
2
2
2
i
13.5
27
27
Grados de libertad= k - 2= 7- 2= 5 X20.05=9.24
38
18
9
3.6
1.2
Como 5.429 < 9.24; No se rechaza la H0. 2.1.3 TABLAS DE CONTINGENCIA. En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa, nominales u ordinales. Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda que recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables, del siguiente modo: Diestro Zurdo TOTAL Hombre 43 9 52 Mujer 44 4 48 TOTAL 87 13 100 Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total. La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con el test Chi Cuadrado de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes. El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el 2 más simple es el coeficiente phi que se define por φ = √(χ / N) 2 donde χ se deriva del test de Pearson, y N es el total de observaciones -el gran total-. Φ puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia de otras medidas de asociación, el coeficiente Φ de Cramer no está acotado.
2.2 ANÁLISIS DE VARIANZA. En estadística, análisis de varianza (ANOVA, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados. El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El procedimiento para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la
39
media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones. 2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA). El procedimiento del análisis de varianza en una dirección se ocupa de la prueba para diferencias entre k medias muestrales cuando los sujetos son asignados de manera aleatoria a cada uno de los diferentes grupos de tratamiento. La ecuación lineal, o modelo, que representa el diseño completamente aleatorizado de un factor es: Xij= µ + αk + ik Dónde: Xij = Valor de la observación i para el tratamiento j µ= La media general de todas las k poblaciones en tratamiento αk= Efecto del tratamiento en el grupo k del cual se tomó la muestra ik= Error aleatorio debido al proceso de muestreo ( es la letra griega épsilon) En el análisis de varianza en una dirección, las hipótesis nula y alternativa se plantean como sigue: H0: µ1 = µ2 =… = µk H1: no todas las medias de población son iguales O lo que es equivalente H0: αk = 0 H1: αk ≠ 0 Las formulas de la media y la varianza del tratamiento j son las siguientes. nj nj 2 xij x x ij j 2 x j in1 j s j i1 n j 1
La media general de las muestras, representada por x , es la suma de todas las observaciones dividida entre el número total de observaciones. Esto es k
x
nj
x j 1 i 1
ij
nT Donde nT= n1 + n2 + … + nK Si el tamaño de cada muestra es n, nT = kn, en ese caso, la ecuación se reduce a k
x
nj
x j 1 i1
k
ij
x j 1
j
k nT En otras palabras, cuando los tamaños de las muestras son iguales, la media muestral general es justamente el promedio de las medias de las k muestras. nj= número de observaciones para el j-ésimo tratamiento ̅ Media de la muestra del j-ésimo tratamiento
40
S2j= Varianza de la muestra del j-ésimo tratamiento Sj= Desviación estándar de la muestra del j-ésimo tratamiento Cuadrado medio debido a tratamientos MSTR
Donde SSTR n j x j x k
j 1
SSTR k 1
2
SSTR= Suma de cuadrados debido a tratamientos Cuadrado medio debido al error MSE k
SSE nT k
Donde SSE n j 1 s j
2
j 1
SSE= Sumas de cuadrados debido al error Estadístico de prueba F
MSTR MSE
Regla de rechazo: con el estadístico de prueba: Rechazar H0 si F>Fα Grados de libertad k – 1 en el numerador y nT – k en el denominador Ejemplo. La empresa National Computer Products. INC fabrica impresoras y máquinas de fax en plantas de Atlanta, Dallas y Seattle, en Estados Unidos. Para evaluar los conocimientos de sus empleados acerca de la administración de la calidad total, se tomó una muestra aleatoria de seis empleados en cada planta y se les sometió a un examen de conciencia de la calidad. Las calificaciones de esos 18 empleados se presentan en la tabla siguiente. También se proporcionan las medias, varianzas y desviaciones estándar de las muestras para cada grupo, con estos datos los gerentes desean probar la hipótesis de que la media de la calificación del examen es igual para las tres plantas. Tabla: Calificaciones en el examen de 18 empleados Observación Planta Planta 1 2 Atlanta Dallas 1 85 71 2 75 75 3 82 73 4 76 74 5 71 69 6 85 82 Media de la muestra 79 74 Varianza de la muestra 34 20
41
Planta 3 Seattle 59 64 62 69 75 67 66 32
Desviación estándar de la muestra
5.83
4.47
Solución: H0: µ1 = µ2 = µ3 H1: no todas las medias de población son iguales nj
k
x
x j 1 i1
nT
k
ij
x j 1
j
k
79 74 66 73 3
SSTR n j x j x 6 (79 73)2 6 (74 73)2 6 (66 73)2 516 k
j 1
2
SSTR 516 258 k 1 2
MSTR O bien
x ij x j nj
2
2 2 2 (79 73) (74 73) (66 73) 86 43 31 2 nj 1 2= n Sj2 = (6)(43)=258
sj 2
i1
k
SSE n j 1s j (6 1)(34) (6 1)(20) (6 1)(32) 430 2
j 1
MSE
SSE 430 28.67 nT k 18 3
O bien Estimación de 2 dentro de tratamiento es
F
MSTR 258 9 MSE 28.67
Grados de libertad k – 1= 3 – 1 = 2 nT – k = 18 – 3 = 15 Valor de la tabla 3.68 Se rechaza la H0 por que 9 >3.68
42
34 20 32 28.67 3
5.66
Ejercicio. De tres poblaciones se toman muestras de cinco observaciones cada una. Los datos obtenidos son los siguientes: Observación
Muestra 1 32 30 30 26 32 30
Muestra 2 44 43 44 46 48 45
Muestra 3 33 36 35 36 40 36
1 2 3 4 5 Promedio de la muestra Varianza de la 6 4 6.5 muestra a) Calcule la estimación de 2 entre tratamientos b) Calcule la estimación de 2 dentro de tratamientos c) ¿Se puede rechazar la hipótesis nula de que las medias de las tres poblaciones son iguales? Explique por qué Solución: a) H0: µ1 = µ2 = µ3 H1: no todas las medias de población son iguales k
x
nj
x j 1 i1
nT
k
ij
x j 1
k
j
30 45 36 37 3
SSTR n j x j x 5 (30 37)2 5 (45 37)2 5 (36 37)2 570 k
j 1
2
SSTR 570 285 k 1 2
MSTR b) k
SSE n j 1s j (5 1)(6) (5 1)(4) (5 1)(6.5) 66 2
j 1
MSE
SSE 66 5.5 nT k 15 3
c)
F
MSTR 285 51.818 MSE 5.5
Grados de libertad k – 1= 3 – 1 = 2
43
nT – k = 15 – 3 = 12 Valor de la tabla 3.89 Se rechaza H0 por que 51.818 >3.89 2.2.2 INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES (ANOVA). PENDIENTE
2.3 PAQUETE COMPUTACIONAL. 2.1.1 PRUEBA DE INDEPENDENCIA.
Ejemplo. La siguiente tabla de contingencia de 2x3 contiene las frecuencias observadas en una muestra de 200. Pruebe la independencia entre las variables de renglón y de columna usando x2 con α= 0.025.
Variable de renglón P Q Total
Variable de columna A B C 20 44 50 30 26 30 50 70 80
Total
114 86 200
Solución: H0: La variable de columna es independiente de la variable de renglón. H1: La variable de columna no es independiente de la variable de renglón. (
ó
)(
)
Frecuencias esperadas
(114)(50) 28.5 200 (86)(50) e21 200 21.5
e
11
(114)(70) 39.9 200 (86)(70) e22 200 30.1
e
12
A P 28.5 Q 21.5
(114)(80) 45.6 200 (86)(80) e23 200 34.4
e
13
B C 39.9 45.6 30.1 34.4
f ij eij (20 28.5) (44 39.9) (50 45.6) (30 21.5) 2
2
X
2
i
j
e
28.5
ij
2
39.9
( 26 30.1) (30 34.4) 7.86 30.1 34.4 2
2
44
2
45.6
21.5
2
Grados de libertad= (n-1)(m-1)= (2-1)(3-1)= (1)(2)= 2 X20.025= 7.37776 Como 7.86 > 7.37776; Se rechaza la H0. Esto es, se llega a la conclusión de que la variable de columna no es independiente de la variable de renglón. Solución con el software: Abrir el software MINITAB y se teclean los datos de frecuencias observadas en las columnas correspondientes. Por ejemplo C1 C2 C3 Columna Columna Columna A B C 20 44 50 30 26 30 Después: Paso 1. Seleccione el menú desplegable Stat Paso 2. Seleccione el menú desplegable Tables Paso 3. Elija Chi-Square Test Paso 4. Cuando aparezca el cuadro de dialogo Chi-Square Test: Teclee C1-C3 en el cuadro Columns containing the table Seleccione OK El valor p es 0.020 con p < 0.025, se rechaza H0. Chi-Square Test: COLUMNA A, COLUMNA B, COLUMNA C Expected counts are printed below observed counts Chi-Square contributions are printed below expected counts COLUMNA A 20 28.50 2.535
COLUMNA B 44 39.90 0.421
COLUMNA C 50 45.60 0.425
Total 114
2
30 21.50 3.360
26 30.10 0.558
30 34.40 0.563
86
Total
50
70
80
200
1
Chi-Sq = 7.863, DF = 2, P-Value = 0.020 Como 0.020 < 0.05 Se rechaza la H0. 2.1.2 PRUEBA DE LA BONDAD DE AJUSTE. Ejemplos: 1. Pruebe las siguientes hipótesis con la prueba de bondad de ajuste ji cuadrada: H0: pA= 0.40, pB= 0.40, pC= 0.20
45
H1: Las proporciones de la población no son pA= 0.40, pB= 0.40, pC= 0.20 Con una muestra de tamaño 200 se obtuvieron 60 en la categoría A, 120 en la B y 20 en la C. use α= 0.01 y pruebe si las proporciones son las que establece H0 Solución: Frecuencias reales: f1= 60 f2= 120 f3= 20 Frecuencias esperadas: e1= (200)(0.40)= 80 e2= (200)(0.40)= 80 e3= (200)(0.20)= 40
f e (60 80) 2
X i 1 2
k
i
i
e
i
80
2
2
2
(120 80) ( 20 80) 35 80 80
Grados de libertad= k-1= 3-1= 2 X20.01= 9.21034 Como 35 > 9.21034; Se rechaza la H0. Esto es, la proporción de población no es lo que dice H0. Solución con el software: El usuario debe obtener las frecuencias observadas, calcular las frecuencias esperadas, y teclear tanto las frecuencias observadas como las esperadas en una hoja de cálculo MINITAB. La columna C1 se etiqueta como observada y contiene las frecuencias observadas. La columna C2 se identifica como esperadas y contiene las frecuencias esperadas: Por ejemplo C1 C2 Observada Esperada 60 80 120 80 20 40 Después: Paso 1. Seleccione el menú desplegable Calc Paso 2. Seleccione la opción Calculator Paso 3. Cuando aparezca el cuadro de dialogo calculator: Teclee ChiSquare en el cuadro Store result in variable Teclee Sum ((Observada-Esperada)**2/Esperada) en el cuadro Expression Seleccione OK Paso 4. Seleccione el menú desplegable Calc Paso 5. Seleccione Probability Distributions
46
Paso 6. Elija Chi-Square Paso 7. Cuando Aparezca el cuadro de diálogo Chi-Square Distribution Seleccione Cumulative Probability Teclee 2 en el cuadro Degrees of freedom Seleccione Input Column y teclee ChiSquare en el cuadro Teclee Cumprob en el cuadro Optional Storage Seleccione OK Paso 8. Seleccione el menú desplegable Calc Paso 9. Elija Calculator Cuando aparezca el cuadro de diálogo calculator: Teclee valor p en el cuadro Store results in variable Teclee 1-Cumprob en el cuadro Expression Seleccione OK El valor p es 0.020 con p < 0.05, se rechaza H0. Ejemplos: 1. En la tabla siguiente se presentan datos acerca del número de ocurrencias de un evento por período y las correspondientes frecuencias observadas. Use α= 0.05 y la prueba de bondad de ajuste para ver si los datos se ajustan a una distribución de Poisson. Cantidad ocurrencia 0 1 2 3 4 Total
de Frecuencia observada 39 30 30 18 3 120
Solución: (0)(39) (1)(30) (3)(18) (4)(3) 1.3 120
e Probabilidades de Poisson f ( x ) x
x!
0
1.3
(1.3) (e) 0.2725 0! 1 1.3 (1.3) (e) f (1) 0.3542 1! 2 1.3 (1.3) (e) f ( 2) 0.2302 2! 2 1.3 (1.3) (e) f (3) 0.0997 3! f ( 0)
47
1.3
2
(1.3) (e) f ( 4) 4!
0.0324
Frecuencias esperadas: e0= (0.2725)(120)= 32.7 e1= (0.3542)(120)= 42.504 e2= (0.2302)(120)= 27.624 e3= (0.0997)(120)= 11.964 e4= (0.0324)(120)= 3.888
f e (39 32.7) (30 42.504) (30 27.624) (18 11.964) (3 3.888) 2
X i1 2
k
i
e
i
8.344
2
2
2
2
2
i
32.7
42.504
27.624
11.964
3.888
Grados de libertad= k-2= 5-2= 3 X20.05= 7.81473 Como 8.344 > 7.81473; Se rechaza la H0. Esto es se llega a la conclusión de que los datos no tienen una distribución de probabilidad de de Poisson. Cantidad de ocurrencia Frec. Observada Media Poisson Frec. esperada ChiSquare 0 39 1.3 0.272532 32.7038 8.33424 1 30 0.354291 42.5149 2 30 0.230289 27.6347 3 18 0.099792 11.9750 4 3 0.032432 3.8918 2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA). Ejemplo. La empresa National Computer Products. INC fabrica impresoras y máquinas de fax en plantas de Atlanta, Dallas y Seattle, en Estados Unidos. Para evaluar los conocimientos de sus empleados acerca de la administración de la calidad total, se tomo una muestra aleatoria de seis empleados en cada planta y se les sometió a un examen de conciencia de la calidad. Las calificaciones de esos 18 empleados se presentan en la tabla siguiente. También se proporcionan las medias, varianzas y desviaciones estándar de las muestras para cada grupo, con estos datos los gerentes desean probar la hipótesis de que la media de la calificación del examen es igual para las tres plantas. Tabla: Calificaciones en el examen de 18 empleados Observación Planta Planta Planta 1 2 3 Atlanta Dallas Seattle 1 85 71 59 2 75 75 64 3 82 73 62 4 76 74 69 5 71 69 75
48
6 Media de la muestra Varianza de la muestra Desviación estándar de la muestra
85 79 34 5.83
82 74 20 4.47
Solución: H0: µ1 = µ2 = µ3 H1: no todas las medias de población son iguales nj
k
x
x j 1 i1
nT
k
ij
x j 1
j
k
79 74 66 73 3
SSTR n j x j x 6 (79 73)2 6 (74 73)2 6 (66 73)2 516 k
j 1
2
SSTR 516 258 k 1 2
MSTR O bien
x ij x j nj
2
2 2 2 (79 73) (74 73) (66 73) 86 43 sj nj 1 31 2 2= n Sj2 = (6)(43)=258 2
i1
k
SSE n j 1s j (6 1)(34) (6 1)(20) (6 1)(32) 430 2
j 1
MSE
SSE 430 28.67 nT k 18 3
O bien Estimación de 2 dentro de tratamiento es
F
MSTR 258 9 MSE 28.67
Grados de libertad k – 1= 3 – 1 = 2 nT – k = 18 – 3 = 15 Valor de la tabla 3.68
49
34 20 32 28.67 3
67 66 32 5.66
Se rechaza la H0 por que 9 >3.68 Solución con el software: Los datos de las muestras se registran por columnas separadas en una hoja de trabajo de MINITAB, después de capturar dichos datos siguen los siguientes pasos: Paso 1. Seleccione el menú desplegable Stat Paso 2. Seleccione ANOVA Paso 3. Seleccione Oneway (unstacked) Paso 4. Cuando aparezca el cuadro del dialogo Oneway Analysis of Variance: Teclee C1-C3 en el cuadro Responses (in separate columns) Seleccione Ok Atlanta 85 71 75 75 82 73 76 74 71 69 85 82
Dallas Seattle 59 64 62 69 75 67
One-way ANOVA: Atlanta, Dallas, Seattle Source Factor Error Total
DF 2 15 17
S = 5.354
SS 516.0 430.0 946.0
MS 258.0 28.7
R-Sq = 54.55%
F 9.00
P 0.003
R-Sq(adj) = 48.48% Individual 95% CIs For Mean Based
on Level ----+Atlanta ---) Dallas Seattle
N
Mean
StDev
Pooled StDev --------+---------+---------+-----
6
79.000
5.831
(-------*---
6 6
74.000 66.000
4.472 5.657
(------*-------) (-------*-------) --------+---------+---------+----66.0 72.0 78.0
84.0 Pooled StDev = 5.354 El valor p es 0.003 con p < 0.05, se rechaza H0.
50
51
52
53
ACTIVIDAD 1
Instituto Tecnológico Superior de Coatzacoalcos
DÍAZ
MAILY CAROLINA
Nombre del Alumno Apellido Paterno
Apellido Materno
Nombre(s)
ASIGNATURA:
ESTADÍSTICA II Nombre del Docente
CARRERA:
LÓPEZ
DE LOS SANTOS
EDUARDO
Apellido Paterno
Apellido Materno
Nombre(s)
ADMINISTRACIÓN
Semestre:
54
4º
Grupo:
“A”
INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES (ANOVA). Análisis para la varianza EL procedimiento de análisis de varianza, o ANOVA, utiliza una sola variable numérica medida en los elementos de la muestra para probar la hipótesis nula de igualdad de medias poblaciones. Esta variable puede ser de intervalo o de escala de razón. Esta variable algunas veces recibe el nombre de variable dependiente, en especial en programas de computadora que ejecutan ANOVA. La hipótesis nula que se prueba en el ANOVA es que la mayoría de las poblaciones que se estudian (al menos tres) tienen el mismo valor de la media para la variable dependiente. Las hipótesis nulas y alternativa en ANOVA son: H0: 1 = 2 = 3 =... = c H1: No todas las poblaciones tienen la misma media. En la prueba ANOVA, se reúne evidencia muestral de cada población bajo estudio y se usan estos datos para calcular un estadístico muestral. Después se consulta la distribución muestral apropiada para determinar si el estadístico muestral contradice la suposición de que la hipótesis nula es cierta. Si es así, se rechaza; de lo contrario no se rechaza. Hemos de recordar que en la prueba de varianza con dos poblaciones se calcula el coeficiente de las varianzas muéstrales y se verifica con arreglo a la distribución F. Este procedimiento también se usa en ANOVA para probar la hipótesis nula. Se supone que todas las poblaciones bajo estudio tienen la misma varianza, sin importar si sus medias son iguales. Es decir, ya sea que las poblaciones tengan medias iguales o distintas, la variabilidad de los elementos alrededor de su respectiva media es la misma. Si esta suposición es válida, entonces se puede probar la hipótesis nula de las medias poblacionales iguales usando la distribución F. Método dentro y método entre. El método dentro para estimar la varianza de las poblaciones produce una estimación válida, sea o no cierta la hipótesis nula. El método entre produce una estimación válida sólo si la hipótesis nula es cierta.
55
El paso final en ANOVA requiere el cálculo de un cociente con la estimación del método entre en el numerador y la estimación del método dentro en el denominador. Si la hipótesis nula de que las poblaciones tienen la misma media es cierta, esta razón consiste en dos estimaciones separadas de la misma varianza poblacional y, se puede obtener la distribución F si las medias poblacionales no son iguales. La estimación en el numerador estará inflada, y el resultado será un cociente muy grande. Al consultar la distribución F no es probable que un cociente tan grande haya sido obtenido de esta distribución, y la hipótesis nula será rechazada. La prueba de hipótesis en ANOVA es de una cola: un estadístico F grande llevará al rechazo de la hipótesis nula y un valor pequeño hará que no se rechace.
MÉTODO DENTRO
El método dentro de estimación de la varianza produce una estimación válida sin importar si la hipótesis nula de las medias poblacionales iguales es cierta. Esto se debe a que la variabilidad de los valores de la muestra se determina comparando cada elemento en los datos con la media muestral. Cada valor de la muestra obtenido de la población A se compara con la media muestral A; cada elemento obtenido de la población B se compara con la media muestral B, y así sucesivamente. La ecuación para calcular la estimación de la varianza con el método dentro es: ( xij - xj ) 2 ji Sw2 = ---------------------------c (n - 1) Dónde:
sw2 = Estimación de la varianza muestral con el método entre.
Xij = i-ésimo elemento de los datos de grupo j.
Xj = media del grupo j
C = número de grupos
N = número de elementos de la muestra en cada grupo.
El doble signo de suma en la ecuación, significa que primero deben sumarse los valores indicados por el signo de la derecha, y después sumar los valores
56
indicados por el de la izquierda. Primero, se encuentran las diferencias entre cada valor x y la media del grupo, se elevan al cuadrado y se suman. Después, se agregan estas sumas para cada grupo. El resultado es la suma del cuadrado de las desviaciones entre cada medida de la muestra y la media de su grupo. Este valor con frecuencia se llama la suma de cuadrados dentro (SCw). Esta suma se divide después entre el número adecuado de grados de libertad para poder producir una estimación de la varianza desconocida de la población. El número adecuado de grados de libertad para el método dentro se calcula como c(n-1) si el número de observaciones en cada grupo es igual. Como a cada elemento del grupo se le resta la media de ese grupo, sólo (n-1) elementos de cada grupo pueden variar. Además como se tienen c grupos, c se multiplica por (n-1) para obtener los grados de libertad para el método dentro. EJEMPLO 1.- Se obtienen muestras del peso del llenado de cuatro paquetes de espinacas congeladas, a partir de tres contenedores. La preguntas es si los pesos promedio de los paquetes son iguales o diferentes entre los tres contenedores. Seguidamente se ofrecen los pesos de la muestra (en onzas), medias de grupos, media global y estimación de la varianza con el método dentro usando la ecuación correspondiente. GRUPO 1 GRUPO 2 GRUPO 3 12,4 11,9 10,3 13,7 9,3 12,4 11,5 12,1 11,9 10,3 10,6 10,2 Media 12,00 11,00 11,2 Media Global 11,4
(xi - x1)2 = (12,4 - 12)2 + (13,7 - 12)2 + (11,5 - 12)2 + (10,3 - 12)2 =
6,19
(xi - x2)2 = (11,9 - 11)2 + (9,3 - 11)2 + (12,1 - 11)2 + (10,6 - 11)2 =
5,07
57
(xi - x3)2 = (10,3 - 11,2)2 + (12,4 - 11,2)2 + (11,9 - 11,2)2 + (10,2 - 11,2)2 = 3,74
(xIJ - xJ)2 6,19 + 5,07 + 3,74 15 SW2= ------------------ = ---------------------------- = -------- = 1,67 c(n-1) 3(4-1) 9 Cada valor x en la muestra se compara con la media de su propio Grupo. Estas diferencias se elevan al cuadrado y se suman de acuerdo con la ecuación anteriormente descrita. Los valores que resultan se suman y se dividen entre los grados de libertad. El resultado, 1,67, es una estimación de la varianza común de las tres poblaciones. Con frecuencia el término SW2 se denomina error cuadrático medio (MSE). La razón por la que el método dentro produce una estimación válida de la varianza desconocida de la población, sin importar el estado de H0.
TABLA ANOVA
Los resultados del análisis de varianza se presentan en una tabla ANOVA que resume los valores importantes de la prueba. Esta tabla tiene un formato estándar que usan los libros y los problemas de computadora que ejecutan ANOVA. La siguiente tabla muestra la forma general de la tabla ANOVA. En dicha tabla se resumen los cálculos necesarios para la prueba de igualdad de las medias poblacionales usando análisis de varianza. Primero se usa el método dentro para estimar 2 .Cada valor de los datos se compara con su propia media, y la suma de las diferencias al cuadrado se divide entre los grados de libertad c(n1). Fuente Variación
de
Grupos Entre Grupos Dentro
SC
GL
Estimación 2
n ( xj - x ) 2
c–1
SSb / glb
( xij - xj ) 2
c(n-1)
SSb / glb
58
de Coeficiente F S SSb2 / Sw2
Total
( xij - x ) 2
nc -1
Dónde:
j = Número de la columna
i = Número de la fila
c = Número de columnas (grupos)
n = Número de elementos en cada grupo (tamaño de la muestra)
La tabla ANOVA contiene columnas con las fuentes de variación, las sumas de cuadrados, los grados de libertad, las estimaciones de la varianza y el valor F para el procedimiento de análisis de varianza. EJEMPLO Se pide a cuatro personas que beben una marca determinada de café que registren el número de tazas que consumen durante un día. Se hace lo mismo con bebedores de otras marcas. Los resultados se muestran a continuación. Construya la tabla ANOVA para probar si existe alguna diferencia en el número promedio de tazas consumidas, para cada marca. Marca A Marca B Marca C Marca D ------------------------------------------------------------------------------------------3523 2 1 10 6 5454 6673 --------------------------------------------------------------------------------------------4463 Media global 4.25 n=4 c=4
59
MÉTODO DENTRO
Marca A (3 - 4)2 + (2 - 4)2 + (5 - 4)2 + (6 - 4)2 = 10
Marca B (5 - 4)2 + (1 - 4)2 + (5 - 4)2 + (6 - 4)2 = 17
Marca C (2 - 6)2 + (10 - 6)2 + (5 - 6)2 + (7 - 6)2 = 34
Marca D (3 - 3)2 + (6 - 3)2 + (4 - 3)2 + (5 - 3)2 = 14
METODO ENTRE (4 - 4,25)2 + (4 - 4,25)2 + (6 - 4,25)2 + (3 - 4,25)2 = 6,75 TABLA ANOVA Fuente de Variación SC GL Estimación 2 Coeficiente F ---------------------------------------------------------------------------------------------------------Método 6,75 3 6,75 / 3 2,25 / 6,25 = 0,36 Entre Método 75 12 75 / 12 Dentro TOTAL 81,75 15 ANALISIS DE LA VARIANZA CON DOS CRITERIOS DE CLASIFICACIÓN Anova con dos criterios En ocasiones, es deseable identificar dos causas posibles para las diferencias en la variable dependiente. Si es el caso, se lleva a cabo un programa ANOVA con dos criterios de clasificación, donde se identifican dos causas posibles para la variabilidad de la variable dependiente. Se toman al azar dos muestras de la población de interés y se usan los resultados maestrales para probar la hipótesis nula relevante. EJEMPLO Hace un par de ejemplos, el analista intentó determinar si había alguna diferencia en el promedio en dólares por compra entre tres tiendas. ¿Qué ocurre si también
60
quiere determinar si existe alguna diferencia en el promedio de compra debida a los efectos de dos campañas distintas de publicidad? Los datos de la tabla número 1 del ejemplo del que estamos tratando se vuelven a disponer de manera que se puedan examinar usando dos criterios de clasificación para el análisis de varianza. Hay tres grupos en el factor 1 (tiendas) y dos grupos en el factor 2 (campañas de publicidad). Se tomó una muestra de tres elementos (n=3) y se tomaron medidas para cada una de las seis celdas de la tabla (3 *2 = 6). Tabla número 5 Datos maestrales (dólares) de ANOVA para el ejemplo. Campaña de Publicidad TIENDA 1 TIENDA 2 TIENDA 3 MEDIAS ---------------------------------------------------------------------------------------------------------12,05 15,17 9,48 A (16,87) 23,94 (17,75) 18,52 (8,96) 6,92 14,53 14,63 19,57 10,47 25,78 21,4 7,63 B (20,58) 17,52 (18,52) 13,59 (8,48) 11,90 15,86 18,45 20,57 5,92 ---------------------------------------------------------------------------------------------------------MEDIAS 18,73 18,14 8,72 15,20 Media global 15,20 r = 2 c=3 n=3
Media tienda 1 18,73
Media tienda 2 18,14
Media tienda 3 8,72
Media campaña A 14,53
Media campaña B 15,86
Media tienda 1 y campaña A 16,87
Media tienda 2 y campaña A 17,75
61
Media tienda 3 y campaña A 8,96
Media tienda 1 y campaña B 20,58
Media tienda 2 y campaña B 18,52
Media tienda 3 y campaña B 8,48 APLICACIONES DE CONCEPTO ESTADÍSTICO AL MUNDO DE LOS NEGOCIOS
Existen muchas aplicaciones de las técnicas de ANOVA presentadas a lo largo de este tema que son importantes para el mundo de los negocios. Cuando el valor promedio de alguna variable se compara con tres o más poblaciones, las conclusiones que resultan de un estudio de ANOVA pueden ser muy útiles para el administrador. Con frecuencia se modifican las variables de producción para determinar que combinación lleva al proceso de manufactura óptimo. EJERCICIOS Numero 1.- Prueba de varianza con una población. Los instrumentos científicos de medición como el altímetro de un avión, deben proporcional lecturas correctas y con errores de medición muy pequeños. El gerente de producción está preocupado por el índice de variación en las lecturas producidas por los altímetros de su compañía. Los altímetros están diseñados para tener una desviación estándar de 200 pies. El gerente decide probar si la variabilidad de estos instrumentos es mayor que 200 pies. Selecciona una muestra de siete altímetros y calcula una desviación estándar de 250 pies.
pies. sis nula y alternativa son: H0 :
2 <40,000 menor e igual
H1:
2 > 40,000 mayor o igual -1) = (7 - 1 ) = 6
62
Si 2 > 12,59, se rechaza la hipótesis nula de que la varianza de la población es 40,000 (se rechaza H0 si 2 > 12,59). (n-1)s2 (7 - 1 )(250)2 2 = ------------------ = ----------------------- = 9,375 2 2002 Como el estadístico de prueba calculado (9,375) es menor al valor crítico de la tabla (12,59), la hipótesis nula no se puede rechazar a un nivel de significancia de 0,05. No existe suficiente evidencia muestral para concluir que la desviación estándar poblacional es más de 200 pies. Número 2.- Prueba de varianza con dos poblaciones. Carla Mitchell, analista de los laboratorios Abbott, un fabricante nacional de medicamentos, está preocupada por la calidad de uno de sus productos. Abbott compra el material para fabricar este producto a dos proveedores. El nivel de defectos en la materia prima es aproximadamente el mismo entre los dos proveedores, pero Carla está preocupada por la variabilidad que existe de un embarque a otro. Si el nivel de defectos tiende a variar en forma excesiva para uno proveedor, puede afectar la calidad del medicamento. Para comparar la variación relativa de los dos proveedores, Carla selecciona 11 embarques de cada uno y mide los porcentajes de defectos en la materia prima, junto con la desviación estándar. Los resultados son: S1 = 0,61 n1= 11 (proveedor 1) S2= 0,29 n2= 11 (proveedor 2)
es mayor que para el proveedor 2.
H0:
12 -
22 < 0
63
H1:
12 -
22 > 0
-1 ) = (11 - 1) = 10 gl2 = (n2 - 1) = (11 - 1) = 10 F es 2,97. La regla de decisión es Si el cociente F calculado es mayor que 2,97, se rechaza H0 (se rechaza H0 si F > 2,97) S12 (0.61)2 ----- = -------- = 4.42 S22 (0.29)2 Una de las varianzas muestras es 4,42 veces la otra. La hipótesis nula se rechaza porque el estadístico (2,97). Carla debe concluir que la variabilidad en los niveles de defectos de los embarques para el proveedor 1 es mayor que para los del proveedor 2. Número 3.- Análisis de la varianza con un criterio de clasificación. La dueña de la corporación LUZ COLOR decide reemplazar varias pinturas de aerosol. Después de investigar la situación, concluye que 4 marcas parecen comparables en términos de coste y vida útil proyectada, ella determina que el factor decisivo entre las cuatro marcas es la cantidad de pintura que se usa en la operación normal. Mide entonces el espesor de la pintura, en milímetros, para varias pruebas, con los siguientes resultados. AEROSOL 1
AEROSOL 2
AEROSOL 3
AEROSOL 4
5,4
6,1
8,2
7,2
5,9
5,9
8,5
6,5
6,2
6,3
6,9
6,8
7,0
6,5
9,4
7,1
5,1
7,2
7,9
7,4
64
MEDIA =
5,5
6,9
8,6
6,7
5,85
648
8,25
6,95
Media Global = x = 6.88
significancia.
H0:
1
=
3=
2
=
4
H1: No todas las poblaciones tienen la misma media. - 1) = 4(6 - 1) = 20 gl2 = (c - 1) = (4 -1) = 3 F para la columna 3 y la fila 20. Para un nivel de significacia de 0,01 este valor crítico es 4,94. La regla de decisión es: Si el cociente F calculado es mayor que 4,94, se rechaza la hipótesis nula ( se rechaza H0 si F > 4,94)
Fuente de variación SC
Estimación Gl
Grupos entre
18,61
3
6,203
Grupos dentro
7,57
20
0,379
de Cociente 2 F
16,37
65
Total
26,18
23
Las sumas de cuadrados en esta tabla son: (5,4 - 5,85)2 + (5,9 - 5,85)2 + (6,2 -5,85)2 + (7,0 - 5,85)2 + (5,1 - 5,85)2 + (5,5 -5,85)2 + (6,1 - 6,48)2 + (5,9 - 6,48)2 + (6,3 -6,48)2 + (6,5 - 6,48)2 + (7,2 - 6,48)2 + (6,9 -6,48)2 + (8,2 - 8,25)2 + (8,5 - 8,25)2 + (6,9 -8,25)2 + (9,4 - 8,25)2 + (7,9 - 8,25)2 + (8,6 -8,25)2 + (7,2 - 6,95)2 + (6,5 - 6,95)2 + (6,8 -6,95)2 + (7,1 - 6,95)2 + (7,4 - 6,95)2 + (6,7 -6,95)2 + SCn = 7,57 (5,85 - 6,88)2 + (6,48 - 6,88)2 + (8,25 -6,88)2 + (6,95 - 6,88)2 = 3,1 SCb = 6(3,1) = 18,6 Sb2/glb (18,6/3) 6,2 F = ------------ = ----------------- = ---------- = 16,36 Sn2 /glw (7,57/20) 0,379 La hipótesis nula se rechaza ya que el estadístico de prueba (16,36) es mayor que el valor crítico (4,94). La conclusión es que el espesor de la pintura difiere entre todas estas cuatro marcas de aerosol.
Fuente de información http://html.rincondelvago.com/analisis-de-la-varianza_1.html
66
ACTIVIDAD 2 FINALIDAD DE LOS TEMAS DE LA UNIDAD
67
ACTIVIDAD 3
68
69
ACTIVIDAD 4
70
71
72
73
ANÁLISIS DE REGRESIÓN, CORRELACIÓN LINEAL SIMPLE Y MÚLTIPLE 3.1 ESTIMACIÓN MEDIANTE LA LÍNEA DE REGRESIÓN. Muchas veces las decisiones gerenciales se basan en la relación entre dos o más variables. Por ejemplo, después de revisar la relación entre los gastos de publicidad y las ventas, un gerente de mercadotecnia podría tratar de predecir las ventas para determinado nivel de gastos de publicidad. En otro caso, una empresa de electricidad podría usar la relación entre la temperatura máxima diaria y la demanda de electricidad para predecir el consumo de energía con base en las temperaturas máximas pronosticadas para el mes siguiente. A veces, un administrador confía en su intuición para juzgar como se relacionan dos variables. Sin embargo, si se pueden obtener datos, y si se puede emplear un procedimiento estadístico llamado análisis de regresión para plantear una ecuación que muestre cómo dependen las variables entre sí, sería mejor. En la terminología de la regresión, la variable que se va a predecir se llama variable dependiente. La o las variables que se usan para predecir el valor de la variable dependiente se llaman variables independientes. Por ejemplo, para analizar el efecto de gastos de publicidad sobre las ventas, el deseo de un gerente de mercadotecnia, de predecir las ventas, nos sugiere que “ventas” sea la variable dependiente. Los gastos de publicidad serían la variable independiente que se usa para poder predecir las ventas. En notación estadística, “y” representa la variable dependiente y “x” la variable independiente. El principal objetivo del análisis de regresión es estimar el valor de una variable aleatoria. En esta unidad se describirán el tipo más sencillo de análisis de regresión, donde intervienen una variable independiente y una variable dependiente, y la relación entre ellas se aproxima mediante una línea recta. A esto se le llama regresión lineal simple. El análisis de regresión donde intervienen dos o más variables independientes se llama análisis de regresión múltiple. 3.1.1 DIAGRAMA DE DISPERSIÓN.
El diagrama de dispersión permite observar gráficamente los datos y hacer conclusiones preliminares acerca de la relación posible entre las variables. Un diagrama de dispersión es una gráfica en la que se traza cada uno de los puntos que representan un par de valores observados para las variables dependiente e independiente. El valor de la variable independiente se grafica con respecto al eje horizontal, y el valor de la variable dependiente se traza con respecto al eje vertical.
74
Los diagramas de dispersión o gráficos de correlación permiten estudiar la relación entre 2 variables. Dadas 2 variables X e Y, se dice que existe una correlación entre ambas si cada vez que aumenta el valor de X aumenta proporcionalmente el valor de Y (Correlación positiva) o si cada vez que aumenta el valor de X disminuye en igual proporción el valor de Y (Correlación negativa). En un gráfico de correlación representamos cada par X, Y como un punto donde se cortan las coordenadas de X e Y.
a) Relación lineal directa (fuerte) (fuerte)
c) Relación lineal directa (débil)
b) Relación lineal inversa
d) Relación nula (sin relación)
d) Relación exponencial
e) Relación compleja
75
3.1.2 MÉTODO DE MÍNIMOS CUADRADOS. El método de mínimos cuadrados es un procedimiento para encontrar la ecuación de regresión estimada usando datos de una muestra. En el método de los mínimos cuadrados se emplean los datos de la muestra para determinar los valores de b0 y b1 que minimizan la suma de los cuadrados de las desviaciones entre los valores observados de la variable independiente “xi”, y los valores estimados de la variable dependiente “yi”. ̅̅ ̅
∑ ∑ ̅
̅
̂ Donde: b1= Pendiente de la línea de regresión estimada b0= Ordenada al origen de la línea de regresión estimada ̂ = Ecuación de regresión X= Valor de la variable independiente Y= Valor de la variable dependiente n= Número total de observaciones ̅ = Valor medio de la variable independiente ̅ = Valor medio de la variable dependiente Ejemplo. La tabla siguiente presenta datos muestrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. Determine: a) La grafica de dispersión. b) La ecuación de regresión por mínimos cuadrados. c) Estime la calificación de un estudiante que le dedico 30 horas al estudio de la materia. Estudiante muestreado 1 2 3 4 5 6 7 8 Total
Horas de estudio X 20 16 34 23 27 32 18 22 192
76
Calif. en el exam. Y
XY
X2
64 61 84 70 88 92 72 77 608
1280 976 2856 1610 2376 2944 1296 1694 15032
400 256 1156 529 729 1024 324 484 4902
Solución: a) ∑
b) ̅ ̅
∑
∑
̅̅
∑
̅
̅
( )(
)(
( )(
̅
(
) )
)(
)
̂ c)
̂
(
)(
)
Ejercicio. La tabla siguiente da en pulgadas las respectivas alturas “X” e “Y” de una muestra de 12 padres y sus hijos mayores. Determine: a) La grafica de dispersión. b) La ecuación de regresión por mínimos cuadrados. c) Estime la altura de un hijo si el padre mide 75 pulgadas. Altura del padre X 65 63 67 64 68 62 70 66 68 67 69 71 X= 800
Altura del hijo Y 68 66 68 65 69 66 68 65 71 67 68 70 Y=811
Solución: a)
b) ̅
∑
77
XY
X2
4420 4225 4158 3969 4556 4489 4160 4096 4692 4624 4092 3844 4760 4900 4290 4356 4828 4624 4489 4489 4692 4761 4970 5041 2 XY=54107 X =53418
∑
̅
∑
̅̅
∑
̅
̅
(
)( (
̅
(
)(
)
)((
)(
) )
)
̂ c)
̂
(
)(
)
3.1.3 INTERPRETACIÓN DEL ERROR ESTÁNDAR DE LA ESTIMACIÓN.
El error estándar del estimador es la desviación estándar condicional de la variable dependiente “Y”, dado un valor de la variable independiente “X”. Para datos poblacionales, el error estándar del estimador se representa mediante el símbolo Y,X. la fórmula de desviaciones que permite estimar este valor con base en datos muéstrales es: ∑(
√
̂)
∑
√
∑
∑
Ejemplo. La tabla siguiente presenta datos muéstrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. Determine, el error estándar del estimador. Estudiante Horas de Calif. en XY X2 Y2 muestreado estudio el (X) exam. (Y) 1 20 64 1280 400 4096 2 16 61 976 256 3721 3 34 84 2856 1156 7056 4 23 70 1610 529 4900 5 27 88 2376 729 7744 6 32 92 2944 1024 8464 7 18 72 1296 324 5184 8 22 77 1694 484 5929 Total 192 608 15032 4902 47094 Solución:
78
√∑(
̂)
√
∑
∑ (
√
)(
∑ )
(
)(
)
√ Ejercicio. La tabla siguiente da en pulgadas las respectivas alturas “X” e “Y” de una muestra de 12 padres y sus hijos mayores. Determine, el error estándar del estimador. Altura del padre (X) 65 63 67 64 68 62 70 66 68 67 69 71 X= 800
Altura del hijo (Y) 68 66 68 65 69 66 68 65 71 67 68 70 Y=811
X2
XY
Y2
4420 4225 4624 4158 3969 4356 4556 4489 4624 4160 4096 4225 4692 4624 4761 4092 3844 4356 4760 4900 4624 4290 4356 4225 4828 4624 5041 4489 4489 4489 4692 4761 4624 4970 5041 4900 XY=54107 X2=53418 Y2=54849
Solución: √∑(
̂)
√
√
∑
∑
)(
(
∑
)
(
)(
√
3.1.4 INTERVALOS DE PREDICCIÓN APROXIMADOS.
79
)
En contraste con los intervalos de confianza, que son estimaciones de parámetros de poblaciones, en un intervalo de predicción se estima un valor individual y es, por lo tanto, un intervalo de probabilidad. Podría parecer posible construir un intervalo de predicción utilizando el error estándar del estimador que se definió en el tema anterior. Sin embargo, ese intervalo estaría incompleto, porque el error estándar del estimador no incluye la incertidumbre asociada con el hecho de que la línea de regresión basada en datos muéstrales incluye también error muestral y, por lo general no es idéntica a la línea de regresión para la población. El error estándar completo para un intervalo de predicción se denomina error estándar del pronóstico, e incluye la incertidumbre asociado con la dispersión vertical con respecto a la línea de regresión y además la incertidumbre asociada con la posición del valor mismo en la línea de regresión. La fórmula básica para el error estándar del pronóstico es.
(
(
√
)
√
̅
∑
[
̅) (∑ )
]
Finalmente, el intervalo de predicción para un valor individual de la variable dependiente, utilizando n-2 grados de libertad, es ̂ ( ) Ejemplo. Determine, el intervalo de predicción del 95% para las calificaciones en la materia de estadística, si le dedica 30 hrs. al estudio de la materia. (De acuerdo al ejemplo). Solución: ( (
)
√
∑
[
̅) (∑ )
( √
]
√
) [
(
)
]
√ ̂
gl= n-2= 8-2= 6 (
)
85 (2.447)(6.854) 85 16.771 (68.229, 101.771) Ejercicio. Determine, el intervalo de predicción del 95% para las alturas de los hijos mayores, si el padre mide 75 pulgadas. (De acuerdo al ejercicio). Solución:
80
( (
)
√
∑
[
̅) (∑ )
(
√ ]
) [
√
(
)
]
√
̂
gl= n-2= 12-2= 10 (
)
71.5 (2.228)(1.935) 71.5 4.311 (67.189, 75.811) 3.1.5 ANÁLISIS DE CORRELACIÓN.
Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en determinar qué tan intensa es la relación entre dos variables. El coeficiente de Correlación, describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo. El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables. Para propósitos de cálculo resulta conveniente la siguiente fórmula para el coeficiente de determinación muestral. ̅ ∑ ∑ ̅ ∑ √
El coeficiente de correlación muestral es: O bien
∑ √ ∑
∑
∑
(∑ ) √ ∑
(∑ )
Ejemplo. Determine, la correlación de los datos. (De acuerdo al ejemplo). Solución:
81
∑
̅
∑
(
)(
(
)(
(∑ ) ) (
)(
̅
∑
√ O bien
∑ √ ∑
) ( )( ( )( )
)
√
∑
∑
(∑ ) √ ∑ ( )( √( )(
)
)
) √( )(
( (
√
√
)
)
)(
(
)
)
Ejercicio. Determine el coeficiente de correlación. (De acuerdo al ejercicio). Solución: ∑ ∑
)(
(
̅
∑
)(
(
̅
(
√ O bien
∑ √ ∑
∑
)(
) )(
(
)(
)
)
√ ∑
(∑ ) √ ∑ ( √(
√
)
)(
(∑ )
)
(
) √(
( (
√
)
)(
)
)(
)(
)
(
)
)
3.1.6 PAQUETE COMPUTACIONAL PARA LA SOLUCIÓN DE PROBLEMAS.
Ejemplo. La tabla siguiente presenta datos muéstrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres
82
semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. Determine: a) La grafica de dispersión. b) La ecuación de regresión por mínimos cuadrados. c) Estime la calificación de un estudiante que dedico 30 horas al estudio de la materia. d) Determine el error estándar del estimador. e) Determine, el intervalo de predicción del 95% para las calificaciones en la materia de estadística, si le dedica 30 hrs. al estudio de la materia. f) Determine el coeficiente de correlación. Estudiante muestreado 1 2 3 4 5 6 7 8 Total
Horas de estudio X 20 16 34 23 27 32 18 22 192
Calif. en el exam. Y
XY
X2
Y2
64 61 84 70 88 92 72 77 608
1280 976 2856 1610 2376 2944 1296 1694 15032
400 256 1156 529 729 1024 324 484 4902
4096 3721 7056 4900 7744 8464 5184 5929 47094
Solución: a) b) ̂ c) ̂ d) e) ( ) gl= n-2= 8-2= 6 ̂ ( ) (68.229, 101.771) f) √ O bien
Solución con el software. 1. Habra Minitab, en la celda C1, escriba horas de estudios o “x” y en la columna C2, escriba calificación en el examen o “Y” 2. Haga clic en StatRegressionRegresion 3. En la caja de dialogo, Responce ingrese C2; en Predictors ingrese C1. Haga clic en Options.
83
4. En la caja de dialogo en Prediction intervals for new observations ingrese 30. Haga clic en Ok. 5. De regreso en la caja de dialogo original, haga clic en Ok. Para graficar, haga clic en StatRegressionRegresionGraphs, seleccione el tipo de gráfica y haga clic en Ok y otra vez Ok. Regression Analysis: y versus x a) Residual Plots for y Residuals Versus the Fitted Values
99
8
90
4
Residual
Percent
Normal Probability Plot of the Residuals
50 10 1
-10
-5
0 Residual
5
0 -4 -8
10
Histogram of the Residuals
70
80 Fitted Value
90
Residuals Versus the Order of the Data 8
3
4
Residual
Frequency
60
2 1 0
-6
-4
-2
0 2 Residual
4
6
0 -4 -8
8
1
2
3 4 5 6 Observation Order
7
8
The regression equation is b)y = 40.1 + 1.50 x Predictor
Coef
SE Coef
T
P
Constant
40.082
8.890
4.51
0.004
x
1.4966
0.3591
4.17
0.006
d) S = 6.15761 70.0%
f)coef. De determ R-Sq = 74.3%
R-Sq(adj) =
Analysis of Variance Source
DF
SS
MS
F
P
Regression
1
658.50
658.50
17.37
0.006
Residual Error
6
227.50
37.92
Total
7
886.00
Predicted Values for New Observations New
84
Obs 1
Fit
SE Fit
c)84.98
3.06
95% CI (77.48, 92.47)
95% PI e)(68.15, 101.81)
Values of Predictors for New Observations New Obs
x
1 30.0 3.1.7 REGRESIÓN MÚLTIPLE Y ANÁLISIS DE CORRELACIÓN.
Es una extensión del análisis de regresión simple para aplicaciones en las que se usan dos o más variables independientes (predictores) para estimar el valor de la variable dependiente (variable de respuesta). El uso de más variables permite aumentar la precisión de la estimación. La principal ventaja de la regresión múltiple es que nos permite utilizar más información disponible para estimar la variable dependiente. En algunas ocasiones, la correlación entre dos variables puede resultar insuficiente para determinar una ecuación de estimación confiable, sin embargo, si agregamos los datos de más variables independientes, podemos determinar una ecuación de estimación que describa la relación con mayor precisión. La regresión múltiple y el análisis de correlación implican un proceso de tres pasos como el que usamos en la regresión simple. En este proceso: 1. Describimos la ecuación de regresión múltiple; 2. Examinamos el error estándar de regresión múltiple de la estimación; y 3. Utilizamos el análisis de correlación múltiple para determinar qué también la ecuación de regresión describe los datos observados. La regresión múltiple nos permitirá también ajustar tanto curvas como rectas. Usando las técnicas de variables ficticias. Las variables ficticias y las curvas de ajuste son solamente dos de las muchas técnicas de modelado que se pueden utilizar en la regresión múltiple para aumentar la precisión de nuestras ecuaciones de estimación. Ecuación de estimación que describe la relación entre tres variables ̂ Dónde: ̂ = Valor estimado correspondiente a la variable dependiente. a= Ordenada Y X1, X2= Valores de las dos variables independientes. b1 y b2= Pendientes asociadas con X1 y X2 respectivamente. Ecuaciones normales:
85
na b1 X 1 b2 X 2 Y a X 1 b1 X 12 b2 X 1 X 2 X 1Y a X 2 b1 X 1 X 2 b2 X 22 X 2Y Ejemplo. Determine la ecuación de regresión por mínimo cuadrados de acuerdo con los siguientes datos. X1 X2 Y X1Y X2Y X1X2 X12 X22 30 12 94 47 10 108 25 17 112 51 16 178 40 5 94 51 19 175 74 7 170 36 12 117 59 13 142 76 16 211 489 127 1401 73665 18571 6173 26565 1793 Solución: na b1 X 1 b2 X 2 Y a X 1 b1 X 12 b2 X 1 X 2 X 1Y
a X 2 b1 X 1 X 2 b2 X 22 X 2Y 10 a + 489 b1 + 127 b2 = 1 401 489 a + 26 565 b1 + 6 173 b2 = 73 665 127 a + 6 173 b1 + 1 793 b2 = 18 571
87505739 18.368 4763960 9576442 2.01 b1 2 4763960 ? 4.737 b2 3 4763960 a
1
̂ ̂ Ejemplo. Determine la ecuación de regresión por mínimo cuadrados de acuerdo con los siguientes datos. X1 X2 Y X1Y X2Y X1X2 X12 X22 45 16 29
86
42 44 45 43 46 44 45 44 43 441
14 15 13 13 14 16 16 15 15 147
24 27 25 26 28 30 28 28 27 272
12 005
4 013
6 485
19 461
2 173
Solución: na X 1 b1 X 2 b2 Y X 1 a X 12 b1 X 1 X 2 b2 X 1Y
X 2a X 1 X 2 b1 X 22 b2 X 2Y 10 a + 441 b1 + 147 b2 = 272 441 a + 19 461 b1 + 6 485 b2 = 12 005 147 a + 6 485 b1 + 2 173 b2 = 4 013
? 13.828 ? ? b1 2 0.564 ? ? b2 3 1.099 ? a
1
̂ ̂ 3.1.8 USOS DE VARIABLES FICTICIAS. 3.1.9 RESIDUALES Y GRÁFICAS DE RESIDUALES. 3.1.10 INTERPRETACIÓN DEL INTERVALO DE CONFIANZA. 3.1.11 USO DEL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE. 3.1.12 PAQUETE COMPUTACIONAL PARA LA SOLUCIÓN DE PROBLEMAS. 1) Abra minitab. En la celda C1 escriba “Y”. En la celda C2 escriba “X1”. En la celda C3 escriba “X2”. Ingrese los datos en las columnas respectivas. 2) Haga clic en StatRegressionRegression 3) En la caja de dialogo, en response ingrese: C1.En predictors ingrese: C2-C3. Haga clic en Graphs. 4) En la caja de dialogo para graphs, verifique residuals versus fits. Haga clic en Ok. 5) De regreso en la caja de dialogo original, haga clic en Ok.
87
88
89
ACTIVIDAD 1
90
ACTIVIDAD 2
91
ACTIVIDAD 3 DIAGRAMAS DE DISPERSIÓN
EJERCICIO #1. La tabla siguiente presenta datos muéstrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. . Determine: d) La grafica de dispersión. e) La ecuación de regresión por mínimos cuadrados. f) Estime la calificación de un estudiante que le dedico 30 horas al estudio de la materia.
Diagrama de Dispersión 100 y = 1.4966x + 40.082 R² = 0.7432
90
Calificación en el exámen (y)
80 70 60 50
XY
40
Lineal (X Y)
30 20 10 0 0
5
10
15
20
25
30
35
40
Horas de Estudio (x)
EJERCICIO #2. La tabla siguiente da en pulgadas las respectivas alturas “X” e “Y” de una muestra de 12 padres y sus hijos mayores. Determine: d) La grafica de dispersión. e) La ecuación de regresión por mínimos cuadrados. f) Estime la altura de un hijo si el padre mide 75 pulgadas.
92
Diagrama de dispersión 72
71
Altura del hijo (y)
70
y = 0.4764x + 35.825 R² = 0.4937
69
68
XY Lineal (X Y)
67
66
65
64 61
62
63
64
65
66
67
Altura del padre (x)
EQUIPO: Bautista Osorio Estefany Díaz Maily Carolina Fuentes Morales José Alexander Ortiz Medina Tania Guadalupe Varo Domínguez Jaricksa
93
68
69
70
71
72
ACTIVIDAD 4
Alumnos:
Bautista Osorio Estefany Díaz Maily Carolina José Alexander Fuentes Morales Ortiz Medina Tania Guadalupe Varo Domínguez Jaricksa
Carrera: Ingeniería en Administración.
Materia: Estadística II
Semestre: 4° Grupo: “A” Docente: De Los Santos López Eduardo
94
Contenido Contenido……………………………………………………………………………….....2 Introducción. .......................................................................................................... 96 3.1.8 Usos de variables ficticias ............................................................................ 97 Trampa de las variables ficticias. ........................................................................... 98 Formulas ................................................................................................................ 98 EJEMPLO: ........................................................................................................... 100 3.1.9 Residuales y graficas de residuales ........................................................... 102 Figura 9.2. Gráfico matricial ................................................................................. 104 Figura 9.3. Gráfico de residuos frente a variable regresora . ................... 106 Figura 9.4. Gráfico de residuos frente a variable regresora . ................... 107 Figura 9.5. Gráfico de residuos frente a variable omitida. ....................... 107 Figura 9.6. Necesidad de una variable de clasificación. .......................... 107 Figura 9.7. Residuos frente a variable de clasificación omitida. ............ 108 Tipo 1. .................................................................................................................. 108 Tipo 2. .................................................................................................................. 109 Tipo 3. .................................................................................................................. 110 3.1.10 Interpretación del intervalo de confianza. ................................................. 112 Intervalo de confianza para un promedio: ............................................................ 112 EJEMPLO: ........................................................................................................... 113 EJEMPLO ............................................................................................................ 114 3.1.11 Uso del coeficiente de determinación múltiple. ........................................ 115 UTILIDAD ............................................................................................................. 115 OBSERVACIONES .............................................................................................. 116 LA ESTADÍSTICA R2 AJUSTADA ....................................................................... 116 EJEMPLO: ........................................................................................................... 117 Conclusiones individuales ................................................................................... 118 Bibliografía: ......................................................................................................... 119
95
Introduccion. El análisis de regresión lineal, en general, nos permite obtener una función lineal de una o más variables independientes. En el análisis de regresión lineal podemos diferenciar entre análisis de regresión lineal simple y análisis de regresión lineal múltiple. Al trabajar con dos variables cuantitativas podemos estudiar la relación que existe entre ellas mediante la correlación y la regresión. Aunque los cálculos de ambas técnicas pueden ser similares en algunos aspectos e incluso dar resultados parecidos, no deben confundirse. En la correlación tan solo medimos la dirección y la fuerza de la asociación de una variable frente a la otra, pero nunca una relación de causalidad. Solo cuando tenemos una variable que es causa o depende de otra, podremos realizar entonces una regresión. En este capítulo estudiaremos los usos que se les dan a las variables ficticias con ejemplos y veremos la interpretación de gráfico residual en histogramas.
96
3.1.8 Usos de variables ficticias
Las variables ficticias recogen los efectos diferenciales que se producen en el comportamiento de los agentes económicos debido a diferentes causas como las siguientes: De tipo temporal: Para recoger efectos diferentes en función del tiempo en que se producen las observaciones de las variables (por ejemplo, consumo en periodos de guerra o paz). De carácter espacial: Para tener en cuenta la pertenencia o no de la observación a una determinada zona (por ejemplo, consumo en zonas rurales o urbanas). De tipo cualitativo: Para recoger los efectos de variables cualitativas como el género, el estado civil, tener o no cargas familiares, nivel de educación, etc. Sobre el comportamiento de los agentes económicos en decisiones de consumo, de oferta de trabajo, etc. Otras causas: Para conocer los efectos que las variables cuantitativas tienen sobre la variable endógena, distinguiendo por submuestras (por ejemplo, la propensión marginal al consumo de individuos de rentas altas o bajas). Permiten tratar información cualitativa
-
Sexo en la determinación de salarios Estación del año en el consumo de helados Pertenecer a la UE en la determinación del crecimiento económico Entrar en bancarrota en la predicción de beneficios -uno
La utilización de variables ficticias (variables dicotómicas o variables dummy) en un modelo econométrico permite la inclusión de aspectos cualitativos en el modelo.
97
En este caso, vamos a dividir las familias de la muestra en tres grupos, de acuerdo con su tamaño familiar: Grupo 1: familias de tamaño pequeño (de 1 a 3 componentes). Grupo 2: familias de tamaño medio (de 4 a 6 componentes). Grupo3: familias de tamaño grande (a partir de 7 componentes). Trampa de las variables ficticias. Formulas A la hora de incluir variables ficticias en el modelo debemos ser cautelosos puesto que podemos provocar un problema de multicolinealidad perfecta, es decir, podemos caer en la denominada “trampa de las variables ficticias”. Modelos con un único factor cualitativo: Vamos a considerar, por ejemplo, las variables ficticias o variables dummy de sexo:
y consideremos el modelo para el salario por hora en función de la experiencia laboral que vimos en el Tema 1, en el que ahora incorporamos la dummy de ser hombre.
Si calculamos en este modelo la media del salario para hombres y mujeres que tengan los mismos años de experiencia laboral tenemos
Al incorporar la variable ficticia Hombre t lo que estamos haciendo es permitir que el término independiente del modelo pueda ser distinto para hombres y mujeres, ya que para hombres el término constante es β1 + β2 mientras que para las
98
mujeres es β1, y por tanto β2 refleja las posibles diferencias en el término constante entre hombres y mujeres. Además,
Y por tanto β2 mide la diferencia en el salario medio entre hombres y mujeres con la misma experiencia laboral. La hipótesis de ausencia de diferencias entre hombres y mujeres sería β2 = 0 Alternativamente podríamos haber incorporado en el modelo la dummy de ser mujer:
Si calculamos ahora la media del salario para hombres y mujeres que tienen los mismos años de experiencia laboral tenemos
Y por tanto
es decir α2 mide la diferencia en el salario medio entre mujeres y hombres con la misma experiencia laboral. Los modelos:
Por lo tanto, obviamente α2=β2. Esta relacion entre los parametros de modelos (1) y (2) tambien se verifica para los estimadores MCO de los dos modelos como ilustra el siguiente ejemplo:
99
EJEMPLO:
100
101
3.1.9 Residuales y graficas de residuales Como se ha indicado anteriormente, el análisis de los residuos es básico para chequear si se verifican las hipótesis del modelo de regresión. Por ello, a continuación se exponen las propiedades matemáticas de los mismos. Considérese el modelo de regresión lineal múltiple Los residuos mínimo-cuadráticos vienen dados por o en forma matricial -1 t Como = H , siendo H = X X la matriz de proyección ortogonal. Es fácil probar que la matriz H es idempotente y simétrica . En base a esto = - = -H = = = X + -HX -H = , Donde se utilizó que HX = X. Se calcula la matriz de varianzas de los residuos,
Por tanto, ei es una variable aleatoria con distribución
Donde hii es el valor de influencia de i. que mide la “distancia estadística” de i. a . Un residuo “grande” indica que la observación está lejos del modelo estimado y, por tanto, la predicción de esta observación es mala. Las observaciones con residuos grandes se denominan observaciones atípicas o heterogéneas (outliers). Como los residuos tienen varianza variable y son dimensionados (tienen las unidades de la variable Y ), normalmente se tipifican
102
Los residuos tipificados siguen una distribución normal estándar, pero como 2 es desconocido, se sustituye por su estimador, la varianza residual R2 y se obtienen los residuos estandarizados, definidos como
Por la hipótesis de normalidad los residuos estandarizados siguen una distribución t con ngrados de libertad. Como ya se indicó en el estudio del modelo de regresión lineal simple, en el cálculo de ri existe el problema de que hay una relación de dependencia entre el numerador y el denominador de ri. Para evitar esto, con mayor esfuerzo computacional, se calcula para cada i, i = 1,...,n, el estimador R, , la varianza residual del modelo de regresión obtenido a partir de la muestra en la que se ha eliminado la observación . Ahora se definen los residuos estudentizados como
Los residuos estudentizados siguen una distribución t con grados de libertad. Si el tamaño muestral es grande, los residuos estandarizados y los estudentizados son casi iguales y muy informativos, pudiéndose considerar grandes los residuos estandarizados tales que > 2. Con los residuos estandarizados o estudentizados se pueden construir los siguientes gráficos de interés: El gráfico de dispersión matricial, de todas las variables del modelo (respuesta y regresoras). En el estudio de un modelo de regresión lineal múltiple es el primer gráfico que se debe observar. Proporciona una primera idea de la existencia de relación lineal o de otro tipo entre la respuesta y las regresoras y también da una idea de posibles relaciones lineales entre las variables regresoras, lo que crea problemas de multicolinealidad. Figura 9.2.
103
Figura 9.2. Grรกfico matricial
104
El histograma de los residuos, que sirve para observar la existencia de normalidad, simetría y detectar observaciones atípicas. El gráfico probabilístico de normalidad (p-p y q -q) y el gráfico de simetría, que permite contrastar la normalidad (simetría) de la distribución de los residuos. El gráfico de residuos frente a las predicciones detectar diferentes problemas:
, que permite
Heterocedasticidad, la varianza no es constante y se deben de transformar los datos (la variable Y) o aplicar mínimos cuadrados ponderados. Error en el análisis, se ha realizado mal el ajuste y se verifica que los residuos negativos se corresponden con los valores pequeños i y los errores positivos se corresponden con los valores grandes de i, o al revés. El modelo es inadecuado por falta de linealidad y se deben de transformar los datos o introducir nuevas variables que pueden ser cuadrados de las existentes o productos de las mismas. O bien se deben introducir nuevas variables explicativas. Existencia de observaciones atípicas o puntos extremos. Tener en cuenta que se debe utilizar el gráfico de residuos frente a las predicciones en lugar del gráfico de residuos frente a las observaciones porque las variables e están corraladas, mientras que las variables e no lo están. El gráfico de residuos frente a una variable explicativa , permite deducir si la existencia de heterocedasticidad o la falta de linealidad en el modelo son debidas a la variable explicativa representada. Gráficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la primera de ellas se observa que la relación con la variable xj no es lineal y, probablemente, un ajuste cuadrático sea adecuado, también se tendrían dudas acerca de la homocedasticidad del modelo.
105
Figura 9.3. Grรกfico de residuos frente a variable regresora. Ajuste no lineal. En la Figura 9.3 se observa que el modelo es heterocedรกstico y la causa de este problema puede ser la variable explicativa xj. Por ello, la soluciรณn se basa en transformar el modelo teniendo en cuenta este hecho.
Figura 9.4. Grรกfico de residuos frente a variable regresora. Heterocedasticidad.
106
El gráfico de residuos frente a una variable omitida, permite valorar si esta variable influye en el modelo y por lo tanto se debe incluir como una nueva variable regresora. En la Figura 9.5 de residuos frente a una variable omitida se observa que existe una relación lineal con esta variable y por tanto se mejora el ajuste si se incluye la variable xomit.
Figura 9.5. Gráfico de residuos frente a variable omitida. Una situación frecuente se produce cuando se tienen observaciones de diferentes poblaciones y se debe de incluir una variable de clasificación en el modelo de regresión. Esto se puede observar en el gráfico de residuos frente a predicciones como se puede ver en la Figura 9.6.
Figura 9.6. Necesidad de una variable de clasificación. El gráfico de los residuos frente a la variable de clasificación omitida
107
se presenta en la Figura 9.7.
Figura 9.7. Residuos frente a variable de clasificación omitida. El gráfico parcial de residuos, es útil para valorar la influencia real de una variable regresora, esto es, conocer la información nueva que aporta la variable regresora en estudio y que no aportan las otras variables regresoras. Según el paquete estadístico que se utilice los gráficos parciales de residuos se pueden construir de diferentes formas. Tipo 1. Si se tienen k variables regresoras y se desea obtener el gráfico parcial de residuos respecto a la variable xk, se procede de la siguiente forma: se calcula el modelo de regresión respecto a las restantes variables regresoras,
Se calculan los residuos
Que representan la parte de Y no explicada por las variables x1,x2,...,xk-1. Por tanto, la gráfica de los residuos “parciales” ek* frente a la variable xk permite valorar la importancia real de esta
108
variable. Tipo 2. Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente forma. Calcular * = + k k= + k k k = Se obtiene un nuevo gráfico parcial representando los residuos “parciales” k* frente a la variable xk. Si la variable xk es ortogonal a las restantes variables explicativas los estimadores i* y i, i = 1,...,k - 1, serán muy próximos y, por tanto, también lo son los vectores ek* y k * . Lo que hace que los dos gráficos de residuos parciales sean casi iguales en este caso. Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos se observa que existe una relación lineal entre las variables regresoras y la variable de interés. Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente forma. Calcular * = + k k= + k k k = Se obtiene un nuevo gráfico parcial representando los residuos “parciales” k* frente a la variable xk. Si la variable xk es ortogonal a las restantes variables explicativas los estimadores * i y i, i = 1,...,k - 1, serán muy próximos y, por tanto, también lo son los vectores ek* y k * . Lo que hace que los dos gráficos de residuos parciales sean casi iguales en este caso. Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos se observa que existe una relación lineal entre las variables regresoras y la variable de interés.
109
Tipo 3. Otro gráfico parcial de interés que proporcionan algunos paquetes estadísticos es el siguiente (se quiere calcular el gráfico parcial respecto a xk): Se calculan los modelos de regresión de las variables Y y xk respecto a las restantes variables regresoras. Ahora se representa el gráfico de residuos de ek* frente a los residuos e ,k. Esto es, el gráfico de los pares. Este gráfico da una idea de la relación entre la variable Y y la variable xk una vez que se ha eliminado la influencia de las otras variables regresoras.
110
111
3.1.10 Interpretación del intervalo de confianza. En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada. La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1- . La probabilidad de equivocarnos se llama nivel de significancia y se simboliza . Generalmente se construyen intervalos con confianza 1- =95% (o significancia =5%). Menos frecuentes son los intervalos con =10% o =1%. Para construir un intervalo de confianza, se puede comprobar que la distribución Normal Estándar cumple 1: P (-1.96 < z < 1.96) = 0.95 (Lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que calcule probabilidades normales). Luego, si una variable X tiene distribución N ( , se cumple:
Despejando
), entonces el 95% de las veces
en la ecuación se tiene:
El resultado es un intervalo que incluye al el 95% de las veces. Es decir, es un intervalo de confianza al 95% para la media cuando la variable X es normal y es conocido.
Intervalo de confianza para un promedio: Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional , la varianza poblacional es desconocida, por lo que el intervalo para construido al final de II es muy poco práctico.
112
Si en el intervalo se reemplaza la desviación estándar poblacional desviación estándar muestral s, el intervalo de confianza toma la forma:
por la
La cual es una buena aproximación para el intervalo de confianza de 95% para con desconocido. Esta aproximación es mejor en la medida que el tamaño muestral sea grande. Cuando el tamaño muestral es pequeño, el intervalo de confianza requiere utilizar la distribución t de Student (con n-1 grados de libertad, siendo n el tamaño de la muestra), en vez de la distribución normal (por ejemplo, para un intervalo de 95% de confianza, los límites del intervalo ya no serán construidos usando el valor 1,96).
EJEMPLO: Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresión (mayor puntaje significa mayor depresión). 2 11 14 16 19
5 11 15 16 19
6 13 15 17 19
8 13 16 17 19
8 14 16 17 19
9 14 16 18 19
9 14 16 18 19
10 14 16 18 20
11 14 16 19 20
Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos que los datos tienen distribución normal, con varianza poblacional desconocida. Como es desconocido, lo estimamos por s =18,7. Luego, un intervalo de confianza aproximado es:
Luego, el intervalo de confianza para es (13,2, 15,8). Es decir, el puntaje promedio poblacional se encuentra entre 13,2 y 15,8 con una confianza 95%.
113
EJEMPLO 1. Se quiere obtener un intervalo de confianza para el valor de las ventas medias por hora que se producen en un kiosco. Para ello realizamos una muestra consistente en elegir al azar las ventas que se realizaron durante 1000 horas distintas; muestra cuyos resultados fueron: ventas medias por hora 4000 pts, y varianza de dicha muestra 4000 pts al cuadrado. Obtener dicho intervalo con un nivel de confianza del 95.5 %. Queremos construir un intervalo para la media con las siguientes características: Tamaño muestral = n =1000, muestreo aleatorio simple la población no es normal ni conocemos su varianza, el resultado de la muestra es : si bien se trata de un intervalo para la media con varianza desconocida y población no normal , dado que el tamaño muestral es grande podemos suponer normalidad y tomar como varianza poblacional a la muestral así :
Dado que para nivel de confianza del 95,5% las valores de 2,-2 tendremos el intervalo:
Luego el intervalo será
114
son según tablas
3.1.11 Uso del coeficiente de determinación múltiple. El coeficiente de determinación o coeficiente de correlación múltiple al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresión y la variabilidad total, esto es:
Algunas otras formas de presentar el coeficiente de determinación son:
Algunas de las equivalencias anteriores pueden verse a partir de la demostración de
.
Demostración de formula El coeficiente de determinación múltiple, es una generalización del valor de
definida en la lección de Rcuadrado definida para una línea recta. UTILIDAD
Se utiliza para medir la reducción en la variabilidad total de
debido a la inclusión
de las variables regresoras . Un valor grande de no necesariamente implica que el modelo es bueno. Adicionar variables al modelo siempre incrementa el valor de
, ya sea que las variables contribuyan o no al
115
modelo. Es posible que modelos con valor de predicción o estimación.
grande sean malos en la
OBSERVACIONES 1.
mide la correlación entre
y
y
.
2. Si existe error puro, es imposible que manera en que podría dar de los datos en el cual práctica, 3. Si
,
esto
modelo 4.
es
alcance el valor de
. La única
, sería que se tuviera un perfecto ajuste , lo cual es un improbable evento en la
si
(suponiendo
ha sido ajustado), entonces
que
el
.
es
una medida de la utilidad de los términos en el modelo diferentes de LA ESTADÍSTICA R2 AJUSTADA Como alternativa al uso de como medida de la idoneidad de un modelo, es común que se informe el coeficiente de determinación múltiple ajustado, denotado por
esta dado por
Se observa que muestra
toma en cuenta ("ajusta por") tanto el tamaño de la
como el número de parámetros del modelo.
Siempre es menor
que y lo que es más importante, no puede "forzarse" hacia con sólo agregar más y más variables independientes al modelo. Por ello, algunos analistas prefieren el valor más conservador de idoneidad de un modelo.
cuando deben elegir una medida de la
116
Tenga en cuenta que: La estadística y son medidas descriptivas, y no debemos depender únicamente de sus valores para decidir si un modelo es útil o no para predir la variable respuesta
EJEMPLO: Para los datos del ejemplo se tiene que
Lo cual significa que el Ahora el valor de
de la variabilidad total es explicada por el modelo.
es
117
Conclusiones individuales Es este tema podemos ver para que nos sirve el uso del coeficiente de determinación múltiple que es una medida descriptiva que nos sirve para saber la bondad de ajustes de los datos y mide la capacidad predictiva del modelo ajustado. El coeficiente de determinación múltiple, es una generalización del valor de
definida en la lección de R cuadrado definida para una línea recta. -
Bautista Osorio Estefany.
Estos temas que se desarrollaron son derivados del análisis de regresión y correlación lineal y múltiple, los cuales nos ayudan a conocer la relación que existen entre dos o más variables, ósea si una de ellas es determinada de la otra, también nos ayuda a que revisemos bien cada planteamiento que se nos hace ya que vemos el tema de variables ficticias ósea falsas y si en realidad los datos nos ayudaran a obtener el resultado que deseamos obtener, con los residuales pues vemos como lo obtenemos y como se gráfica, en el intervalo de confianza pues se ve cómo interpretarlo ya que ya se había visto pero nos da una manera más amplia de aplicación y mejor comprensión y con el uso del coeficiente de determinación múltiple pudimos observar que hay que poner especial énfasis en cada dato proporcionado porque serán varias determinantes que debemos obtener. -
Diaz Maily Carolina.
El análisis de correlación produce un número que resume el grado de la correlación entre dos variables, y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación. El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. Tales estimaciones le permiten entender mejor el efecto que probablemente tendrán en el mercado las decisiones referentes el precio y promoción. -
118
Fuentes Morales José Alexander.
Las técnicas de regresión y correlación cuantifican la asociación estadística entre dos o más variables. La regresión lineal simple expresa la relación entre una variable dependiente “Y” y una variable independiente “X”, en términos de la pendiente y la intersección de la línea que mejor se ajuste a las variables. La correlación simple expresa el grado o la cercanía de la relación entre las dos variables en términos de un coeficiente de correlación que proporciona una medida indirecta de la variabilidad de los puntos alrededor de la mejor línea de ajuste- Ni la regresión ni la correlación dan pruebas de relaciones causa – efecto. -
Ortiz Medina Tania Guadalupe
Como conclusión se pudo llegar comprender que la regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación. En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muéstrales para saber qué es y cómo se relacionan entre sí dos o más variables en una población.
- Varo Domínguez Jaricksa.
Bibliografía:
http://rua.ua.es/dspace/bitstream/10045/19712/1/tema4.pdf http://ciberconta.unizar.es/leccion/ficticia/variables%20ficiticas.PDF http://webs.uvigo.es/cjardon/Practicas/practicaII-2.pdf http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un6/cont_02_63.html http://www.monografias.com/trabajos82/regresion-y-correlacion-lineal/regresion-ycorrelacion-lineal2.shtml
119
ACTIVIDAD 5
Instituto Tecnológico Superior de Coatzacoalcos Alumna
MAILY CAROLINA DÍAZ Maestro
EDUARDO LÓPEZ DE LOS SANTOS Asignatura
ESTADÍSTICA II
Semestre
3° Grupo
“A” Ciclo
Enero-2012 junio-2013
120
INTRODUCCIÓN
En esta investigación se podrá apreciar la relación funcional entre dos variables poblacionales, una variable X, llamada independiente y una variable Y, llamada dependiente así como sus características y ecuación para calcular los datos que se te pidan en algún problema. En el análisis de regresión desarrollaremos una ecuación de estimación, esto es, una fórmula matemática que relaciona las variables conocidas con la variable desconocida. Entonces podemos aplicar el análisis de correlación para determinar el grado de en el que están relacionadas las variables. El análisis de correlación, entonces, nos dice qué tan bien están relacionadas las variables. El análisis de correlación, entonces, nos dice que tan bien la ecuación de estimación realmente describe la relación
121
ANÁLISIS ESTADÍSTICO En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación: Y=a+bX+ε Dónde: - a es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y. - b es el coeficiente de regresión poblacional (pendiente de la línea recta) - ε es el error Suposiciones de la Regresión Lineal Los valores de la variable independiente X son fijos, medidos sin error. La variable Y es aleatoria Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y) Las variancias de las subpoblaciones Y son todas iguales. Todas las medias de las subpoblaciones de Y están sobre la recta. Los valores de Y están normalmente distribuidos y son estadísticamente independientes. Estimación de la Ecuación Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:
122
Luego, la ecuación de regresión muestral estimada es: Que se interpreta como: a es el estimador de α Es el valor estimado de la variable Y cuando la variable X = 0 b es el estimador de β , es el coeficiente de regresión Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión).Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en X. Ejemplo Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observó el peso de una persona seleccionada de entre el grupo con dicha estatura, resultando:
Con estos datos vamos a plantear una ecuación de regresión simple que nos permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y contrastaremos nuestra hipótesis con la prueba F. Desarrollo del Problema
123
Hipótesis: HO: No hay relación entre la variable peso y la variable estatura. HA: Hay relación entre la variable peso y la variable estatura.
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hipótesis nula y aceptamos que la variable estatura está relacionada con la variable peso con un 95% de confianza. De acuerdo al desarrollo matemático hemos obtenido los siguientes cálculos:
124
Lo que nos permite obtener los coeficientes a y b. b = 1223 / 1409.667 = 0.8676 a = 65.25 – (0.8676) (162.167) = -75.446 Interpretación: La ecuación de regresión estimada es: Ŷ = -75.446+0.8676X
Coeficiente de correlación: R= 0.9379
Coeficiente de determinación: R²=0.8796
El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio, por cada centímetro de aumento en la estatura de los hombres adultos. El valor de a, no tiene interpretación práctica en el ejemplo, se interpretaría como el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0. Utilizando la ecuación de regresión para estimar o predecir valores de la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg. ¿Cuánto se espera que pese (en promedio) una persona que mide 1.60 m? Sustituyendo el valor de interés en la ecuación:
Ŷ = -75.446+0.8676X
Se obtiene: Ŷ = -75.446+0.8676 (160) = 63.37 kg Conclusión La ecuación de Regresión Lineal estimada para las variables estatura y peso muestran, de acuerdo a la prueba F, relación. Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación positiva. Además si consideramos el coeficiente de determinación R² = 87.9 podemos indicar que el 87.9% de las variaciones que ocurren en el peso se explicarían por las variaciones en la variable estatura.
125
REGRESIÓN LINEAL MÚLTIPLE Este tipo se presenta cuando dos o más variables independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z). Por ejemplo: Podría ser una regresión de tipo múltiple:
Una Empresa de desarrollo de software establece relacionar sus Ventas en función del número de pedidos de los tipos de software que desarrolla (Sistemas, Educativos y Automatizaciones Empresariales), para atender 10 proyectos en el presente año.
En la Tabla representa Y (Ventas miles de S/.) e X (Nº pedidos de sistemas), W (Nº de pedidos de Aplicaciones Educativas) y Z (Nº de pedidos de Automatizaciones empresariales).
Se presentara primero el análisis de regresión múltiple al desarrollar y explicar el uso de la ecuación de regresión múltiple, así como el error estándar múltiple de estimación. Después se medirá la fuerza de la relación entre las variables independientes, utilizando los coeficientes múltiples de determinación Análisis de regresión múltiple Dispone de una ecuación con dos variables independientes adicionales:
Se puede ampliar para cualquier número "m" de variables independientes:
126
Para poder resolver y obtener y en una ecuación de regresión múltiple el cálculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:
Error estándar de la Regresión múltiple Es una medida de dispersión la estimación se hace más precisa conforme el grado de dispersión alrededor del plano de regresión se hace más pequeño. Para medirla se utiliza la fórmula:
Y : Valores observados en la muestra
Ŷ: Valores estimados a partir a partir de la ecuación de regresión
n : Número de datos
m : Número de variables independientes Análisis de correlación simple
Sirve para medir la bondad del ajuste de una recta de regresión a un conjunto de observaciones, en el caso de tener una variable dependiente y una independiente. Dicha medida nos la da el coeficiente de determinación R2, que verifica 0 ≤ R2 ≤ 1. Cuanto más cercano a uno sea su valor mejor será el ajuste, y tanto peor cuanto más cercano a cero. Se calcula como el cuadrado del coeficiente de correlación lineal de Pearson
127
El coeficiente de correlación lineal de Pearson (se denota r ó ρ) es una medida de asociación lineal entre dos variables aleatorias X e Y: r = ρ=Cov(X,Y) SxSy Se verifica que –1 ≤ r ≤ 1 y podemos decir que:
“Si r = -1, existe una relación lineal negativa perfecta entre X e Y.
“Si r = 1, existe una relación lineal positiva perfecta entre X e Y.
“Si r = 0, no existe ninguna relación lineal entre X e Y (X e Y son independientes). Análisis de correlación múltiple
Sirve para medir la adecuación del modelo hallado (bondad del ajuste de la recta de regresión al conjunto de observaciones), en el caso de tener una variable dependiente y varias independientes. Dicha medida nos la da el coeficiente de determinación R2, que verifica 0 ≤ R2 ≤ 1. Cuanto más cercano a uno sea su valor, mayor es el grado de asociación lineal que existe entre la variable dependiente y las independientes o predictores. Nos mide la proporción de la variación total de las observaciones que se explican mediante la ecuación (recta) de regresión
128
CONCLUSIÓN
En mi opinión la regresión se puede usar en muchos procesos en los cuales se tengan que tomar decisiones o hacer inferencias acerca de algún fenómeno que no conozcamos aún su resultado, en el cual se tenga información de una variable independiente y el comportamiento de otra variable que depende de la primera. Es muy importante el uso de una ecuación ya que nos permite calcular los datos con mayor facilidad así como utilizar dos o más variable y conocer cuál es su relación. Esto se puede ocupar en problemas de la vida cotidiana ya que existen muchas relaciones en las cosas que realizamos con otras
FUENTE DE INFORMACIÓN
http://www.uhu.es/89050/ficherosdatos/guia10.PDF
Ezequiel
Uriel,
multivariante”.
“Análisis Editorial
de
AC.
datos: Juan
Series
Etxeberría,
temporales “Regresión
y
análisis Múltiple”.
Cuadernos de Estadística. Editorial La Muralla.
http://www.monografias.com/trabajos30/regresion-multiple/regresionmultiple.shtml
129
130
131
SERIES DE TIEMPO La planeación a futuro es un aspecto esencial en la administración de cualquier empresa, ya que su éxito, a la larga, se relaciona mucho con lo bien que la administración puede anticipar el futuro y desarrollar las estrategias adecuadas. El buen juicio, la intuición y la percepción del estado de la economía pueden dar a un administrador una idea tosca o sensación de lo que probablemente ocurrirá en el futuro. Sin embargo, es difícil convertir esa sensación en números que se puedan usar, como el número de ventas en el próximo trimestre, o el costo de las materias primas en el año venidero. El objetivo de esta unidad es explicar algunos métodos de pronósticos. Los métodos de pronósticos se clasifican en cuantitativos y cualitativos. Los métodos cuantitativos se usan cuando: 1. Se dispone de información histórica anterior acerca de la variable que se pronostica. 2. La información se puede cuantificar 3. Un supuesto razonable es que el patrón del pasado continuará en el futuro. En tales casos es factible la elaboración de un pronóstico, ya sea con un método de serie de tiempo o con un método casual. El análisis de serie de tiempo es un método cuantitativo que utilizamos para determinar patrones en los datos recolectados a través del tiempo. El análisis de series de tiempo se utiliza para determinar patrones de cambio en la información estadística en intervalos regulares, proyectamos estos patrones para obtener una estimación para el futuro. En consecuencia, el análisis de series de tiempo nos ayuda a manejar la incertidumbre asociada con los acontecimientos futuros. 4.1 MODELO CLÁSICO SERIES DE TIEMPO. Una serie de tiempo es un conjunto de valores observados, tales como los datos de producción o de ventas, en períodos ordenados de manera secuencial. Ejemplos de este tipo son las ventas de un determinado producto en una serie de meses y el número de trabajadores empleados en una industria determinada en una serie de años. Una serie de tiempo se representa gráficamente mediante una gráfica de línea, con los períodos de tiempo representados en el eje horizontal y los valores de la serie de tiempo representado en el eje vertical. Por ejemplo. La figura siguiente es una gráfica de línea que ilustra las ventas anuales en dólares de una empresa de software gráfico (ficticia) formada en el 2000. Como se puede observar…… anuales, seguido por dos a os de declinación en las ventas que culminaron en la sima de 2008, que entonces fue seguida por
132
niveles crecientes de ventas durante los últimos años de los valores reportados en la serie de tiempo. Ventas Time Series Plot of Ventas 1.8 (millones de 1.6 dólares) 1.4 2000 0.2 1.2 2001 0.4 1.0 2002 0.5 0.8 2003 1 0.6 2004 1.1 0.4 2005 1.5 0.2 2006 1.4 0.0 2000 2001 2002 2003 2004 2005 2006 2007 2008 2007 1.2 Year 2008 1.7 El análisis de series de tiempo es el procedimiento mediante el cual se identifican y separan factores relacionados con el tiempo que influyen en los valores que se observan en una serie de tiempo. Una vez identificado se pueden usar como ayuda en la interpretación de los valores históricos de las series de tiempo y para predecir valores futuros de las series de tiempo. El método clásico en el análisis de series de tiempo distingue cuatro influencias de este tipo o componentes: 1) Tendencia secular (T). El valor de la variable tiende a aumentar o disminuir en un período muy largo. Ventas
Año
2) Fluctuaciones cíclicas (C). Son movimientos recurrentes hacia arriba y hacia abajo en relación con la tendencia que tienen una duración de varios años.
133
3) Variaciones estacionales (S). Este tipo de variación implica patrones de cambio en el lapso de un año que tienden a repetirse anualmente, es decir, son movimientos hacia arriba y hacia abajo en relación con la tendencia que ocurren durante un año y que tienen recurrencia anual. Por lo común estas variaciones se detectan en datos mensuales o trimestrales.
4) Variaciones irregulares (I). Son variaciones erráticas respecto de la tendencia que no se pueden atribuir a las influencias cíclicas o estacionales, es decir, en muchas situaciones, el valor de una variable puede ser completamente impredecible cambiando de manera aleatoria. Las variaciones irregulares describen esos movimientos.
El modelo que subyace al análisis clásico de series de tiempo está basado en la suposición de que para cualquier periodo que se tome de la serie de tiempo, el valor de la variable está determinado por los cuatro componentes antes descritos, y que además estos componentes tienen una relación multiplicativa. Así, si Y representa el valor observado en la serie de tiempo. Y = T x C x S x I El modelo representado por la formula anterior se usa como base para separar las influencias de los diferentes componentes que afectan a los valores de la serie de tiempo.
134
4.2 ANÁLISIS DE TENDENCIA. El análisis de tendencia investiga la dirección del movimiento en la serie de tiempo, generalmente este análisis se realiza con datos anuales. Se deben usar datos de 15 o 20 años, por lo menos, de modo que los movimientos cíclicos de varios años de duración no se consideren como indicativos de la tendencia general de los valores de la serie de tiempo. El método de mínimos cuadrados es el que se usa con mayor frecuencia para determinar el componente de tendencia en una serie de tiempo, determinando la ecuación de la recta de tendencia de mejor ajuste. Desde el punto de vista estadístico, una recta de tendencia no es una recta de regresión, ya que la variable dependiente “Y” no es una variable aleatoria, sino una serie de valores históricos. Además para cualquier periodo dado sólo puede haber un valor histórico (no una distribución de valores), y los valores correspondientes a los períodos adjuntos es probable que sean dependientes y no independientes. De cualquier manera, el método de los mínimos cuadrados es una base adecuada para determinar el componente de tendencia de una serie de tiempo. Si el incremento o decremento a largo plazo parecen seguir una tendencia lineal, la ecuación para los valores de la recta de tendencia, es: ̂ Donde ̂ = valor estimado de la variable dependiente X= variable independiente (tiempo en el análisis de tendencia) b0= ordenada Y (el valor de Y cuando X=0) b1= pendiente de la recta de tendencia. Pendiente de la recta de regresión de mejor ajuste: Ordenada Y de la recta de regresión de mejor ajuste:
̅̅
∑ ∑
̅
̅
̅
Donde Y= valores de la variable dependiente X= valores de la variable independiente ̅ = media de los valores de la variable dependiente ̅ = media de los valores de la variable independiente n= número de datos en la serie de tiempo En el caso de una tendencia no lineal, un tipo de curva de tendencia que suele resultar útil es la curva de tendencia exponencial. Una curva de tendencia exponencial típica es la que refleja una tasa de crecimiento constante durante un período de años, como pueden ser las ventas de las computadoras personales durante la década de los ochenta. Una curva exponencial se llama así porque la variable independiente “X” es el exponente de b1 en la ecuación general. ̂ Donde b0= valor de ̂ en el año 0 b1= tasa de crecimiento
135
Tomando logaritmos en ambos miembros de la ecuación se obtiene una ecuación lineal de tendencia logarítmica: log ̂ = log b0 + X log b1 La ventaja de la transformación a logaritmos es que la ecuación lineal para el análisis de tendencia puede aplicarse a los logaritmos de los valores cuando la serie de tiempo sigue una curva exponencial. Los valores logarítmicos pronosticados para ̂ Se pueden reconvertir después a las unidades originales de medición sacando el antilogaritmo de los valores. La curva Gompertz en forma de “S” una ecuación que se usa para ajustar esta curva de tendencia es: ̂ = b0 + b1(b2)X Los valores de b0, b1 y b2 se determinan sacando primero logaritmo a ambos miembros de la ecuación, como sigue: log ̂ = log b0 + (log b1)(b2)X Por último se calculan los valores que conforman la curva de tendencia sacando el antilogaritmo de los valores que se obtienen con la formula anterior. Ejemplo. Considere la siguiente serie de tiempo: X 1 2 3 4 5 Y 6 11 9 14 15 Con base en ella determine: a) La grafica de serie de tiempo. b) Una ecuación del componente de tendencia lineal para la serie de tiempo. c) ¿Cuál es el pronóstico para x= 6? Solución: a) Time Series Plot of y 15.0
y
12.5
10.0
7.5
5.0 1
2
3 Index
4
5
b) X 1 2
Y 6 11
XY 6 22
136
X2 1 4
̅
3 4 5 X=15
∑
9 14 15 Y=55
27 56 75 XY=186
9 16 25 X2=55
∑
̅
∑
̅̅
∑
̅
̅
( )( )( ( )(
̅
(
) )
)( )
̂ ̂
c)
(
)( )
Ejercicio. Los datos de inscripciones, en miles, en una universidad estatal durante los últimos 6 años son los siguientes: Año 1 2 3 4 5 6 Inscripción 20.5 20.2 19.5 19 19.1 18.8 Deduzca una ecuación del componente de tendencia lineal en esta serie de tiempo. Haga comentario acerca de lo que sucede con la inscripción en esta institución. Solución: X Y XY 1 20.5 20.5 2 20.2 40.4 3 19.5 58.5 4 19 76 5 19.1 95.5 6 18.8 112.8 X=21 Y=117.1 XY=403.7 ̅
∑
̅
∑
∑
̅̅
∑
̅
̅
( )(
)(
( )(
̅
) )
(
)(
)
̂
137
X2 1 4 9 16 25 36 X2=91
Que la inscripción decrece aproximadamente 350 alumnos por año. 4.3 ANÁLISIS DE VARIACIONES CÍCLICAS. La variación cíclica es la componente de una serie de tiempo que tiende a oscilar arriba y debajo de la línea de tendencia secular en períodos mayores que un año. El procedimiento utilizado para identificar la variación cíclica es el método de residuos. Métodos de residuos. Cuando observamos una serie de tiempo consiste en datos anuales, sólo se toman en cuenta las componentes de tendencia secular, cíclica e irregular. (Esto es así porque la variación estacional pasa por un ciclo completo y regular cada año y no afecta más un año que otro). Si utilizamos una serie de tiempo compuesta por datos anuales, podemos encontrar la fracción de la tendencia dividiendo el valor real (Y) entre el valor de la tendencia correspondiente ( ̂ ) para cada valor de la serie de tiempo. Luego se multiplica el resultado de este cálculo por 100. Esto da la medida de la variación cíclica como un porcentaje de tendencia. ̂ Dónde: Y= valor real de la serie de tiempo ̂ = valor de tendencia estimado a partir del mismo punto de la serie de tiempo. Ejemplo. Considere la siguiente serie de tiempo: X 1 2 3 4 5 Y 6 11 9 14 15 Con base en ella determine: a) El componente cíclico de cada uno de los valores de la serie de tiempo que se reportan en la tabla. b) Construya un diagrama de ciclos con los datos Solución: a) X (Año)
Y (real)
Y (Esperado)
1 2 3 4 5
6 11 9 14 15
6.8 8.9 11 13.1 15.2
Y b b X 4.7 2.1X 0
1
138
̂
(Ciclo relativo) 88.23 123.59 81.81 106.87 98.68
Y 4.7 2.1X 4.7 2.1(1) 6.8 Y 4.7 2.1X 4.7 2.1(2) 8.9 Y 4.7 2.1X 4.7 2.1(3) 11 Y 4.7 2.1X 4.7 2.1(4) 13.1 Y 4.7 2.1X 4.7 2.1(5) 15.2
Time Series Plot of Ciclico relativo
Ciclico relativo
120
110
100
90
80 1
2
3 Index
4
5
Ejercicios. 1. Los datos de inscripciones, en miles, en una universidad estatal durante los últimos 6 años son los siguientes: Año 1 2 3 4 5 6 Inscripción 20.5 20.2 19.5 19 19.1 18.8 Con base en ella determine: a) El componente cíclico de cada uno de los valores de la serie de tiempo que se reportan en la tabla. b) Construya un diagrama de ciclos con los datos Solución: X (Años)
Y (real)
Y (Esperado)
1 2 3 4 5
20.5 20.2 19.5 19 19.1
20.391 20.041 19.691 19.341 18.991
139
̂
(Ciclo relativo) 100.534 100.793 99.030 98.236 100.573
6
̂
18.8
18.641
100.852
Y b b X 20.741 0.350 X Y 20.741 0.350 X 20.741 0.350(1) 20.391 Y 20.741 0.350 X 20.741 0.350(2) 20.041 Y 20.741 0.350 X 20.741 0.350(3) 19.691 Y 20.741 0.350 X 20.741 0.350(4) 19.341 Y 20.741 0.350 X 20.741 0.350(5) 18.991 Y 20.741 0.350 X 20.741 0.350(6) 18.641 0
1
Time Series Plot of Ciclo relativo 101.0
Ciclo relativo
100.5 100.0 99.5 99.0 98.5 98.0 1
2
3
4
5
6
Index
2. La tabla siguiente presenta los datos correspondientes a un período de 11 años de una empresa de software gráfico formada en 1998. a) Realice la gráfica de tendencia para los datos. b) Determine la ecuación de la línea de tendencia para estos datos empleando el método de mínimos cuadrados, codifique 1998 como cero y aproxime todos los valores a dos cifras decimales. c) El componente cíclico de cada uno de los valores de la serie de tiempo que se reportan en la tabla. d) Construya un diagrama de ciclos con los datos. Solución: X
Y
XY
X2
Y esperado
0 1 2 3
0.20 0.40 0.50 0.90
0 0.4 1 2.7
0 1 4 9
0.22 0.41 0.6 0.79
140
̂
Ciclo relativo 90.90 97.56 83.33 113.92
4 5 6 7 8 9 10 X=55
1.10 1.50 1.30 1.10 1.70 1.90 2.30 Y=12.9
4.4 7.5 7.8 7.7 13.6 17.1 23 XY=85.2
16 25 36 49 64 81 100 X2=385
0.98 1.17 1.36 1.55 1.74 1.93 2.12
Time Series Plot of y 2.5
2.0
y
1.5
1.0
0.5 1
2
3
4
5
6
7
Index
8
a) X 55 X 5 n 11 Y 12.9 Y 1.17 n 11 XY n X Y 85.2 (11)(5)(1.17) 20.85 0.19 b1 2 385 (11)(52) 110 x2 n X
b
0
Y b1 X 1.17 0.19(5) 0.22
Y b b X 0.22 0.19 X 0
1
Y 0.22 0.19 X 0.22 0.19(0) 0.22 Y 0.22 0.19 X 0.22 0.19(1) 0.41 Y 0.22 0.19 X 0.22 0.19(2) 0.6 Y 0.22 0.19 X 0.22 0.19(3) 0.79 Y 0.22 0.19 X 0.22 0.19(4) 0.98 Y 0.22 0.19 X 0.22 0.19(5) 1.17 Y 0.22 0.19 X 0.22 0.19(6) 1.36
141
9
10
112.24 128.20 95.58 70.96 97.70 98.44 108.49
Y 0.22 0.19 X 0.22 0.19(7) 1.55 Y 0.22 0.19 X 0.22 0.19(8) 1.74 Y 0.22 0.19 X 0.22 0.19(9) 1.93 Y 0.22 0.19 X 0.22 0.19(10) 2.12
Time Series Plot of y 130 120
y
110 100 90
80 70 1
2
3
4
5
6
7
8
9
10
Index
4.4 MEDICIÓN DE VARIACIONES ESTACIONALES. Además de la tendencia secular y de la variación cíclica, una serie de tiempo incluye la variación estacional. Este tipo de variación se define como un movimiento repetitivo y predecible alrededor de la línea de tendencia en un año o menos. Con el fin de detectar la variación estacional, los intervalos de tiempo necesitan medirse en unidades pequeñas, como días, semanas, meses o trimestres. Ejemplo. El hotel de veraneo desea establecer el patrón estacional de demanda de cuartos por parte de sus clientes. La administración desea mejorar el servicio al cliente y está considerando varios planes de contratación de personal durante los períodos picos. La tabla siguiente presenta la ocupación por trimestre, es decir, el promedio de huéspedes durante cada trimestre de los últimos cinco años. Año Número de huéspedes por trimestres I II III IV 2005 1861 2203 2415 1908 2006 1921 2343 2514 1986 2007 1834 2154 2098 1799 2008 1837 2025 2304 1965 2009 2073 2414 2399 1967
142
Solución: Año Trimestre Ocupación Total Promedio móvil de 4 móvil de trimestres los 4 trimestres
2005
2006
2007
2008
2009
I II III IV I II III IV I II III IV I II III IV I II III IV
1861 2203 2415 1908 1921 2343 2514 1986 1834 2154 2098 1799 1837 2025 2304 1965 2073 2414 2339 1967
8387 8447 8587 8686 8764 8677 8488 8072 7885 7888 7759 7965 8131 8367 8756 8791 8793
2096.75 2111.75 2146.75 2171.5 2191 2169.25 2122 2018 1971.25 1972 1939.75 1991.25 2032.75 2091.75 2189 2197.75 2198.25
Promedio móvil centrado de 4 trimestres
Porcentaje del valor real respecto al promedio móvil
2104.25 2129.25 2159.125 2181.25 2180.125 2145.625 2070 1994.625 1971.625 1955.875 1965.5 2012 2062.25 2140.375 2193.375 2198
114.8 89.6 89 107.4 115.3 92.6 88.6 108 106.4 92 93.5 100.6 111.7 91.8 94.5 109.8
Columna 4: Total móvil de 4 trimestres 1861 + 2203 + 2415 + 1908 = 8387 2203 + 2415 + 1908 + 1921 = 8447 2415 + 1908 + 1921 + 2343 = 8587 1908 + 1921 + 2343 + 2514 = 8686 1921 + 2343 + 2514 + 1986 = 8764 Etc. Se usa el término móvil porque cada vez se dispone de una nueva observación para la serie de tiempo, se reemplaza la observación más antigua en la ecuación y se calcula un nuevo promedio. En consecuencia, el promedio cambia o se mueve a medida que se dispone de nuevas observaciones. Columna 5: Promedio móvil de los 4 trimestres 8387 4 = 2096.75 8447 4 = 2111.75 8587 4 = 2146.75
143
8686 4 = 2171.5 8764 4 = 2191 Etc. Con este cálculo se determina la ocupación trimestral promedio para cada año. El valor de 2096.75 corresponde a la segunda mitad del segundo trimestre y a la primera mitad del tercero. De la misma manera, si avanzamos al siguiente valor de promedio móvil de 2111.75 el medio corresponde a la última mitad del tercer trimestre y a la primera del cuarto. Columna 6: Promedio móvil centrado de 4 trimestres (2096.75 + 2111.75) 2 = 2104.25 (2111.75 + 2146.75) 2 = 2129.25 (2146.75 + 2171.5) 2 = 2159.125 (2171.5 + 2191) 2 = 2181.25 (2191 + 2169.25) 2 = 2180.125 Etc. Cada punto en un promedio móvil centrado representa el valor de la serie de tiempo como si no hubiera influencias estacionales e irregulares. Tienden a suavizar las fluctuaciones estacionales e irregulares de la serie de tiempo. Columna 7: Porcentaje del valor real respecto al promedio móvil (2415 2104.25) x 100 = 114.8 (1908 2129.25) x 100 = 89.6 (1921 2159.125) x 100 = 89 (2343 2181.25) x 100 = 107.4 (2514 2180.125) x 100 = 115.3 Año
Trimestre I
2005 2006 2007 2008 2009
89 88.6 93.5 94.5 182.5
Trimestre II 107.4 108 100.6 109.8 215.4
Media modificada:
144
Trimestre III 114.8 115.3 106.4 111.7 226.5
Trimestre IV 89.6 92.6 92 91.8 183.8
Total de índices = 404.1 Ejercicio. Se tiene la siguiente serie de tiempo: Trimestr Año e 1 2 3 1 4 6 7 2 2 3 6 3 3 5 6 4 5 7 8 a) Determine los valores de promedio móvil y promedio móvil centrado de cuatro trimestre para esta serie de tiempo. b) Calcule los índices estacionales para los cuatro trimestres. 4.5 APLICACIÓN DE AJUSTES ESTACIONALES. 4.6 PRONÓSTICOS BASADOS EN FACTORES DE TENDENCIA ESTACIONALES. 4.7 PRONÓSTICOS, CICLOS E INDICADORES ECONÓMICOS. 4.8 PROMEDIOS MÓVILES. 4.9 SUAVIZACIÓN EXPONENCIAL COMO PRONOSTICO. 4.10 APLICACIONES DEL PAQUETE COMPUTACIONAL.
145
Y
146
147
ACTIVIDAD 1
Instituto Tecnológico Superior de Coatzacoalcos Alumna
MAILY CAROLINA DÍAZ Maestro
EDUARDO LÓPEZ DE LOS SANTOS Asignatura
ESTADÍSTICA II
Semestre
3° Grupo
“A” Ciclo
Enero-2012 junio-2013
148
INTRODUCCIÓN
Este tema se dedica al estudio de las series temporales. La idea es que la historia de una serie de nos puede dar información que puede sernos útil para saber cómo se comporta esta serie en el futuro. Una serie temporal se puede definir como una sucesión de observaciones cuantitativas cronológicamente ordenadas, o como una distribución bidimensional en la cual una de las componentes es el tiempo y la otra la propia variable en estudio. Su representación gráfica es un diagrama de coordenadas en donde el eje de abscisas contiene al tiempo y el de ordenadas a la variable que se desea estudiar. La lección se estructura desde el punto de vista clásico y esto supone definir las componentes de una serie: componente tendencial, componente estacional, componente cíclica y la residual; determinar cómo se pueden calcular cada una de ellas, y, además, determinar cómo se pueden combinar estas para obtener la serie a partir del conocimiento de sus componentes.
149
Series Temporales Una serie temporal o cronológica es una secuencia de datos, observaciones o valores, medidos en determinados momentos y ordenados cronológicamente. Los datos pueden estar espaciados a intervalos iguales (como la temperatura en un observatorio meteorológico en días sucesivos al mediodía) o desiguales (como el peso de una persona en sucesivas mediciones en el consultorio médico, la farmacia, etc.). Para el análisis de las series temporales se usan métodos que ayudan a interpretarlas y que permiten extraer información representativa sobre las relaciones subyacentes entre los datos de la serie o de diversas series y que permiten en diferente medida y con distinta confianza extrapolar o interpolar los datos y así predecir el comportamiento de la serie en momentos no observados, sean en el futuro (extrapolación pronóstico), en el pasado (extrapolación retrógrada) o en momentos intermedios (interpolación).. Uno de los usos más habituales de las series de datos temporales es su análisis para predicción y pronóstico (así se hace por ejemplo con los datos climáticos, las acciones de bolsa, o las series de datos demográficos). Resulta difícil imaginar una rama de las ciencias en la que no aparezcan datos que puedan ser considerados como series temporales. Las series temporales se estudian en estadística, procesamiento de señales, econometría y muchas otras áreas. Se define una serie temporal (también denominada histórica, cronológica o de tiempo) como un conjunto de datos, correspondientes a un fenómeno económico, ordenados en el tiempo. Componentes El análisis más clásico de las series temporales se basa en la suposición de que los valores que toma la variable de observación es la consecuencia de cuatro componentes, cuya actuación conjunta da como resultado los valores medidos, estos componentes son: 1. Tendencia secular o regular, indica la marcha general y persistente del fenómeno observado, es una componente de la serie que refleja la evolución a largo plazo. Por ejemplo, la tendencia creciente del índice de reciclado de basuras en los países desarrollados, o el uso creciente de Internet en la sociedad, independientemente de que en un mes concreto en
150
un país, por determinadas causas, haya una baja en la utilización de Internet. 2. Variación estacional o Variación cíclica regular. Es el movimiento periódico de corto plazo. Se trata de una componente causal debida a la influencia de ciertos fenómenos que se repiten de manera periódica en un año (las estaciones), una semana (los fines de semana) o un día (las horas puntas) o cualquier otro periodo. Recoge las oscilaciones que se producen en esos períodos de repetición. 3. Variación cíclica o Variación cíclica irregular. Es el componente de la serie que recoge las oscilaciones periódicas de amplitud superior a un año. movimientos normalmente irregulares alrededor de la tendencia, en las que a diferencia de las variaciones estacionales, tiene un período y amplitud variables, pudiendo clasificarse como cíclicos, cuasi cíclicos o recurrentes. 4. Variación aleatoria o ruido, accidental, de carácter errático, también denominada residuo, no muestran ninguna regularidad (salvo las regularidades estadísticas), debidos a fenómenos de carácter ocasional como pueden ser tormentas, terremotos, inundaciones, huelgas, guerras, avances tecnológicos, etc. 5. Variación Trasciende, accidental, de carácter errático debido a fenómenos aislados que son capaces de modificar el comportamiento de la serie (tendencia, estacionalidad variaciones cíclicas y aleatorias). Tipos de Series Temporales
Aditivas, se componen sumando la Tendencia, estacionalidad, variación cíclica regular, variación cíclica irregular, ruido:
Multiplicativas, se componen multiplicando la Tendencia, estacionalidad, variación cíclica regular, variación cíclica irregular, ruido:
Mixtas, se componen sumando y multiplicando la Tendencia, estacionalidad, variación cíclica regular, variación cíclica irregular, ruido. Existen varias alternativas, entre otras:
151
EJEMPLO La piratería sigue creciendo La tasa de piratería en el Perú fue del 73% en el 2004, cinco puntos porcentuales más que en el 2003, y las pérdidas por piratería de software ascendieron a 39 millones de dólares. Estos son algunos de los hallazgos de un estudio de piratería mundial de software publicado por la Business Software Alliance (BSA), asociación internacional de desarrolladores de software. El estudio independiente -que indica que la piratería de software continúa representando un gran desafío en todo el mundo- fue realizado por la consultora, Internacional Data Corporación (IDC). El informe indicó que el Perú está entre los cinco países con tasas de piratería mayores a la tasa latinoamericana, fijada en 66% por el estudio de IDC, que generó pérdidas por 1.546 millones de dólares. "En el Perú, siete de cada diez copias de software en uso hoy en día han sido obtenidas ilegalmente", dijo el presidente y CEO de Business Software Alliance, Robert Holleyman. "Las pérdidas por piratería de software ocasionan un gran impacto económico en los países de la región y en todo el mundo. Cada copia de software utilizada sin la licencia apropiada cuesta ingresos fiscales, empleos y oportunidades de crecimiento para mercados de software que están en desarrollo". La tasa de piratería de América Latina (66%) fue significativamente más alta que la tasa mundial, de 35%. De las seis regiones incluidas en el estudio, Latinoamérica fue la que registró la mayor tasa de piratería, seguida por la región identificada como "Resto de Europa" en el reporte (países que no son parte de la Unión Europea), con un 61%, Medio Oriente y África (58%), Asia-Pacífico (53%), la Unión Europea (35%) y Norteamérica (22%). La piratería todavía es mucho más fuerte en países y regiones donde el mercado de software está en crecimiento, a medida que la computación se integra más al trabajo y a la vida diaria", dijo John Gantz, el oficial principal de investigación en IDC. "La piratería sube o baja como consecuencia de una compleja ecuación que incluye, por un lado, la educación y el cumplimiento de las leyes; y, por otro, el ingreso de nuevos usuarios al mercado, la simplificación del acceso a software pirateado y/o nuevos factores externos, como el cambio en las condiciones políticas". Por su lado, Holleyman indicó que "los programas educativos, el fomento de políticas públicas y los esfuerzos de aplicación y ejecución de la ley de BSA alrededor del mundo continúan teniendo un impacto sobre el problema de la piratería. Pero la afluencia continua de nuevos usuarios en mercados emergentes y la creciente disponibilidad de software pirateado, principalmente a través de la Internet y redes P2P, demuestra que la educación permanente es esencial".
152
A nivel mundial, el 35% del software instalado en computadoras personales en el 2004 era pirateado, una baja de un punto porcentual del 36% en el 2003. No obstante, las pérdidas a raíz de la piratería incrementaron de 29 mil millones de dólares estadounidenses a 33 mil millones de dólares. En el 2004, en el mundo se gastaron más de 59 mil millones de dólares en software comercial empaquetado para PC, una cifra mayor a los 51 mil millones de dólares gastados en el 2003. Pero, en realidad, fue instalado software por más de 90 mil millones de dólares, un incremento de los 80 mil millones de dólares instalados el año anterior. El alza a 33 mil millones de dólares en pérdidas fue, en parte, producto de que el mercado de software para PC haya crecido en más de un 6%, y que el dólar estadounidense se haya debilitado en comparación con muchas de las divisas del mundo. Para este estudio, IDC utilizó estadísticas propias de envíos de software y hardware, realizó más de siete mil entrevistas en 23 países para confirmar las tendencias en piratería de software, y contó con analistas en más de 50 países para estudiar las condiciones de los mercados locales. El siguiente grafico muestra la cantidad en soles perdidos en el Perú durante los últimos 11 años en software piratas. Se presenta como Tendencia Secular se presenta como una tendencia decreciente a largo plazo.
153
CONCLUSIÓN En conclusión las series temporales se usan para estudiar la relación causal entre diversas variables que cambian con el tiempo y se influyen entre sí. Desde el punto de vista probabilístico una serie temporal es una sucesión de variables aleatorias indexadas según parámetro creciente con el tiempo. Cuando la esperanza matemática de dichas variables aleatorias es constante o varía de manera cíclica, se dice que la serie es estacionaria y no tiene tendencia secular. Muchas series temporales tienen una tendencia creciente (por ejemplo, el número de automóviles en uso en casi todos los países durante los últimos cincuenta años) o decreciente (por ejemplo, el número de personas que trabajan en la agricultura); otras no tienen tendencia (la luminosidad a horas sucesivas, que varía cíclicamente a lo largo de las 24 horas del día) y son estacionarias.
FUENTES DE INFORMACIÓN
https://www.ulpgc.es/hege/almacen/download/4/4968/Tema_4_teoria_y_pra ctica.pdf
http://www.eumed.net/cursecon/libreria/drm/1m.htm
154
ACTIVIDAD 2 EJEMPLO 1 Aテ前S
PERDIDAS
1993
52890000
1994
45945000
1995
28166700
1996
27500000
1997
10000000
1998
24960000
1999
28849300
2000
28000000
2001
28000000
2002
12000000
2003
11750000
2004
39000000
2005
31000000
PERDIDAS EN SOFTWARE PIRATAS 60000000
Ttotal de perdidas
50000000 40000000 30000000 PERDIDAS 20000000 10000000 0 1990
1995
2000 aテアos
155
2005
2010
EJEMPLO 2 Trimestre
Ventas
1
12
2
16
3
20
4
34
5
23
6
19
7
20
8
35
9
11
10
19
11
24
12
36
Ventas 40 35 30 25 20
Ventas
15 10 5 0 0
2
4
6
8
156
10
12
14
ACTIVIDAD 3
157
ACTIVIDAD 4 VIDEO
158
159
160
161
ESTADÍSTICA NO PARAMÉTRICA. Las pruebas paramétricas requieren supuestos acerca de la naturaleza o forma de las poblaciones involucradas, las pruebas no paramétricas no requieren supuestos acerca de las distribuciones poblacionales. En consecuencia, las pruebas de hipótesis no paramétricas suelen llamarse pruebas de distribución libre. Aunque el término no paramétrica sugiere que la prueba no se basa en un parámetro, hay algunas pruebas no paramétricas que si dependen de un parámetro, como la media. Sin embargo, las pruebas no paramétricas no requieren una distribución en particular, por lo que algunas veces se les conoce como prueba de distribución libre. Aunque distribución libre es una descripción más precisa, por lo regular se utiliza el término no paramétrica. Ventajas de los métodos no paramétricos: 1. Los métodos no paramétricos se aplican a una amplia variedad de situaciones, puesto que no tienen los requisitos más estrictos de los métodos paramétricos correspondientes. En particular, los métodos no paramétricos no requieren poblaciones distribuidas normalmente. 2. A diferencia de los métodos paramétricos, los métodos no paramétricos con frecuencia se aplican a datos categóricos, como el género de quienes responden una encuesta. 3. Los métodos no paramétricos por lo regular implican cálculos más sencillos que los métodos paramétricos correspondientes, por lo tanto, son más fáciles de entender y aplicar. Desventajas de los métodos no paramétricos: 1. Los métodos no paramétricos tienden a desperdiciar información, pues los datos numéricos exactos suelen reducirse a una forma cualitativa. Por ejemplo, en la prueba del signo no paramétrica, las pérdidas de peso de las personas que se someten a una dieta se registran simplemente como signos negativos; las magnitudes reales de las pérdidas de peso se ignoran. 2. Las pruebas no paramétricas no son tan eficientes como las pruebas paramétricas, por lo que para una prueba no paramétrica generalmente necesitaremos evidencia más fuerte para rechazar una hipótesis nula. 5.1 ESCALA DE MEDICIÓN. Escala nominal. En esta escala los números se usan solo para identificar categorías. No representan ninguna cantidad ni monto como tal. Ejemplo. Si cuatro áreas de ventas se numeran del 1 al 4 como números de identificación general. Entonces se emplea una escala nominal, ya que los números sirven simplemente como nombres de las categorías. Escala ordinal. En esta escala, los números representan rangos o grados. Los números indican magnitud relativa, pero las diferencias entre rangos no se suponen iguales.
162
Ejemplo. Un analista de inversiones clasifica cinco acciones del 1 al 5 en términos de potencial aumento de valor. La diferencia entre en el potencial aumento de valor entre las acciones clasificadas como 1 y 2 por lo general no será igual que. Por ejemplo la diferencia entre las acciones clasificadas como 3 y 4. Escala de intervalos. En esta escala. Se representan las diferencias medidas entre valores. Sin embargo, el punto cero es arbitrario y no es un cero “absoluto”. Por tanto, los números no pueden compararse mediante cocientes. Ejemplo. En cualquiera de las dos escalas de temperatura Fahrenheit o Celsius, una diferencia de 5°, por ejemplo de 70°F a 75°F, es la misma diferencia en temperatura que de 80°F a 85°F. Sin embargo, no se puede decir que 60°F sea el doble de calor que 30°F, debido a que el punto correspondiente a 0°F no es un punto cero absoluto (de completa ausencia de cualquier forma de calor). Escala de razón. En esta escala existe un verdadero punto cero, y por tanto las mediciones se pueden comparar en forma de cocientes. Ejemplo. No solamente es verdad que una diferencia en el valor de inventario de $5 000 es la misma diferencia entre, por ejemplo, $50 000 y $55 000 o entre $60 000 y $65 000; también es verdad que un valor de inventario de $100 000 es dos veces mayor que un valor de inventario de $50 000. 5.2 MÉTODOS ESTADÍSTICOS CONTRA NO PARAMETRICOS. El punto central del análisis paramétrico es algún parámetro poblacional para el que el estadístico muestral sigue una distribución conocida, las mediciones que se realizan pertenecen a las escalas de intervalo o de razón. Cuando no se satisface uno o más de estos requisitos o supuestos, entonces se puede usar los métodos llamados no paramétricos. Un término alternativo es método de distribución libre, el cual se enfoca de manera especial al hecho de que no se conoce la distribución del estadístico muestral. Si se justifica el uso de una prueba paramétrica, tal como la prueba “t”, entonces siempre se preferirá su uso al de su equivalente no paramétrica. Esto se debe a que si se usa el mismo nivel de significancia para ambas pruebas, entonces la potencia correspondiente a la prueba no paramétrica siempre es menor que la prueba paramétrica equivalente (la potencia de una prueba estadística es la probabilidad de rechazar una hipótes nula falsa). Las pruebas no paramétricas con frecuencia se usan con muestras pequeñas, debido a que con este tIpo de muestra no se puede invocar el teorema del límite central. Las pruebas no paramétricas pueden estar dirigidas hacia hipótesis concernientes a la forma, la dispersión o la localización (la mediana) de una población. En la mayoría de las aplicaciones, las hipótesis se refieren al valor de la media, a la diferencia entre medias o la diferencia entre varias medias. Esto contrasta con los procedimientos paramétricos que se centran sobre todo en las medias poblacionales.
163
La prueba Chi cuadrada representa un ejemplo de una prueba no paramétrica, ya que los datos que se analizan pertenecen a la escala nominal (datos categóricos).
5.3 PRUEBA DE CORRIDAS PARA ALEATORIEDAD. Una corrida es una serie de observaciones iguales. La prueba de corridas se usa para probar la aleatoriedad de una serie de observaciones cuando cada observación puede ser asignada a una de dos categorías. Ejemplo. Suponga que cuando una muestra aleatoria de n=10 personas se clasifica de acuerdo con el sexo, la secuencia de las observaciones es: M, M, M, M, F, F, F, F, M, M, en estos datos hay tres corridas o series de elementos iguales. Tratándose de datos numéricos, una manera de obtener un esquema de dos categorías es clasificar cada observación como superior o inferior a la mediana del grupo. En general, tanto muchas menos como muchas más corridas de las que se esperarían por azar conducen a rechazar la hipótesis nula de que la sucesión de las observaciones sea aleatoria. El número de corridas de elementos iguales se establece a partir de los datos muéstrales usando el símbolo “R” para designar el número de corridas observadas. Si n1 es el número de elementos de un tipo en la muestra y n2 es el número de elementos del otro tipo en la muestra, la media y el error estándar correspondiente a la distribución muestral del estadístico de la prueba “R” cuando la sucesión es aleatoria son: 2 n1 n2 u R n1 n2 1 2 n1 n2 2 n1 n2 n1 n2
R
n n n n 1 2
1
2
1
2
Si n1>20 o n2>20, la distribución muestral de “r” se aproxima a la distribución normal. Por tanto, bajo tales circunstancias el estadístico “R” se puede convertir en el estadístico de la prueba “z” como sigue: R uR Z R Ejemplo: Se entrevistó a una muestra de 36 personas en una encuesta de investigación de mercados, con 22 mujeres (M) y 14 hombres (H) incluidos en la muestra. Las personas que integraron la muestra se obtuvieron en el siguiente orden: H, M, M, M, M, H, H, H, M, H, M, M, M, H, H, M, M, M, M, H, M, M, M, H, H, M, M, M, H, M, H, H, M, M, M, H. Use la prueba de corridas para probar la aleatoriedad de este conjunto de observaciones, use un nivel de significancia de 5%. Solución. 2 n1 n2 (2)(22)(14) 616 u R n1 n2 1 22 14 1 36 1 18.1
164
R
2 n1 n2 2 n1 n2 n1 n2
n n n n 1 2
1
1
2
2
( 2)( 22)(14)( 2)( 22)(14) 22 14
22 14
2
( 22 14 1)
(616)(616 36) 2 (36) (35)
357280 2.81 45360 Con un nivel de 5% de significancia. Los valores críticos de z=1.96 R uR 17 18.1 Z 0.39 2.81 R Por lo tanto no se puede rechazar la hipótesis nula de que la secuencia de mujeres y hombres haya ocurrido de forma aleatoria.
Ejercicios 1. Un fabricante de cereal para el desayuno usa una máquina para introducir aleatoriamente uno de dos tipos de muñecos en cada caja. La compañía desea una aleatoriedad tal que no todos los niños de un vecindario terminen con el mismo muñeco. Los probadores eligen muestras de 60 cajas sucesivas para ver si la máquina está mezclando adecuadamente los dos tipos de muñecos. Usando los símbolos A y B para representar los dos tipos de muñecos, un probador reportó que uno de estos lotes se presentó como sigue: B, A, B, B, B, A, A, A, B, B, A, B, B, B, B, A, A, A, A, B, A, B, A, A, B, B, B, A, A, B, A, A, A, A, B, B, A, B, B, A, A, A, A, B, B, A, B, B, B, B, A, A, B, B, A, B, A, A, B, B. Solución: 2 n1 n2 (2)(29)(31) 1798 u R n1 n2 1 29 31 1 60 1 30.97 2 n1 n2 2 n1 n2 n1 n2 ( 2)( 29)(31)( 2)( 29)(31) 29 31 (1798)(1738) 2 2 2 R (60) (59) 29 31 (29 31 1) n1 n2 n1 n2 1
3124924 3.83 212400 Con un nivel de 5% de significancia. Los valores críticos de z=1.96 R uR 29 30.97 Z 0.513 3.84 R
No se rechaza la hipótesis nula y concluir que los muñecos se ponen en las cajas en orden aleatorio. 2. La tabla siguiente reporta una muestra de 40 montos de préstamos personales, la sucesión en la que se recolectaron los datos fue en sentido de los renglones de la tabla. La mediana del monto de los préstamos en la tabla es $944.50. Pruebe la aleatoriedad de esta sucesión de montos de préstamos clasificando cada cantidad como superior o inferior a la mediana. Use un nivel de significancia de 5%. 932 1000 356 2227 515 554 1190 954 452 973 300 2112 1900 660 1610 445 1200 720 1525 784 1278 1388 1000 870 2540 851 1890 630 586 329 935 3000 1650 1423 592 334 1219 727 655 590
165
Solución: 2 n1 n2 (2)(21)(19) 798 u R n1 n2 1 21 19 1 40 1 20.95 2 n1 n2 2 n1 n2 n1 n2 ( 2)( 21)(19)( 2)( 21)(19) 21 19 (798)(758) 2 2 2 R ( 40) (39) 21 19 (21 19 1) n1 n2 n1 n2 1
604884 3.11 62400 Con un nivel de 5% de significancia. Los valores críticos de z=1.96 R uR 28 20.95 Z 2.26 3.11 R Se rechaza la hipótesis nula
5.4 UNA MUESTRA: PRUEBA DE SIGNOS. La prueba de signos puede usarse para probar una hipótesis nula respecto al valor de la mediana poblacional. Por tanto, es el equivalente no paramétrico a una prueba de hipótesis respecto al valor de la media poblacional. Se requiere que los valores de la muestra aleatoria pertenezcan por lo menos a la escala ordinal, sin que requiera ningún supuesto acerca de la forma de la distribución de la población. Ejemplo: Se afirma que el número de unidades que se ensambla con un sistema rediseñado va a ser mayor que con el sistema anterior, para el cual la median poblacionales es de 80 unidades por turno de trabajo. Sin otorgarle el beneficio de la duda al sistema rediseñado. Pruebe con un nivel de significancia de 55 Realice la prueba de signos. Turno de trabajo que se Unidades ensambladas Signo de la diferencia muestreo (x) (X-80) 1 75 2 85 + 3 92 + 4 80 0 5 94 + 6 90 + 7 91 + 8 76 9 88 + 10 82 + 11 96 + 12 83 +
p=0.5 q=0.5
166
n=11 x=9.10.11 Respuesta 0.0328 La siguiente tabla reporta las ventas unitarias de una nueva herramienta en una muestra de 12 sucursales durante cierto mes. No se conoce la forma de la distribución y por tanto, dado el pequeño tamaño de la muestra, una prueba estadística paramétrica no es adecuada. Use la prueba de signos respecto a la hipótesis nula de que la mediana del monto de ventas en la población no es mayor que 10 unidades por sucursal. Use un nivel de significancia de 5% Herramientas/sucursal 8 18 9 12 10 14 16 7 14 11 10 20 Respuesta 0.1719 la hipótesis nula no puede rechazarse 5.5 UNA MUESTRA: PRUEBA DE WILCOXON. 5.6 DOS MUESTRAS: PRUEBA DE MANN-WHITNEY. 5.7 OBSERVACIONES PAREADAS: PRUEBA DE SIGNOS. 5.8 OBSERVACIONES PAREADAS PRUEBA DE WILCOXON. 5.9 VARIAS MUESTRAS INDEPENDIENTES: PRUEBA DE KRAUSKAL_WALLIS. 5.10 APLICACIONES DEL PAQUETE COMPUTACIONAL.
167
168
169
ACTIVIDAD 1
Instituto Tecnológico Superior de Coatzacoalcos
Febrero/2014 – Junio/2014 Nombre de las Alumnas:
DÍAZ ORTIZ
MAILY CAROLINA TANIA GUADALUPE
MEDINA
Tarea 1. Unidad 5 ASIGNATURA:
ESTADÍSTICA II
Nombre del Docente
CARRERA: No. Control:
LÓPEZ Apellido Paterno
ING.ADMINISTRACIÓN 12081375 12081419
DE LOS SANTOS Apellido Materno
Semestre: Fecha de inicio:
170
4º
FEB/14
EDUARDO Nombre(s)
Grupo: Fecha de término:
“A”
JUN/14
Citar las ventajas y desventajas de utilizar métodos no paramétricos.
Métodos no paramétricos Ventajas Desventajas 1.- No requieren la suposición de que 1.- Ignoran cierta cantidad de una población está distribuida en forma información. de curva normal u otra forma específica. 2.- A menudo no son tan eficientes o claras como las pruebas paramétricas. 2.- Generalmente, es más sencillo Cuando se hacen pruebas no realizarlas y entenderlas, la mayor parte paramétricas perdemos agudeza en la de las pruebas no paramétricas no estimación de intervalos, pero ganamos exigen de cálculos laboriosos a menudo la posibilidad de usar menos necesarios, por ejemplo: Para calcular información y calcular con mayor una desviación estándar. rapidez. 3.- Algunas veces ni siquiera se requiere un ordenamiento o clasificación formal. Muchas veces lo que podemos hacer es describir un resultado como mejor que otro. Cuando esto ocurre, o cuando nuestras mediciones no son tan exactas como es necesario para las pruebas paramétricas, podemos usar métodos no paramétricos.
3.- No son sistemáticas. 4.- No se tiene una distribución fija para este tipo de prueba, por lo que en ocasiones puede ser un problema el elegir el resultado adecuado.
5.- Las tablas necesarias para aplicar las pruebas no paramétricas están muy difundidas y aparecen en diferentes formatos lo que ocasiona confusión en 4.- Si el tamaño de la muestra es muy el investigador. pequeño puede no haber otra opción que usar una prueba o método de 6.- Son menos sensibles ese, por estadística no paramétrica, a menos ejemplo, diferencias más grandes son que la naturaleza de la distribución de necesarias rechazar la hipótesis nula. la población se conozca con exactitud. 7.- Tiende para ser menos eficiente. 5.- Las pruebas no paramétricas Tamaños de muestra más grandes se típicamente hacen menos suposiciones requieren generalmente. Por ejemplo, acerca de los datos y pueden ser aun la prueba de muestra no paramétrica es más relevantes a una situación el cerca de 60% tan eficiente como la particular. prueba de z. 6.- Son más investigación.
adecuadas
para
la 8.- Los métodos no paramétricos tienden a desperdiciar información porque los datos numéricos exactos 7.- Los métodos no paramétricos están suelen reducirse a una forma
171
disponibles para tratar datos que son simplemente clasificatorios o categóricos, es decir, que son medidos en una escala nominal.
cualitativa. 9.- Llevan a una mayor probabilidad de no rechazar una hipótesis nula falsa (incurriendo en un error de tipo II).
8.- Son adecuadas para tratar muestras 10.- No hacen suposiciones sobre la obtenidas de observaciones de constitución de los datos de la diferentes poblaciones. población. 9.- Son más fáciles de aprender y su interpretación suele ser más directa. 10.- En la mayoría de los casos, los cómputos son más fáciles que ésos para las contrapartes paramétricas.
172
ACTIVIDAD 2
Prueba del Signo para Muestras Pareadas EJEMPLO 1 Una compañía de taxis trata de decidir si el uso de llantas radiales en lugar de llantas regulares con cinturón mejora la economía de combustible. Se equipan 16 automóviles con llantas radiales y se manejan por un recorrido de prueba establecido. Sin cambiar de conductores, se equipan los mismos autos con llantas regulares con cinturón y se manejan una vez más por el recorrido de prueba. Se registra el consumo de gasolina, en kilómetros por litro, de la siguiente manera: Automóvil
Llantas radiales
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9
Llantas con cinturón 4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8
¿Se puede concluir en el nivel de significancia de 0.05 que los autos equipados con llantas radiales obtienen mejores economías de combustible que los equipados con llantas regulares con cinturón? Solución:
173
Regla de decisión: Si zR
1.645 no se rechaza Ho.
Si zR> 1.645 se rechaza Ho. Se procede a realizar las diferencias entre de los kilómetros por litro entre llantas radiales y con cinturón: Automóvil
Llantas radiales
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9
Llantas con cinturón 4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8
d + + + + 0 + + 0 + + + + +
Al observar las diferencias se ve que sólo existe una n=14, ya que se descartan los valores de cero. Se tiene r+ = 11
Decisión y conclusión: Como 2.14 es mayor a 1.645 se rechaza H0 y se concluye con un las llantas radiales mejoran la economía de combustible.
174
= 0.05 que
EJEMPLO 2 Un artículo informa cerca de un estudio en el que se modela el motor de un cohete reuniendo el combustible y la mezcla de encendido dentro de un contenedor metálico. Una característica importante es la resistencia al esfuerzo cortante de la unión entre los dos tipos de sustancias. En la siguiente tabla se muestran los resultados obtenidos al probar 20 motores seleccionados al azar. Se desea probar la hipótesis de que la mediana de la resistencia al esfuerzo cortante es 2000 psi, utilizando = 0.05. Solución: Se mostrará la tabla del ejercicio y es función del investigador poner los signos con respecto a la mediana.
Observación
Resistencia al esfuerzo cortante xi
1 2 3 4 5 6 7 8 9 10
2158.70 1678.15 2316.00 2061.30 2207.50 1708.30 1784.70 2575.10 2357.90 2256.70
Signo de la diferencia xi2000
+ + + + + + +
Observación
11 12 13 14 15 16 17 18 19 20
Resistencia al esfuerzo cortante xi
Signo de la diferencia xi-2000
2165.20 2399.55 1779.80 2336.75 1765.30 2053.50 2414.40 2200.50 2654.20 1753.70
De la tabla se puede observar que el estadístico de prueba r+ = 14. Regla de decisión: Si el valor de P correspondiente a r+=14 es menor o igual que rechaza H0.
=0.05 se
Cálculos: Puesto que r+=14 es mayor que n/2=20/2=10, el valor de P se calcula de
175
+ + + + + + + -
P=2P(R+
14 cuando p = ½)
La P se calcula con la fórmula de la distribución binomial:
Conclusión: Como P=0.1153 no es menor que =0.05, no es posible rechazar la hipótesis nula de que la mediana de la resistencia al esfuerzo constante es 2000 psi.
176
EJEMPLO 3 Como parte de un estudio sobre transferencia del aprendizaje entre tareas simples y complejas, se diseña un experimento en el que cada sujeto se le presenta 5 tareas simples y a continuación 1 tarea compleja. Al finalizar ésta se le pregunta a cada sujeto si le ha parecido más fácil o más difícil que las 5 anteriores. Si algún sujeto contestaba “igualmente difícil”, se le seguía preguntando hasta decidirse por “más fácil “o “más difícil “. Las respuestas dadas por los 10 sujetos fueron: SUJETO
1 2 3 4 5 6 7 8 9 10
RESPUESTA D F F D F F F D F F ¿Podemos concluir que ha habido transferencia, a un nivel de significación de 0,01? Siendo D (Mas difícil = - ) y F = + -) "½ (No ha habido transferencia) H1: P (-) <½ (Ha habido transferencia) -) es constante por cada sujeto.
(3 + 0,5) - (10 / 2) Z = -0,949 “10 / 4 = 0,01 y Z0,01 = -2,33:
-0,949 > -2,33, mantenemos H0. No hay evidencia suficiente para concluir que ha habido transferencia. Sólo si T hubiera tomado valor 0, podríamos haber llegado a tal conclusión ya que P (T " 0) " 0,001 < 0,01.
177
ACTIVIDAD 3
Instituto Tecnológico Superior de Coatzacoalcos
Febrero/2014 – Junio/2014
Nombre del Alumno
DÍAZ ORTIZ Apellido Paterno
MEDINA Apellido Materno
MAILY CAROLINA TANIA GUADALUPE Nombre(s)
Reporte de Investigación ASIGNATURA:
ESTADÍSTICA II
Nombre del Docente
CARRERA:
LÓPEZ Apellido Paterno
ING.ADMINISTRACIÓN
DE LOS SANTOS Apellido Materno
Semestre:
178
4º
EDUARDO Nombre(s)
Grupo:
“A”
ÍNDICE PRESENTACIÓN .................................................................................................... 1
ÍNDICE ................................................................................................................. 2
INTRODUCCIÓN .................................................................................................... 3
DESARROLLO ..................................................................................................... 4-9
CONCLUSIÓN ................................................................................................... 10
BIBLIOGRAFIA ..................................................................................................... 11
179
INTRODUCCIÓN
Antes de adentrar al tema de la prueba de corridas para analizar la aleatoriedad pues debemos tomar en cuenta que esta se encuentra dentro de la estadística no paramétrica que es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori (se utilizan para distinguir entre dos tipos de conocimiento: el conocimiento a priori es aquel que, en algún sentido importante, es independiente de la experiencia; mientras que el conocimiento a posteriori es aquel que, en algún sentido importante, depende de la experiencia.), pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo. Este método es muy importante ya que su principal objetivo o uso es para que se analice la aleatoriedad de varias observaciones pero esto será cuando cada observación se le puede asignar hasta dos categorías.
180
PRUEBA DE CORRIDAS PARA ANALIZAR LA ALEATORIEDAD DE UNA SERIE DE OBSERVACIONES CUANDO CADA OBSERVACION PUEDE SER ASIGNADA ADOS CATEGORIAS.
Una corrida es una serie de observaciones similares. La prueba de corridas se usa para probar la aleatoriedad de una serie de observaciones cuando cada observación puede ser asignada a una de dos categorías. Es un método para determinar la aleatoriedad con la que se han seleccionado los elementos muestreados.
Concepto de aleatoriedad.
Aleatorio se asocia a todo proceso cuyo resultado no es previsible más que en razón de la intervención del azar. El término aleatoriedad se usa a menudo como sinónimo con un número de propiedades estadísticas medibles, tales como la carencia de tendencias o correlación. El resultado de todo suceso aleatorio no puede determinarse en ningún caso antes de que este se produzca. El estudio de los fenómenos aleatorios queda dentro del ámbito de la teoría de la probabilidad y, en un marco más amplio, en el de la estadística.
Teoría de corridas.
Una corrida es una secuencia de ocurrencias idénticas precedidas y seguidas de ocurrencias diferentes. Por ejemplo:
181
Una prueba de corridas con dos tipos de ocurrencias tiene los siguientes símbolos:
n1= número de ocurrencias del tipo 1 n2= número de ocurrencias del tipo 2 r= número de corridas
Ejemplo 1. En relación con una muestra aleatoria de n = 10 individuos, supongamos que cuando se les clasifica por sexo la secuencia de observaciones es: M, M, M, M, F, F, F, F, M, M. Estos datos contienen tres corridas, o series de elementos semejantes. Respecto de datos numéricos, un medio para obtener el esquema requerido de dos categorías es clasificar cada observación según si es superior o inferior a la mediana del grupo. En general, mucho menos corridas o mucho más corridas que las que serían de esperar al azar resultarían en el rechazo de la hipótesis nula de que la secuencia de observaciones es una secuencia aleatoria. El número de corridas de elementos semejantes se determina de acuerdo con los datos muéstrales, con el uso del símbolo R para designar el número de corridas observadas. Sin1 equivale al número de elementos muestreados de un tipo y n2 al número de elementos muestreados del segundo tipo, la media y el error estándar asociados con la distribución de muestreo de la estadística de prueba R cuando la secuencia es aleatoria son Sin, n1 > 20 o n2 > 20, la distribución de muestreo de r aproxima la distribución normal. Por lo tanto, en estas circunstancias la estadística R puede convertirse a la estadística de prueba z.
182
Ejemplo 2. Un fabricante de cereal para el desayuno usa una máquina para introducir aleatoriamente uno de los dos tipos de muñecos en cada caja. La compañía desea una aleatoriedad tal que no todos los niños de un vecindario terminen con el mismo muñeco. Los probadores eligen muestras de 60 cajas sucesivas para ver si la máquina está mezclando adecuadamente los dos tipos de muñecos. Usado los símbolos A y B para representar los dos tipos de muñecos, un probador reportó que uno de estos lotes se presentó como sigue: B,A,B,B,B,A,A,A,B,B,A,B,B,B,B,A,A,A,A,B,A,B,A,A,B,B,B,A,A,B,A,A,A,A,B,B,A, B,B,A,A,A,A,B,B,A,B,B,B,B,A,A,B,B,A,B,A,A,B,B.
Valores de la prueba: n1= 29 n2= 31 r= 29
183
CORRIDAS POR ARRIBA Y POR ABAJO DEL PROMEDIO
Procedimiento Generar la muestra de tamaño N de números aleatorios. Con base en esta muestra, obtener una nueva sucesión binaria, según el criterio siguiente:
Si rj es menor o igual a 0.50 entonces asignarle a rj el símbolo 0. Si rj es mayor a 0.50 entonces asignarle a rj el símbolo 1. La frecuencia esperada para cada longitud de corrida i, es:
184
EJEMPLO 6. Dada la siguiente muestra de tamaño 30 de números aleatorios, aplicar la prueba de corridas, para la independencia
Comparando los números aleatorios según el criterio establecido, se obtiene la siguiente sucesión binaria. Leyendo de izquierda a derecha se agrupan los símbolos del mismo tipo para formar las corridas.
En la siguiente tabla se resume la información necesaria para el cálculo de la Ji-cuadrada
Como para las longitudes de corrida i = 2, 3, 4, 5; las frecuencias observadas son menores o igual a cinco, agrupamos estas longitudes de corridas en una sola longitud de corrida? 2.
185
El valor en tablas de X21.5%= 3.84; entonces no se puede rechazar la independencia de los números aleatorios.
CORRIDAS ASCENDENTES Y DESCENDENTES Procedimiento 1.
Generar
la
muestra
de
tamaño
N
de
números
aleatorios.
2. Construir la sucesión binaria de acuerdo al siguiente criterio: Si
rj
es
menor
o
igual
a
rj+1 entonces
asignarle
a
rj el
símbolo
0.
Si rj es mayor que rj+1 entonces asignarle a rj el símbolo 1. 3. Con base en la distribución X2, efectuar la prueba, donde la frecuencia esperada de las longitudes de corrida i se calculará con:
EJEMPLO. Aplicar la prueba de las corridas ascendentes y descendentes a la muestra de números aleatorios del ejemplo anterior. Compararemos a los números por fila, pero es indistinto hacerlo por columna.
0.15
0.31
0.81
0.48
0.01
0.60
0.26
0.34
0.70
0.31
0.07
0.06
0.33
0.49
0.77
0.04
0.43
0.92
0.25
0.83
0.68
0.97
0.11
0.00
0.18
0.11
0.03
0.59
0.25
0.55
Ahora la sucesión binaria es
186
0
0
1
1
0
1
0
0
0
1
1
0
0
0
1
0
1
1
0
1
0
1
1
0
1
1
0
1
0
Obsérvese que la última celda se deja en blanco, pues no hay con que número comparar. (Aquí N = 29)
Longitud de corrida i
FE
FO
(FE-FO)2/FE
1
11.500
11
0.020
2
5.083
5
0.001
3
1.400
2
0.257
4
0.292
-
5
0.005
-
i
FE
FO
(FE-FO)2/FE
1
11.500
11
0.020
>=2
6.483
7
0.004
187
X02 = 0.024 Como el valor calculado de 0.024 es menor que el valor en tablas de Jicuadrada X21.5%= 3.84, no se puede rechazar la independencia de los números aleatorios.
CONCLUSIÓN Con estos temas sobre la prueba vista desde sus ámbitos logramos conocer al detalle su aleatoriedad de una serie y sus observaciones, aun cuando cada observación se asigna a dos categorías. Las pruebas principales para revisar la uniformidad ayuda de manera importante y la prueba de corridas es esencial ya que vimos que sirven generalmente para verificar si una variable aleatoria sigue una distribución potencial y también sabemos que existen muchas pruebas para excluir determinadas regularidades con los datos generados; cada prueba chequea un solo aspecto de las posibles dependencias pero obviamente tomando en cuenta las aleatoriedades de las series aplicadas. ORTIZ MEDINA TANIA GUADALUPE
En mi opinión la prueba de corridas es muy importante ya que sirve para conocer la aleatoriedad, también cabe recalcar que la aleatoriedad es el hecho de que tanto lo experimental como el orden en que se realizan las pruebas individuales o ensayos se determinan aleatoriamente. Lo que fundamentalmente se busco en esta investigación fue entender más que nada por medio de ejemplos en que tipos de ejercicios aplicar las distintas pruebas de corridas aun
188
cuando aquí nos referimos más en las de aleatoriedad para las series. Debemos tomar en cuenta cada procedimiento para obtener resultados correctos y tomar las mejores decisiones respecto a un problema con series y dos categorías. DIAZ MAILY CAROLINA
BIBLIOGRAFÍA
http://www.slideshare.net/FELIXCastroGarcia/unidad-v-estadstica-noparamtrica http://pendientedemigracion.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat _est/tema07.pdf
http://www.tesoem.edu.mx/alumnos/cuadernillos/2010.031.pdf
www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r52509.DOCX
http://webcache.googleusercontent.com/search?q=cache:kWfbBuaAescJ:w ww.sites.upiicsa.ipn.mx/polilibros/portal/Polilibros/P_terminados/SimSist/doc /SIMULACI-N-131.htm+&cd=6&hl=es&ct=clnk&gl=mx
189
ACTIVIDAD 4
Prueba de Wilcoxon de rangos señalados y pares igualados para dos muestras dependientes EJEMPLO 1 Los siguientes datos representan el número de horas que un compensador opera antes de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2 y 1.7. Utilice la prueba de rango con signo para probar la hipótesis en el nivel de significancia de 0.05 que este compensador particular opera con una media de 1.8 horas antes de requerir una recarga. Solución: H0; = 1.8 H1; 1.8 Se procederá a efectuar las diferencias y a poner rango con signo a los datos. Dato di = dato - 1.8 Rangos 1.5 -0.3 5.5 2.2 0.4 7 0.9 -0.9 10 1.3 -0.5 8 2.0 0.2 3 1.6 -0.2 3 1.8 0 Se anula 1.5 -0.3 5.5 2.0 0.2 3 1.2 -0.6 9 1.7 -0.1 1 Regla de decisión: Para una n = 10, después de descartar la medición que es igual a 1.8, la tabla A.16 muestra que la región crítica es w 8. Cálculos: w+ = 7 + 3 + 3 = 13 w- = 5.5 + 10 + 8 + 3 + 5.5 + 9 + 1 = 42 por lo que w = 13 (menor entre w+ y w-). Decisión y Conclusión:
190
Como 13 no es menor que 8, no se rechaza H0 y se concluye con un 0.05 que el tiempo promedio de operación no es significativamente diferente de 1.8 horas.
=
EJEMPLO 2 Se afirma que un estudiante universitario de último año puede aumentar su calificación en el área del campo de especialidad del examen de registro de graduados en al menos 50 puntos si de antemano se le proporcionan problemas de muestra. Para probar esta afirmación, se dividen 20 estudiantes del último año en 10 pares de modo que cada par tenga casi el mismo promedio de puntos de calidad general en sus primeros años en la universidad. Los problemas y respuestas de muestra se proporcionan al azar a un miembro de cada par una semana antes del examen. Se registran las siguientes calificaciones del examen: Par
1 2 3 4 5 6 7 8 9 10
Con problemas de muestra 531 621 663 579 451 660 591 719 543 575
Sin problemas de muestra 509 540 688 502 424 683 568 748 530 524
Pruebe la hipótesis nula en el nivel de significancia de 0.05 de que los problemas aumentan las calificaciones en 50 puntos contra la hipótesis alternativa de que el aumento es menor a 50 puntos. Solución: La prueba de rango con signo también se puede utilizar para probar la hipótesis nula 1- 2 = d0. En este caso las poblaciones no necesitan ser simétricas. Como con la prueba de signo, se resta d0 de cada diferencia, se clasifican las diferencias ajustadas sin importar el signo y se aplica el mismo procedimiento. En este caso d0 = 50, por lo que se procede a calcular las diferencias entre las muestras y luego restarles el valor de 50. Se representara con 1 y 2 la
191
calificación media de todos los estudiantes que resuelven el examen en cuestión con y sin problemas de muestra, respectivamente. H0; 1 - 2 = 50 H1; 1 - 2 < 50 Regla de decisión: Para n=10 la tabla muestra que la región crítica es w+ 11. Cálculos: Par
1 2 3 4 5 6 7 8 9 10
Con problemas de muestra 531 621 663 579 451 660 591 719 543 575
Sin problemas de muestra 509 540 688 502 424 683 568 748 530 524
di
22 81 -25 77 27 -23 23 -29 13 51
di – d0
-28 31 -75 27 -23 -73 -27 -79 -37 1
Rangos
5 6 9 3.5 2 8 3.5 10 7 1
w+ = 6 + 3.5 + 1 = 10.5 Decisión y Conclusión: Como 10.5 es menor que 11 se rechaza H0 y se concluye con un = 0.05 que los problemas de muestra, en promedio, no aumentan las calificaciones de registro de graduados en 50 puntos.
192
EJEMPLO 3 Un investigador desea comparar el nivel de C.I. en jóvenes universitarios del 1er semestre con el C.I. de los mismos universitarios cuando estén en 6to semestre. Elección de la prueba estadística. El modelo experimental tiene dos muestras dependientes. Las mediciones no tienen una escala de intervalo, por lo que su ordenamiento se hace en escala ordinal. Planteamiento de la hipótesis. Hipótesis alterna (Ha). El nivel de C.I. de los jóvenes universitarios estando en 1er semestre es menor al que adquieren al estar en 6to semestre. Hipótesis nula (Ho). No habrá diferencia en el nivel de C.I. de los jóvenes universitarios estando en 1er semestre y cuando estén en 6to semestre. Nivel de significación. Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho. Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
193
Aplicación de la prueba estadística. Efectuar las diferencias entre los datos sobre le C.I. antes y después, elaborar los rangos de las diferencias y hacer la sumatoria de los rangos de signo de menor frecuencia.
Sumat oria de T = 201.5 La sumatoria del valor T de Wilcoxon es igual a 201.5 y, como se especificó en los pasos, éste se debe transformar en valor de Z, para conocer la probabilidad de que aquella sea o no significativa. Para ello debemos calcular primero el promedio y la desviación estándar de la T de Wilcoxon.
Una vez calculados el promedio y la desviación estándar del valor T de Wilcoxon, calculamos el valor Z.
194
El valor ZT calculado se localiza entre los valores Z de la distribuci贸n normal de la tabla de probabilidades asociadas en valores extremos como los de 2 en la distribuci贸n normal. En la intersecci贸n de la hilera donde se encuentra el 0.6 y la columna 0.03, se puede observar la cifra 0.2643, la cual indica la probabilidad de que la magnitud de ZT difiera de T. Decisi贸n. La probabilidad de 0.2643 es mayor que 0.05, por lo cual se acepta Ho y se rechaza Ha. 0.2643 > 0.05 se rechaza Ha
195
ACTIVIDAD 5
196